대규모 언어모델을 이용해 3D 콘텐츠의 절차형 모델링을 실현하는 프레임워크 "3D-GPT" 등장

호주와 중국 연구팀이, 대규모 언어 모델과 2D 애니메이션과 3DCG 제작 도구인 블렌더를 조합해, 인간이 자연어로 입력한 문장을 적절히 해석해 고정밀 3D 콘텐츠를 만들어내는 프레임워크 "3D-GPT"를 발표했다.

 


기본적인 규칙과 세트를 기반으로 3D 모델과 텍스처를 생성하는 절차형 모델링은, 효율적인 콘텐츠 작성을 추구하는 데 유망한 선택지가 되고 있지만, 절차형 모델링을 실행하려면 규칙과 알고리즘, 파라미터에 대한 이해가 필요하며, 인간 크리에이터에게 절차형 모델링 작업은 부담이 크다는 문제가 있다.

이에 연구팀은, 명령구동형 3D 모델링에 대규모 언어 모델을 사용하는 프레임워크 "3D-GPT"를 개발했는데, 3D-GPT에서는 대규모 언어 모델이 "숙련된 문제 해결사" 역할을 맡아, 3D 모델링에 필요한 태스크를 관리 가능한 세그먼트로 분할해 각각 적절한 에이전트가 작업을 수행한다고 한다.

 


3D-GPT는 주로 "태스크 디스패치 에이전트", "개념화 에이전트", "모델링 에이전트"라는 3개의 에이전트로 구성되어 있으며, .태스크 디스패치 에이전트는 인간이 입력한 프롬프트를 받아 후속 처리에 필요한 함수를 지시하고, 나머지 두 에이전트 간 협력을 촉진한다는 것. 개념화 에이전트는 인간 프롬프트에 포함되어 있지 않지만, 3D 컨텐츠 생성에 필요한 기술을 보충하기 위한 추론을 수행하고, 모델링 에이전트가 Blender의 API를 호출하기 위한 Python 코드 생성과 같은 처리를 수행.

이들 에이전트가 협조함으로써, 인간이 입력한 장면에 대한 설명을 체계적으로 강화하고, 이후 인간의 지시에 따라 텍스트를 동적으로 적응시키는 것이 가능하다고 연구팀은 설명하고 있다.

 


아래는, 실제로 3D-GPT에 입력한 텍스트와 생성된 3D 콘텐츠를 조합한 동영상으로, 모두 상당히 높은 정확도로 장면이 3D로 생성되고 있음을 알 수 있다.

"The desert, an endless sea of shifting sands, stretched to the horizon, its ripping dunes catching the golden rays of the setting sun, creating an ever-changing landscape of shadows and light.(물결치는 모래언덕이 석양의 금빛 빛을 받아 그림자와 빛이 시시각각 변화하는 풍경을 만들어내고 있다)"라는 텍스트로 생성된 동영상이 이것이다.

 


"The lake, serene and glassy, mirrored the cloudless sky above, reflecting the surrounding mountains and graceful flight of a heron, aslily pads floated like emerald jewels uponitstranquil surface.(고요한 호수면은 유리로 덮여 있고 구름 한 점 없는 하늘과 주위의 산들, 우아하게 나는 토끼를 비추고 있다.그 조용한 호수면에는 에메랄드 보석 같은 은방울꽃이 떠 있다)"라는 텍스트에서 생성된 동영상이 이것.

 


연구팀은, "우리의 실증적인 조사를 통해, 3D-GPT가 명령을 해석하고, 실행해 신뢰할 수 있는 결과를 가져올 뿐만 아니라, 인간 디자이너와 효과적으로 협력하는 것이 확인됐습니다. 게다가 3D-GPT는 Blender와 심리스하게 통합되어, 조작 가능성을 넓힙니다. 우리의 연구는 3D 모델링에서 대규모 언어 모델의 가능성을 강조하고, 장면과 애니메이션 생성의 미래 진보를 위한 기본 틀을 가져옵니다"고 코멘트.