default_top_notch
default_setNet1_2

틱톡 참전… 판 커진 영상 생성 AI

기사승인 [169호] 2024.05.01  

공유
default_news_ad1

- [COVER STORY] ‘소라’가 쏘아올린 동영상 AI 시대- ② 오픈AI에 도전장

 

두즈항 杜知航 관충 關聰 <차이신주간> 기자
 

   
▲ 인공지능(AI) 업계에서는 데이터가 많고 자금력이 막강한 틱톡의 모회사 바이트댄스가 짧은 동영상 서비스를 기반으로 오픈AI가 개발한 문자 기반 영상 생성 모델 소라(Sora)와 비슷한 제품을 적용할 가능성이 크다고 평가한다. REUTERS

특수효과 의존도가 높은 영화는 특수시각효과업체가 감독보다 먼저 시나리오를 받을 때가 있다. 콘셉트를 설정하고 제작사의 예산 편성을 돕기 위해서다. 이 과정이 3개월에서 반년까지 걸리는데 미국 인공지능(AI) 기업 오픈AI가 개발한 문자 기반 영상 생성 모델 소라(Sora)는 이 과정을 1주일 안에 집중해서 처리할 수 있다. 영화 <타이타닉>과 <벤자민 버튼의 시간은 거꾸로 간다>에 참여한 특수시각효과업체 디지털도메인의 셰안 최고경영자(CEO)는 “할리우드에서 예산이 1억달러를 넘거나 2천만달러 이하인 영화는 성공 할 기회가 있는데, 고예산 영화는 시각효과에 대한 기대치가 높아서 배우가 콘셉트에 따라 시각효과를 조율하면서 바로 수정하기 때문에 지금의 문자 기반 영상 생성 기술로는 그 수준에 도달하긴 어렵다”고 말했다.
“극장용 영화의 화질은 2K(QHD)에서 4K(UHD) 사이고 AI로 생성한 콘텐츠는 2D(2차원) 소재에 기반한 것이어서 3D(3차원) 세계에 관한 판단이 부정확할 수 있다.” 셰안 CEO는 디지털 자산의 품질이 높을수록 딥러닝 과정이 효율적이라고 말했다. 예를 들어 디지털도메인은 30년 넘게 디지털 자산을 축적했고 전부 시나리오에 나오는 문자로 생성한 것인데 3D 형태로 돼 있어서 딥러닝과 거대언어모델을 통해 시나리오와 일치시키면 자연스럽게 새로운 생산 파이프라인을 만들 수 있다. 그리고 이런 데이터는 모두 회사의 지식재산권(IP)에서 나온 것이라 법률문제도 피할 수 있다. 그는 “AI를 계기로 새로운 가치를 찾는 방법을 고민했고 연산능력 등 여러 분야에서 협력사의 힘을 빌려야 한다”고 말했다.
“AI가 사람을 대체하려면 시간이 걸리겠지만 미래에는 양쪽으로 나뉠 가능성이 크다. 우수한 콘텐츠는 살아남고 중간 수준의 콘텐츠는 가치가 없어질 것이다.” 홍콩에 상장한 드라마 제작사 관계자는 이렇게 말했다.
AI생성콘텐츠(AIGC) 기업 원더쉐어의 주웨이 부사장은 “AI가 등장한 후 배우의 동작만 촬영하고 세트와 배경, 전체 콘텐츠의 통합까지 AI로 영상을 생성할 수 있다. 짧은 동영상 제작과 유통, 특히 짧은 웹드라마 업계에는 호재일 것”이라고 말했다.
 

   
▲ 포패러다임 등 중국의 인공지능(AI) 신생기업이 오픈AI의 소라에 잇따라 도전장을 내밀면서 동영상 생성 AI 시장도 판을 키웠다. REUTERS

3D 개발과 응용에 AI 도입
게임 제작도 영화 콘텐츠와 비슷하다. 생성형 AI는 결과의 불확실성이 강해 제품의 정밀도 요건에 부합하기 어렵고, AI 생성 콘텐츠는 스타일을 선택하고 효과를 미리 체험하는 등 양산과 효율 제고 단계에서 역할을 할 수 있다.
게임업체 넷이즈 관계자는 현실을 배경으로 한 게임 장면에서 소라를 사용할 수 있다고 말했다. 예를 들어 축구게임에서는 경기장에서 방영하는 광고를 문자 기반 영상 생성 기술로 제작할 수 있다. 실제 업무에서 소라를 사용할 수 있는 분야는 참고 자료와 이미지, 동영상 등의 소재를 제공하거나 영상을 확장하거나 병합하고 전환하는 것 등이다.
“2023년 문자와 이미지 생성, 2024년 영상 생성에 이어 그다음은 3D로 향할 것이다. 게임을 개발하면서 몇 마디 말로 3D 모델을 구동할 수 있다면 영상을 만드는 것보다 훨씬 유용하다. 소라가 자체 개발할 경량 모델을 지원하고 지정된 캐릭터 이미지와 장면, 스타일의 영상을 생성해야 현장에서 널리 응용할 수 있을 것이다.” 앞서 소개한 넷이즈 관계자는 “최근 넷이즈는 3D 개발과 응용에 AI를 도입하기 시작했다”고 말했다.
중국 내 선두 게임개발사는 각 사에 AI 개발부서가 있다. 텐센트와 넷이즈는 2016년과 2017년 게임산업을 위한 AI실험실을 만들었고 경량 모델과 응용서비스를 개발했다. 최근에는 여러 게임개발사가 국외의 거대모델에 접속해 자사의 연구 경험을 결합해 구체적인 서비스와 제품을 개발하고 있다.
“챗지피티(ChatGPT)가 등장하기 전에도 게임개발사는 감원을 추진했다. AI 부서는 인건비가 비싼데 성과는 적어서 위험했는데 회사가 AI의 중요성을 인식한 것이다. 직원들은 거대모델 덕분에 수명이 5년 연장됐다고 자조적으로 말했다.” 한 텐센트 내부 관계자는 “텐센트의 AI실험실이 기술엔지니어링사업군에서 유일하게 흑자였는데 게임개발사업군인 티미스튜디오그룹(TiMi Studio Group)과 라이트스피드스튜디오(LightSpeed Studios)에 서비스를 제공해 게임사업의 수익을 배당받았기 때문이었다”고 말했다.
짧은 동영상에 투입하는 광고는 교체 속도가 빠르고 효과에 따라 즉시 형식을 조정하고 광고 소재를 바꿔야 한다. 주웨이 부사장은 소라가 소재 분야에서 혁신을 만들어낼 것이라고 말했다. “앞으로는 많은 시간과 노력을 들여서 이미지와 사진, 동영상 클립 등 소재를 찾지 않고 문자 기반 영상 생성 방식으로 몇 초에서 1분 만에 소재를 만들고 편집 도구로 2차 편집을 진행할 것이다.”
셰안 CEO는 “AI로 영상 제작의 문턱이 낮아지면 거대모델을 보유한 기업이 이를 통해 수익을 창출하고 IP와 데이터 소유자, AI 회사가 협력하겠지만, 법률 분쟁은 피할 수 없을 것”이라고 말했다. “AI로 사람의 얼굴을 만들었을 경우, 이목구비를 구성하는 원래 데이터의 출처를 분석할 수 있다. 이로써 일련의 소송전이 벌어질 수 있다. 저작권의 법률적 의미가 새로운 차원으로 진입한 후 변할 것이다.”
 

   
▲ 알리바바와 텐센트 등 자체 개발한 거대모델을 보유한 대기업은 AI 영상 생성 제품을 출시했고 일부는 소라와 비슷한 기술을 탐색했다. 2023년 7월6일 중국 상하이에서 열린 세계인공지능회의(WAIC)의 알리바바 전시관. REUTERS

기술 격차 줄이기 힘들어
시장에서는 문자 기반 영상 생성 기술이 중국에서 널리 응용되고 소셜미디어와 짧은 동영상의 콘텐츠 생성 효율을 높이는 과정이 구체적인 경로가 될 것으로 낙관한다. 탕자위 성수AI CEO는 “지금의 콘텐츠 소비 방식이 바뀔 것이다. 짧은 동영상 사용자가 단순한 콘텐츠 소비자에서 머무르지 않고 보고 싶은 콘텐츠를 직접 만들 것이다. 맞춤형 추천에서 맞춤형 생산으로 바뀔 것”이라고 말했다.
그러나 소라가 출시된 후 중국의 대형 기술기업은 2023년 국외 거대언어모델을 추격한 속도와 성과를 다시 점검했다. 앞서 소개한 틱톡의 모회사 바이트댄스 관계자는 “2023년에는 기술과 연산능력 축적, 응용, 감독 측면에서 전망이 밝았지만 영상 분야는 조건이 모두 변했다”고 말했다.
2023년 10월, 미국이 중국을 향한 반도체 수출 규제를 강화해 거대모델 훈련에 필요한 엔비디아의 A800과 H800 등 중국 전용 반도체 공급을 중단했다. 고성능 그래픽카드와 클라우드 컴퓨팅 자원이 부족해졌고 가격이 올라 공급을 보장하기 어렵다. 중국은 AI 응용에 관한 규제가 엄격해 응용 전망이 불투명한 상황에서 기업이 투자 방향을 결정하지 못했다. AI 생성 영상 콘텐츠가 보급되면 심사에 필요한 자원도 급증할 것이다.
텐센트와 바이트댄스, 알리바바 등 자체 개발한 거대모델을 보유한 대기업은 AI 영상 생성 제품을 출시했고 일부는 소라와 비슷한 기술을 탐색했다. 텐센트가 출시한 문자 기반 영상 생성 응용 프로그램 ‘다이내믹크래프터’(DynamiCrafter)와 ‘비디오크레프터(Video Crafter)2’는 학술연구사업이고 텐센트의 거대언어모델 ‘훈위안’과 직접적인 관련이 없다. 3월15일, 텐센트의 훈위안 개발팀은 중국 칭화대학, 홍콩과학기술대학과 공동으로 새로운 영상 생성 모델 ‘폴로 유어 클릭’(Follow Your Click)을 출시했다. 이미지의 한 부분을 클릭하고 소량의 명령어를 입력하면 이미지에서 정지 상태였던 부분이 움직여서 영상으로 바뀐다.
알리바바클라우드는 AI 시각 분야에서 오픈소스 모델 ‘Qwen-VL’을 출시했다고 소개했다. 매개변수가 70억 개 규모고 거대언어모델 ‘통이치엔원’(Tongyi Qianwen)을 기반으로 개발했다. AI로 오디오를 생성하는 모델도 있다. 2023년에는 시각 기술 개발 도구 애니메이트애니원(Animate Anyone)을 출시했다. 정지된 인물 사진을 바탕으로 AI 기술을 결합해 인물의 애니메이션 영상을 생성한다. 그에 앞서 출시된 아웃핏애니원(Outfit AnyOne) 가상 의류 체험 도구는 알리바바 전자상거래 플랫폼에서 직접 사용할 수 있다. 소라가 출시되기 전에 알리바바 클라우드는 EMO(Emote Portrait Alive)라는 도구를 출시했다. 사진과 오디오를 기반으로 사진 속 인물이 말하거나 노래하는 영상으로 만들어준다. “알리바바클라우드는 지금까지 중국 내에서 관련 제품을 가장 많이 출시한 기업이다.” 알리바바클라우드는 거대언어모델을 개발한 중국 내 기업 가운데 소라와 비슷한 수준의 제품을 개발한 기업은 없다고 밝혔다.

바이트댄스의 추격
시장에서는 데이터가 많고 자금력이 막강한 바이트댄스가 짧은 동영상 서비스를 기반으로 소라와 비슷한 제품을 적용할 가능성이 크다고 평가한다. 하지만 바이트댄스는 거대언어모델 개발을 비교적 늦게 시작했다. 량루보 바이트댄스 CEO는 2024년 1월 말 열린 전체회의에서 회사가 신생기업만큼 기회에 민감하지 못하다고 비판했다. “지난 반년 사이의 기술을 돌아보면 2023년부터 GPT를 논의했는데 업계에서 비교적 성공적으로 거대언어모델을 연구한 신생기업은 2018~2021년에 설립됐다.”
2023년 하반기가 돼서야 바이트댄스는 거대언어모델 개발부서를 통합하고 자원과 인력을 투입했다. 3분기와 4분기에 기술의 제품화 단계에 진입해 거대언어모델 스카이락(Skylark)의 개발을 끝냈고, 대화형 챗봇 ‘더우바오’에 적용했다. 현재 기술개발팀과 제품개발팀은 바이트댄스의 거대언어모델 알고리듬 연구팀과 공동으로 응용프로그램을 개발하고 있다.
바이트댄스는 AI 생성 콘텐츠 제품을 두 가지 방향으로 계획했다. 첫 번째 방향은 분야마다 자체 AI 기반 응용프로그램을 개발하는 것으로, 대화형 챗봇 ‘더우바오’와 해외판 ‘치치’(Cici), AI 챗봇 개발 ‘코즈’(Coze)가 대표적이다. 두 번째 방향은 이미 출시한 제품에 AI 기술을 적용해 기능을 보완하는 것이다. 동영상 편집 도구 ‘젠잉’에 이미지와 영상 생성 기능을 부여해 영상 제작 문턱을 낮추거나 더우인(틱톡의 중국 내 서비스) 검색에 AI 상담을 도입하고 광고주가 AI를 이용해 광고 소재를 제작하도록 지원했다. 최근 바이트댄스는 미국 실리콘밸리에서 AI 분야의 인재를 영입하고 있다.
젠잉은 더우인의 편집 도구로 사용자의 동영상 제작을 지원하는데 월간활성이용자수가 1억 명을 넘는다. 2024년 춘절을 앞두고 장난은 더우인그룹 CEO 자리에서 물러나 젠잉의 기술 개선에 집중하겠다고 밝혔다. 그는 지난 1년 동안 젠잉과 관련 사업에 집중했고 AI를 이용한 창작 도구를 개발해 AI 기반 이미지와 영상 생성 제품 출시를 앞두고 있다. 회사 내부에서는 그가 사업부 책임자가 된 후 젠잉 사업의 발언권이 강해졌고 앞으로 바이트댄스의 연산능력 자원을 더 많이 확보할 것으로 전망했다.
앞서 소개한 바이트댄스 관계자는 말했다. “AI 기반 영상 생성 서비스는 모델 압축, 실질적인 제작비, 감독의 개입 방법, 최종 콘텐츠 심사 등 해결해야 할 문제가 남아 있다. 당분간 젠잉의 사용자가 체감할 수 있는 성과는 보기 힘들 것이다.”

ⓒ 財新週刊 2024년 제11호
Sora再進階
번역 유인영 위원

 

두즈항 economyinsight@hani.co.kr

<저작권자 © 이코노미인사이트 무단전재 및 재배포금지>
default_news_ad4
default_side_ad1

인기기사

default_side_ad2

포토

1 2 3
set_P1
default_side_ad3

섹션별 인기기사 및 최근기사

default_setNet2
default_bottom
#top
default_bottom_notch