default_top_notch
default_setNet1_2

중 “반년 내 소라 뛰어넘는 게 목표”

기사승인 [169호] 2024.05.01  

공유
default_news_ad1

- [COVER STORY] ‘소라’가 쏘아올린 동영상 AI 시대- ③ 중국의 도전

 

두즈항 杜知航 관충 關聰 <차이신주간> 기자
 

   
▲ 오픈AI의 대화형 인공지능(AI) 챗지피티(ChatGPT)가 공개된 후 중국의 센스타임, 포패러다임 등 AI 개발업체가 거대언어모델 개발에 뛰어들었다. 2023년 7월6일 중국 상하이에서 열린 세계인공지능회의(WAIC)의 센스타임 전시관. REUTERS

2022년 11월 오픈AI의 대화형 인공지능(AI) 챗지피티(ChatGPT)가 공개된 후 몇 달 사이에 중국의 크고 작은 기업이 거대언어모델 개발에 뛰어들었다. 바이트댄스와 바이두, 알리바바 등 대형 기술기업은 물론 센스타임, 포패러다임, 쉰페이, 모보이 등 AI 개발업체도 합류했다. 리카이푸, 왕후이원, 왕샤오촨 등 창업에 성공했던 선배들도 자금을 투자해 기업을 설립했다.
하지만 오픈AI의 문자 기반 영상 생성 모델 ‘소라’가 출시된 다음에는 중국 내 문자 기반 영상 생성 기술을 둘러싼 ‘백가쟁명’(百家爭鳴) 현상이 일어나지 않았다. 대기업도 조용했고 ‘영웅첩’(英雄帖)을 돌리며 진출을 선언하는 기업도 없었다.
지난 1년 동안 투자업계는 챗지피티를 통해 비싼 학비를 치렀다. 시장조사업체 가트너의 장퉁 애널리스트는 “챗지피티 투자 열풍을 겪은 투자자들은 거대언어모델 개발이 막대한 비용을 소모한다는 사실을 깨달았기 때문에 이번에는 투자에 신중하다”면서 “상업적인 응용 상황을 확인한 다음에야 움직일 텐데 아직은 눈에 들어오는 것이 없다”고 말했다.
소라에 관심을 두고 있다는 한 투자자는 최근 가상인간 개발업체 한 곳에 투자한 것을 제외하면 투자하지 않았다면서 투자 관점에서 보면 AI 기술 자체는 큰 가치가 없고 AI산업에 투자의 기준을 적용해야 한다고 지적했다. “미국은 세상을 선도하기 위해 현실에서 가상으로 전환해 메타버스부터 GPT, 다시 소라를 개발했다.”
국내외 시장을 보면 피카와 런웨이, 픽스버스 등 신생기업은 소라가 등장하기 전부터 자체 개발한 모델을 기반으로 비슷한 제품을 공개했는데 생성한 영상의 길이가 짧았다. 피카와 픽스버스 연구진은 중국과 관련이 있다. 피카의 공동창업자인 궈원징은 미국 스탠퍼드대학 컴퓨터공학 박사 출신이고, 픽스버스는 중국의 신생기업 AI스피어(AIsphere)가 국외시장을 겨냥해 설립한 기업이다. AI스피어의 창업자 왕창후는 바이트댄스 AI실험실 책임자였다. 런웨이의 창업자 크리스토 발렌주엘라는 칠레에서 태어났고, 런웨이는 미국 캘리포니아와 뉴욕에 사무실을 두고 있다.

거대언어모델 경쟁의 교훈
투자시장은 이들에게 지원과 격려를 아끼지 않았다. 2024년 3월11일 저녁 2023년 4월에 설립된 AI스피어는 1억위안(약 191억6천만원) 규모의 투자 유치에 성공했다고 밝혔다. 포춘캐피털이 리드 투자자였고 라이트하우스캐피털이 자문을 제공했다. AI스피어는 AI 영상 모델과 응용프로그램을 개발하는데 국외시장을 겨냥한 픽스버스를 2024년 1월에 공개해 문자 기반 영상 생성 기능을 제공한다. 생성된 영상 길이는 몇 초 수준이다. 데이터통계업체 시밀러웹(Similarweb)에 따르면 픽스버스의 2월 방문자 수가 100만 회를 넘겼다.
왕창후 최고경영자(CEO)는 “앞으로 반년 동안 소라를 뛰어넘는 것이 중요한 목표”라고 말했다. 거대언어모델과 비교하면 소라는 오픈AI의 챗지피티 수준에 도달하지 못했고 챗지피티 이전인 GPT3 또는 그 이전 모델 수준이다.
“AI스피어의 전략은 소비자를 겨냥하는 2C(소비자간 거래) 중심이다. 국내외 사용자의 반응을 수집해 사용자 체험을 기반으로 모델을 개선하고 있다.” 왕창후 CEO는 “AI스피어의 거대언어모델을 가동하면 제품 사용자가 늘고 AI 영상 기술의 구체적인 응용 분야를 탐색하도록 지원할 것”이라고 말했다. 콘텐츠 생산자에게 훌륭한 도구를 제공하는 것은 물론 콘텐츠 소비 분야의 가능성을 탐색하고 AI를 활용한 영상 생성과 소비 플랫폼을 시도할 계획이다.
2024년 3월12일, 거대멀티모달(텍스트, 이미지, 오디오, 비디오 등 다양한 유형의 입력을 동시에 처리하는 기술) 모델 개발업체 성수AI도 수억위안 규모의 투자금을 유치했다고 밝혔다. 치밍창업투자가 리드 투자자였고 델타캐피털과 즈푸AI, 오래된 주주인 바이두벤처와 줘위안아시아가 투자했다. 2023년 3월 설립된 성수AI는 이미지와 3D(3차원), 영상 등 AI 기반 거대멀티모달 모델 개발에 주력한다. 주요 기능은 이미지 기반 문자 생성, 이미지와 문자 공동 생성, 이미지와 문자 재작성, 평면 이미지를 다양한 각도에서 볼 수 있는 3D 콘텐츠로 변환하는 것 등이다.
성수AI의 핵심 연구진은 중국 칭화대학교 인공지능연구원 출신이다. 주쥔 칭화대학교 인공지능연구원 부원장이 수석과학자를 맡았고 탕자위 CEO는 칭화대학교 컴퓨터공학과에서 학부와 석사를 졸업했다. 베이징대학과 알리바바, 텐센트, 바이트댄스 등 기술기업 출신도 있다.
성수AI 창업에 참여한 연구원들이 발표한 거대모델 훈련에 관한 논문을 보면 소라와 방향이 비슷해 자본시장과 협력사의 주목을 받았다. 2022년 9월 주쥔 수석과학자와 연구팀이 발표한 트랜스포머(단어와 단어, 문장과 문장 사이의 확률 관계들을 사전에 학습시켜 인간처럼 언어를 구사하게 하는 것) 기반의 U-ViT 아키텍처는 트랜스포머와 확산 모델을 통합해 문자 기반 영상 생성에 응용한다. 이는 소라의 기술 원리와 같다.
탕자위 CEO는 “중국 내 거대모델과 소라와의 격차가 중국 내 거대언어모델과 GPT4와의 격차보다 작다”고 말했다. 소라의 등장으로 트랜스포머와 확산 모델을 통합하는 방법을 문자 기반 영상 생성에 적용하고, 데이터 수집과 정제, 라벨링 같은 기본적인 작업과 모델 훈련 경험을 복제할 수 있다는 것이 증명됐다. 그러나 영상의 시공간 정보를 더 효과적으로 표현하고 영상 데이터를 효율적으로 압축하는 방법 등 해결해야 할 난제가 남아 있다.
 

   
▲ 미국의 오픈AI가 발전한 과정을 보면 한 기업이 혁신하기 위해서는 그들이 세상을 바꿀 수 있도록 지원하는 투자자의 역할이 크다는 점을 알 수 있다. 2023년 11월16일 미국 샌프란시스코에서 열린 아시아태평양경제협력체(APEC) 서밋에서 샘 알트만 오픈AI 최고경영자(CEO)가 발언하고 있다. REUTERS

높은 개발 문턱
거대언어모델과 비교하면 영상 모델은 개발의 문턱이 훨씬 높다. 따라서 연구팀을 구성해 처음부터 시작하려면 어려움이 더 크다. 탕자위 CEO는 “AI 영상 모델을 훈련하려면 더 많은 연산능력이 필요하고 언어 모델 라마(LLaMA)와 같은 오픈소스 모델이 나와야 한다”면서 “신생 연구팀이 단기간에 자원과 알고리듬 이해를 처리하긴 어렵다”고 말했다. 그리고 비슷한 엔지니어링 경험이 없다면 더 많은 시행착오를 겪을 것이다.
영상 생성 분야에서 거대언어모델처럼 ‘백화제방’(百花齊放·온갖 꽃이 한꺼번에 앞다퉈 피어난다는 뜻으로 갖가지 기술이 서로 경쟁하며 함께 융성한다는 의미)의 생태계를 만들려면 오랜 시간과 과정을 거쳐야 한다. 주웨이 부사장은 “문자 모델과 이미지 모델에서 지금의 영상 모델에 이르기까지 중국 내에서 자체 개발한 거대모델이 적고 특히 영상 분야는 GPT나 소라와 같은 모델 수준에 도달하지 못했다”고 지적했다. AI생성콘텐츠(AIGC) 기업 원더쉐어가 2024년 1월30일 공개한 멀티미디어 거대모델 ‘톈무’는 마케팅과 엔터테인먼트 등 전문 분야를 겨냥했다.
응용프로그램 개발 기업은 중국판 소라의 탄생을 기대한다. 영상 솔루션 제공업체 이란커지의 뤄장춘 창업자는 “소라의 탄생은 AI 기반 영상 생성 분야의 가능성을 보여줬고, 어둠 속에서 항해하는 것보다 훨씬 나은 상황이다”고 말했다. 2017년에 설립된 이란커지는 저작권을 확보한 짧은 동영상과 단막극, 동영상 시스템, 영상 촬영, 가상인간, 상품 상세정보 페이지 설계 등 다양한 서비스를 제공한다.
뤄장춘 창업자는 “이란커지는 거대모델 개발에 뛰어들지 않을 것”이라고 말했다. 거대모델을 개발하려면 얼마나 많은 인력과 연산능력이 필요한지 알기 때문이다. 그는 “소라와 같은 모델을 기반으로 중간제품과 도구를 개발해 훌륭한 영상 제작을 돕는 것이 이란커지의 사업 분야”라면서 “더 많은 기업이 AI 영상 모델 구축에 참여해 콘텐츠 생성비를 내리고 업계 전체가 성장하길 기대한다”고 말했다.
그는 “오픈AI가 발전한 과정을 보면 한 기업이 혁신하려면 대가를 계산하지 않고 수백억달러를 투입해 그들이 세상을 바꿀 수 있도록 지원하는 투자자가 있어야 하는데 중국에는 그런 투자자가 부족하다”면서 “중국의 투자 환경은 미국과 다르고 많은 투자자가 단기간에 투자금을 회수하길 원한다”고 지적했다.

ⓒ 財新週刊 2024년 제11호
Sora再進階
번역 유인영 위원

 

두즈항 economyinsight@hani.co.kr

<저작권자 © 이코노미인사이트 무단전재 및 재배포금지>
default_news_ad4
default_side_ad1

인기기사

default_side_ad2

포토

1 2 3
set_P1
default_side_ad3

섹션별 인기기사 및 최근기사

default_setNet2
default_bottom
#top
default_bottom_notch