메타 'Emu Video'로 만든 영상
메타 'Emu Video'로 만든 영상

인공지능(AI)이 사람과 유사한 사고를 하는 '멀티모달' 기술이 발달하고 있다. AI는 시나리오 작성과 영상 제작 능력을 얻게 되면서 AI로 생성된 광고가 큰 인기를 얻고 있다. 기존에 자연어를 이해하는 데 그쳤던 AI가 동영상 학습을 통해 창의적인 사고를 하게 된다.

25일 정보기술(IT)업계에 따르면, 내년에 공개될 오픈AI의 GPT-5에서는 영상 제작 기능이 추가될 예정이다. 이미 연초에 공개된 GPT-4에서는 텍스트를 비디오로 변환하는 멀티모달 기술이 적용되어 있지만, 내년에는 더 고도화된 기술이 기대돼고 있다.

메타는 이달 17일에 ‘Emu Video’ 기술을 선보였는데, 이 기술은 텍스트 입력으로 4초 길이의 비디오를 생성할 수 있다. ‘Emu Edit’라는 보완 AI 모델을 통해 편집도 가능하며, 수정 사항은 자연어 주문으로 전달할 수 있다. 그러나 이러한 기술의 상용화에는 시간이 더 필요할 것으로 예상되고 있다.

네이버도 조만간 클로바X에 이미지 멀티모달을 선보인다. 사진을 넣고 "배경을 바다로 바꿔줘"라고 적으면 사진을 합성해주는 식이다. 향후 음성, 동영상 등 다른 멀티모달 기술도 붙여나갈 계획이다. 

AI 업계는 더 많은 단어를 학습하는 경쟁을 넘어서 이미지, 동영상 등 여러 인터페이스로 정보를 주고받는 '멀티모달' 기술력을 중요하게 보고 있다. 

AI의 목표는 결국 사람처럼 사고할 수 있는 기술이기 때문이다.

예를 들어 사람은 사과를 생각하면 생김새와 색깔, 맛 등을 떠올릴 수 있지만 AI는 사과라는 단어를 쓰면서도 실제 세상에는 어떤 형태로 존재하는지 이해하지 못한다. AI가 우리 세상을 제대로 인식할 수 있으려면 사람처럼 생각해야 한다. 글만 보고 영상을 떠올릴 수 있어야 하고, 영상을 보면서 글로 설명할 수 있어야 한다. 

한 IT업계 관계자는 "멀티모달 AI는 사람과 동일한 방식으로 세상을 인지하면서도 더 날카롭고 정확하게 분석할 수 있다"고 설명했다.

이어 "멀티모달 기술이 완성되면 AI는 사람들에게 더 많은 편의를 줄 수 있을 것"으로 내다봤다.

현재 AI 멀티모달 기술이 널리 쓰이는 분야는 광고다. 최근 삼성생명보험은 이미지 생성 AI 미드저니를 이용해 광고를 만들었고, 베스킨라빈스는 챗GPT가 쓴 시나리오를 바탕으로 광고를 제작했다. 

LG유플러스가 AI로 만든 광고 조회수는 1200만회가 넘었다.

LG유플러스의 AI 광고
LG유플러스의 AI 광고

시장조사전문 기업 블룸버그인텔리전스는 AI를 활용한 디지털 광고 산업은 지난해 5700만달러에서 2032년 1920억달러 규모로 확대될 것으로 전망했다.

저작권자 © AI라이프경제 무단전재 및 재배포 금지