인공지능(AI)이 사람과 유사한 사고를 하는 '멀티모달' 기술이 발달하고 있다. AI는 시나리오 작성과 영상 제작 능력을 얻게 되면서 AI로 생성된 광고가 큰 인기를 얻고 있다. 기존에 자연어를 이해하는 데 그쳤던 AI가 동영상 학습을 통해 창의적인 사고를 하게 된다.
25일 정보기술(IT)업계에 따르면, 내년에 공개될 오픈AI의 GPT-5에서는 영상 제작 기능이 추가될 예정이다. 이미 연초에 공개된 GPT-4에서는 텍스트를 비디오로 변환하는 멀티모달 기술이 적용되어 있지만, 내년에는 더 고도화된 기술이 기대돼고 있다.
메타는 이달 17일에 ‘Emu Video’ 기술을 선보였는데, 이 기술은 텍스트 입력으로 4초 길이의 비디오를 생성할 수 있다. ‘Emu Edit’라는 보완 AI 모델을 통해 편집도 가능하며, 수정 사항은 자연어 주문으로 전달할 수 있다. 그러나 이러한 기술의 상용화에는 시간이 더 필요할 것으로 예상되고 있다.
네이버도 조만간 클로바X에 이미지 멀티모달을 선보인다. 사진을 넣고 "배경을 바다로 바꿔줘"라고 적으면 사진을 합성해주는 식이다. 향후 음성, 동영상 등 다른 멀티모달 기술도 붙여나갈 계획이다.
AI 업계는 더 많은 단어를 학습하는 경쟁을 넘어서 이미지, 동영상 등 여러 인터페이스로 정보를 주고받는 '멀티모달' 기술력을 중요하게 보고 있다.
AI의 목표는 결국 사람처럼 사고할 수 있는 기술이기 때문이다.
예를 들어 사람은 사과를 생각하면 생김새와 색깔, 맛 등을 떠올릴 수 있지만 AI는 사과라는 단어를 쓰면서도 실제 세상에는 어떤 형태로 존재하는지 이해하지 못한다. AI가 우리 세상을 제대로 인식할 수 있으려면 사람처럼 생각해야 한다. 글만 보고 영상을 떠올릴 수 있어야 하고, 영상을 보면서 글로 설명할 수 있어야 한다.
한 IT업계 관계자는 "멀티모달 AI는 사람과 동일한 방식으로 세상을 인지하면서도 더 날카롭고 정확하게 분석할 수 있다"고 설명했다.
이어 "멀티모달 기술이 완성되면 AI는 사람들에게 더 많은 편의를 줄 수 있을 것"으로 내다봤다.
현재 AI 멀티모달 기술이 널리 쓰이는 분야는 광고다. 최근 삼성생명보험은 이미지 생성 AI 미드저니를 이용해 광고를 만들었고, 베스킨라빈스는 챗GPT가 쓴 시나리오를 바탕으로 광고를 제작했다.
LG유플러스가 AI로 만든 광고 조회수는 1200만회가 넘었다.
시장조사전문 기업 블룸버그인텔리전스는 AI를 활용한 디지털 광고 산업은 지난해 5700만달러에서 2032년 1920억달러 규모로 확대될 것으로 전망했다.