일반_기타_ 잡동사니

빅테크 이번엔 ‘멀티모달AI’ 전쟁, 인간처럼 사고하는 멀티모달 (multimodal) AI 란, 인공지능에 감각을 더했다. 멀티모달이란

도토리 2023. 9. 19. 20:35
728x90
반응형
728x170
SMALL

멀티모달 AI란 텍스트, 이미지, 영상, 음성 등 다양한 데이터 모달리티를 함께 고려하여 서로의 관계성을 학습 및 표현하는 기술입니다. 멀티모달 AI는 인간이 정보를 습득하고 처리하는 방식과 유사하다는 점에서 주목받고 있습니다. 텍스트를 넘어 음성 이미지 영상 등 다양한 형태의 데이터를 처리하고 생성할 수 있는 AI다. 텍스트만 처리하는 유니모달(unimodal)과 크게 차이난다.

한국의 기술 기업이 텍스트 중심의 대규모언어모델(LLM) 개발에 집중하는 사이에, 미국 빅테크 기업이 대규모 자본을 앞세워 후발주자들과 격차를 더 벌리려 하고 있다.

멀티모달 AI는 다음과 같은 장점이 있습니다.

  • 정보의 이해도를 높일 수 있습니다. 하나의 모달리티만으로는 충분히 정보를 이해하기 어려운 경우가 있습니다. 예를 들어, 텍스트만으로는 사진의 내용을 정확하게 이해하기 어렵습니다. 멀티모달 AI는 텍스트와 이미지를 함께 고려하여 사진의 내용을 보다 정확하게 이해할 수 있습니다.
  • 복잡한 작업을 수행할 수 있습니다. 하나의 모달리티만으로는 수행하기 어려운 작업도 멀티모달 AI를 통해 수행할 수 있습니다. 예를 들어, 텍스트와 이미지를 함께 고려하여 제품의 품질을 평가하는 작업을 수행할 수 있습니다.

멀티모달 AI의 응용 분야

멀티모달 AI는 다양한 분야에서 응용될 수 있습니다. 다음은 멀티모달 AI의 대표적인 응용 분야입니다.

  • 자연어 처리
  • 컴퓨터 비전
  • 음성 인식
  • 로보틱스
  • 의료
  • 교육

멀티모달 AI의 미래

멀티모달 AI는 아직 초기 단계에 있지만, 빠르게 발전하고 있습니다. 멀티모달 AI가 더욱 발전하면, 인간이 정보를 습득하고 처리하는 방식을 훨씬 더 잘 이해할 수 있게 될 것입니다. 또한, 멀티모달 AI는 다양한 분야에서 새로운 혁신을 가져올 것으로 기대됩니다.

멀티모달 AI의 예시

다음은 멀티모달 AI의 예시입니다.

  • 음성으로 물건을 구매하는 서비스
  • 동영상으로 제품의 품질을 평가하는 서비스
  • 텍스트와 이미지를 함께 고려하여 질병을 진단하는 서비스
  • 음성과 움직임을 함께 고려하여 로봇을 제어하는 서비스

멀티모달 AI는 우리 삶을 더욱 편리하고 풍요롭게 만들어줄 잠재력을 가지고 있습니다.

 

멀티모달 출시를 가장 서두르는 빅테크는 구글이다.

구글은 멀티모달 엔진 ‘제미니(Gemini)’에 대한 개발을 마치고 일부 기업과 테스트 중이다. 제미니는 인간 두뇌의 시냅스에 해당하는 파라미터수가 약 1조개에 달하는 것으로 알려졌다. 오픈AI가 내놓은 최신 버전인 GPT-4가 약 5000억개로 추산되는 것에 비해 약 배가 큰 대목이다.

업계에서는 제미니가 유튜브 영상의 인터넷주소(URL) 입력하면 자동으로 스크립트를 생성하고 분석해 줄 것으로 기대하고 있다. 다만 무료는 아닐 것으로 보인다. 월 구독료는 약 30달러로 추정된다. 그동안 구글은 오픈AI와 마이크로소프트(MS)를 꺾고자 AI 조직을 통폐합했다. AI 계열인 딥마인드과 구글내 AI조직인 브레인을 통폐합해 ‘구글 딥마인드’로 변경했고 수장에는 ‘알파고’의 주역인 데미스 허사비스를 앉혔다. 특히 창업자인 세르게이 브린이 이를 적극 지원하는 것으로 알려졌다.

이 같은 소식에 오픈AI가 반격에 나섰다. 오픈AI는 올 3월 GPT-4를 내놓으면서 멀티모달 AI의 초기 버전을 시연했다.

요리 이미지 사진을 올리면 요리 조리법을 생성하고 식재료를 분석하는 모습을 선보인 바 있다. 하지만 해당 기능은 데모 시연에 그쳤다. 디인포메이션은 “오픈AI가 그동안 준비해 온 ‘GPT-비전’으로 불리는 기술을 곧 공개할 것으로 보인다”면서 “이와 함께 ‘GPT-비전’보다 더 강력한 ‘고비(Gobi)’라는 프로젝트를 운영하고 있어 주목된다”고 말했다.

오픈AI는 LLM인 GPT-4와 이미지 AI인 달리(DALL·E)를 각각 선보인바 있다. 하지만 ‘고비’는 처음부터 멀티모달 AI로 개발되고 있어 LLM과 이미지 AI를 합한 것과는 차원이 다를 것이라는 평가가 벌써 나온다.

728x90
반응형
그리드형
LIST