넥사 AI, 세계에서 가장 작은 비전 언어 모델

넥사 AI(Nexa AI)가 개발한 **’옴니비전-968M(Omnivision-968M)’**은 현재까지 알려진 **세계에서 가장 작은 비전 언어 모델(Vision Language Model, VLM)**입니다.

이 모델은 **9.68억 개의 파라미터(매개변수)**를 가지고 있어, 일반적으로 수십억에서 수천억 개의 파라미터를 가지는 다른 대규모 언어 모델(LLM)에 비해 훨씬 가볍다는 것이 특징입니다.

주요 특징 및 의미:

초경량화: 작은 크기 덕분에 스마트폰, 로봇, 자율주행 차량, 드론 등 엣지(Edge) 디바이스에서 직접 구동될 수 있어, 클라우드 서버와의 통신 지연 없이 실시간으로 인공지능 기능을 수행할 수 있습니다. 이는 개인 정보 보호와 오프라인 작동이 중요한 애플리케이션에 특히 유용합니다.
고성능 유지: 넥사 AI는 이미지 토큰화 기술과 DPO(Direct Preference Optimization) 학습 방식을 적용하여 모델 크기는 줄이면서도 이미지 이해, 이미지 캡셔닝, 질문 답변 등 다양한 비전 언어 작업에서 뛰어난 성능을 유지합니다. 벤치마크 테스트에서 더 큰 모델에 필적하거나 능가하는 결과를 보여주기도 했습니다.
활용 분야: 자율주행, 로봇, 모바일 기기 등 실시간 처리와 저지연이 필수적인 분야에서 새로운 AI 경험을 가능하게 할 것으로 기대됩니다. 예를 들어, 스마트폰 카메라로 찍은 사진을 실시간으로 분석해 사물을 인식하고 관련 정보를 즉시 제공하는 등의 기능 구현이 가능해집니다.
접근성: 넥사 AI는 ‘옴니비전-968M’을 AI 모델 공유 플랫폼인 허깅페이스(Hugging Face)에서 공개하여 개발자들이 자유롭게 다운로드하고 상업적 용도로도 활용할 수 있도록 했습니다.

넥사 AI의 ‘옴니비전-968M’ 출시는 인공지능 기술의 경량화와 온디바이스 AI 시대의 본격적인 개막을 알리는 중요한 신호탄으로 평가받고 있습니다.