본문 바로가기

728x90

Llava1

모델 리뷰 멀티모달 LLaVA1.5 Colab으 실행하기 오늘은 예전에 llava 1.5에 대해서 잠깐 언급했었던 적이 있는 모델입니다.LLaVA 1.5는 비전 기능을 갖춘 오픈 소스 모델로서 LLaVA는 대규모 언어 모델과 비전 어시스턴트를 결합하는 것을 목표로 하는 오픈 소스 프로젝트입니다.언어와 이미지를 모두 이해할 수 있는 엔드 투 엔드 멀티모달 모델을 만드는 것이 목표입니다. 모델 아키텍처: LLaVA는 사전 훈련된 CLIP 모델을 기반으로 하는 비전 인코더와 대규모 언어 모델(vicuna 13B)을 사용하여 GPT-4의 비전 기능을 모방합니다. 성능 지표: 이 모델은 합성 다중 모드 명령 따르기 데이터세트에서 GPT-4에 비해 85% 점수를 달성하며, 130억 개의 매개변수를 고려할 때 인상적인 성능을 보여줍니다. 설명: LLaVA 프로젝트는 비전 .. 2024. 1. 26.

이전 1 다음

728x90

티스토리툴바