본문 바로가기
728x90
300x250

전체 글47

멀티모달 리뷰 moondream1 콜랩(colab)으로 실행하기 이번에 가져온 멀티모달은 moondream1 입니다. 이것도 phi와 SigLIP를 사용해서 파라미터를 줄이고, llava dataset으로 튜닝 완료된 데이터 입니다. 지난번의 리뷰한 imp와 유사한 모델입니다. 하지만 사용하는 방법에서 차이가 있고 phi 모델이 1.5인 것과 2의 차이가 존재합니다. 당연히 튜닝 된 정도의 차이가 존재합니다. 1.6B 매개변수 모델은 @vikhyatk가 SigLIP, Phi-1.5 및 LLaVa 훈련 데이터 세트를 사용하여 구축했습니다. 이 모델은 연구 목적으로만 공개되며, 해당 모델은 상업적 사용은 허용되지 않습니다. moondream1은 콜랩에서 사용할때 GPU를 8.5기가 정도 사용하고 있습니다. imp의 8기가보다 조금더 많은 GPU 연산량을 보여줍니다. 해당.. 2024. 1. 31.
모델 리뷰 멀티모달 MILVLG의 imp-v1-3b 콜랩(colab)에서 실행하기 오늘 모델 리뷰는 멀티 모달 중의 MILVG의 imp입니다. 3b 크기로 상당히 좋은 퀄리티의 멀티 모달 성능을 내고 있습니다. 라바와 비슷한 방식으로 만들어진 거 같고, 이미지 인코더로는 구글의 siglip과 sLLM으로 ms의 phi2가 사용되서 두개 합쳐서 3b 밖에 안되는 크기를 자랑합니다. 양자화가 되지 않은채로 GPU 사용량이 8기가를 넘지 않습니다. 시스템 램 또한 2기가 정도 밖에 되지 않아 가볍게 사용 할 수 있습니다. 개발자의 소개글 https://huggingface.co/MILVLG/imp-v1-3b https://github.com/MILVLG/imp The Imp 프로젝트는 강력한 멀티모달 소형 언어 모델(MSLMs) 패밀리를 제공하는 것을 목표로 합니다. 우리의 imp-v1-3.. 2024. 1. 30.
모델 리뷰 멀티모달 LLaVA1.5 Colab으 실행하기 오늘은 예전에 llava 1.5에 대해서 잠깐 언급했었던 적이 있는 모델입니다.LLaVA 1.5는 비전 기능을 갖춘 오픈 소스 모델로서 LLaVA는 대규모 언어 모델과 비전 어시스턴트를 결합하는 것을 목표로 하는 오픈 소스 프로젝트입니다.언어와 이미지를 모두 이해할 수 있는 엔드 투 엔드 멀티모달 모델을 만드는 것이 목표입니다. 모델 아키텍처: LLaVA는 사전 훈련된 CLIP 모델을 기반으로 하는 비전 인코더와 대규모 언어 모델(vicuna 13B)을 사용하여 GPT-4의 비전 기능을 모방합니다. 성능 지표: 이 모델은 합성 다중 모드 명령 따르기 데이터세트에서 GPT-4에 비해 85% 점수를 달성하며, 130억 개의 매개변수를 고려할 때 인상적인 성능을 보여줍니다. 설명: LLaVA 프로젝트는 비전 .. 2024. 1. 26.
모델리뷰 : 일본어 한국어 잘하는 OrionStarAI의 Orion-14B https://github.com/OrionStarAI/Orion 'Orion-14B'는 'OrionStarAI'가 개발한 공개된 소스의 다국어 대규모 언어 모델입니다. 이 모델은 중국어, 영어, 일본어, 한국어를 비롯한 2.5T 다국어 코퍼스에서 학습되었으며, 이 언어들에서 우수한 성능을 보여주고 있습니다. 이 모델은 OrionStarAI 의해 개발되었으며, 베이스 모델은 20B 모델 내에서 종합적인 평가에서 뛰어난 성능을 보입니다. 특히, 일본어와 한국어 테스트에서 탁월한 성과를 거두고 있습니다. 롱채팅 버전은 200k 토큰 길이에서 매우 효과적인 성능을 보여주며, 최대 320k까지 지원 가능합니다. 또한, 양자화 버전은 모델 크기가 70% 감소하고 추론 속도가 30% 향상되었으며, 성능 손실은 1%.. 2024. 1. 25.
728x90
300x250