본문 바로가기
728x90
300x250

분류 전체보기49

모델 리뷰 멀티모달 LLaVA1.5 Colab으 실행하기 오늘은 예전에 llava 1.5에 대해서 잠깐 언급했었던 적이 있는 모델입니다.LLaVA 1.5는 비전 기능을 갖춘 오픈 소스 모델로서 LLaVA는 대규모 언어 모델과 비전 어시스턴트를 결합하는 것을 목표로 하는 오픈 소스 프로젝트입니다.언어와 이미지를 모두 이해할 수 있는 엔드 투 엔드 멀티모달 모델을 만드는 것이 목표입니다. 모델 아키텍처: LLaVA는 사전 훈련된 CLIP 모델을 기반으로 하는 비전 인코더와 대규모 언어 모델(vicuna 13B)을 사용하여 GPT-4의 비전 기능을 모방합니다. 성능 지표: 이 모델은 합성 다중 모드 명령 따르기 데이터세트에서 GPT-4에 비해 85% 점수를 달성하며, 130억 개의 매개변수를 고려할 때 인상적인 성능을 보여줍니다. 설명: LLaVA 프로젝트는 비전 .. 2024. 1. 26.
모델리뷰 : 일본어 한국어 잘하는 OrionStarAI의 Orion-14B https://github.com/OrionStarAI/Orion 'Orion-14B'는 'OrionStarAI'가 개발한 공개된 소스의 다국어 대규모 언어 모델입니다. 이 모델은 중국어, 영어, 일본어, 한국어를 비롯한 2.5T 다국어 코퍼스에서 학습되었으며, 이 언어들에서 우수한 성능을 보여주고 있습니다. 이 모델은 OrionStarAI 의해 개발되었으며, 베이스 모델은 20B 모델 내에서 종합적인 평가에서 뛰어난 성능을 보입니다. 특히, 일본어와 한국어 테스트에서 탁월한 성과를 거두고 있습니다. 롱채팅 버전은 200k 토큰 길이에서 매우 효과적인 성능을 보여주며, 최대 320k까지 지원 가능합니다. 또한, 양자화 버전은 모델 크기가 70% 감소하고 추론 속도가 30% 향상되었으며, 성능 손실은 1%.. 2024. 1. 25.
DPO LLM 강화학습법에 대해서 DPO는 RLHF(Reinforcement Learning from Human Feedback)에 의존하지 않고 사용자 선호도 데이터를 직접 사용하여 언어 모델(LM)을 최적화하는 방법입니다. 주요 목표는 고품질 출력을 생성하기 위해 사용자 선호도를 기반으로 언어 모델을 훈련하는 것입니다. DPO는 강화학습 정책(PPO와 같은 것)을 사용하지 않으면서도(reward 모델링 없이) reward 함수와 기존 정책을 연결하여 인간의 선호 데이터에 최적화할 수 있다고 논문에서 설명합니다. 논문에 따르면 RLHF로 finetuning한 모델과 비교했을 때, DPO는 요약, single-turn 문제에서 더 우수한 성능을 보였습니다. DPO의 동기: DPO는 RLHF에 의존하지 않고 코드 생성과 같은 작업을 위한 .. 2024. 1. 24.
윈도우11환경에서 wsl ubuntu에 Nvidia Docker 설치하기 (설치하고 기억나는 대로 기록한거라서 그대로 따라한다고 될 보장없음) WSL Ubuntu 상에서 도커 설치하기 windows 기능 켜기/끄기 Windows Subsystem for Linux(WSL) 기능을 활성화 Microsoft Store에서 Ubuntu 설치 WSL 전용 NVIDIA 그래픽 드라이버 설치하기 https://developer.nvidia.com/cuda/wsl Ubuntu C드라이브에서 D드라이브로 옮기기 윈도우파워셀 실행 TAR 압축으로 Export 하기 wsl --export Ubuntu-22.04 D:\ubuntu-22-04.tar 기존 Ubuntu 버전 삭제 wsl --unregister Ubuntu-22.04 압축된 TAR Import wsl --import Ubuntu-22.. 2024. 1. 18.
728x90
300x250