본문 바로가기
728x90
300x250

코딩/모델 리뷰11

멀티모달 리뷰 qresearch의 llama3-vision-alpha 콜랩 구동 LLM RnD 자료를 찾으러 Note에서 일본 LLM 동향을 검색하고 있었는데 qresearch라는 곳에서 llama3로 vision모델을 만들었다는 글을 보았습니다. 그냥 자기 것이 성능이 우수하다 이런 내용이 아닌 만들어서 코드 리뷰하는 문서 였습니다. 생각보다 유익한 내용인거 같아서 따라 구동 해봤습니다.간단히 코드 구동이 가능합니다. 이 경우에 허깅페이스 레포지토리에서 lama-3-vision-alpha/mm_projector.bin만 들어있는데 그 이외에 파일은 튜닝을 따로 시키지 않은 llama3와 siglip 모델을 사용해서 중간의 projection층을 만들어서 그것만으로 vision 모델을 구현 했다는 것이 놀라웠습니다.import torchfrom PIL import Imagefrom .. 2024. 5. 9.
모델 리뷰 Llama 3을 colab에서 실행해보자 Llama 3이란?Llama 3가 공개된지 몇주가 지났지만 드디어 소개드립니다. 그동안 정말 많이 Llama3 가지고 여러 테스트와 파인튜닝 작업을 진행하느라 좀 늦게 가져왔습니다. Llama 3은 현재까지 공개적으로 사용 가능한 가장 능력 있는 LLM(Large Language Model) 중 하나입니다. 이 모델은 현재 8B와 70B의 Base모델과 Instruct 모델이 각각 공개 되어있으며, 추후에 400B 크기의 모델도 공개 예정이라고 합니다. Llama3는 대체로 언어의 다양한 뉘앙스를 이해하며, 번역, 대화 생성 등의 작업에서 뛰어난 성능을 발휘합니다.성능 향상Llama 3은 llama2 이용해서 데이타셋 정제와 생성을 일부 이용해서 확장 가능성과 성능을 더욱 향상시켰습니다. 이제 다단계 작.. 2024. 5. 3.
모델 리뷰 믹스트랄 8x22B 4bit 구동 해보자 미스트랄 AI가 최신 오픈소스 LLM인 '믹스트랄 8x22B'를 공개했습니다! 😊 이 모델은 메타의 '라마 2 70B'와 오픈AI의 'GPT-3.5'와 비슷한 성능을 자랑해하고 있습니다. 또한, 이 모델은 6만5000개의 토큰 컨텍스트 창과 최대 1760억 개의 매개변수를 가지고 있어서, 이를 위해 '희소 전문가 혼합(SMoE)' 접근 방식을 사용하여 실행 비용과 시간을 크게 줄였습니다. 믹스트랄 8x22B는 220억 개의 매개변수를 가진 8개의 전문 모델로 구성되어 있고, 각 토큰당 2개의 전문 모델을 할당하여 입력을 처리하고 출력을 생성한다고 합니다. 🤖✨ 허깅페이스에 들어가서 모델을 다운 받아 실행할 수 있습니다. H100을 사용할 수 있어서 4bit로 구동 해봤습니다. 4bit지만 속도가 괜찮게 .. 2024. 4. 16.
모델 리뷰 OLMo Bitnet 1B을 colab에서 실행해보자 요즘 화두에 있는 Bitnet 양자화를 직접 구현했다는 NousResearch의 OLMo-Bitnet-1B을 리뷰해볼 예정입니다. NousResearch에서 제시한 방식으로 실행을 하려고 합니다. 모델 및 실행에 필요한 코드는 레포지토리에 모델과 같이 trust_remote_code=True을 하면 실행 할 수 있습니다. NousResearch에서에서 구현한 BitLinear158 클래스 먼저 살펴 볼 예정입니다. NousResearch에서에서 구현한 BitLinear158 클래스 해당 코드는 PyTorch를 사용하여 비트 정밀도(1.58 비트)로 선형 레이어를 구현하는 것으로 보입니다. 코드의 구성 요소를 살펴보겠습니다: weight_quant 함수: 이 함수는 가중치 텐서를 1.58 비트로 양자화합니.. 2024. 4. 3.
728x90
300x250