본문 바로가기
728x90
300x250

코딩/모델 리뷰12

gemma3 vllm에서 dtype bfloat16과 float16 빈칸 문제 현재 젬마3가 나와서 구동을 돌려보는데 제대로 안되는 경우가 발생한다. vllm에서 dtype을 float16으로 돌릴때 문제가 나온다.기본적으로 젬마3가 bfloat16으로 학습이 진행됬는데, 콜랩 무료환경에서는 bfloat16이 T4 GPU의 Capability가 7.5이기 때문에 지원을 하지 않는다.vllm에서 최신 버전을 깃허브로 precompied된 버전을 다운받고 transformers를 @v4.49.0-gemma-3을 설치해도 제대로 작동하지 않을 것이다.Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla T4 GPU has compute capability 7.5. You can use .. 2025. 4. 3.
멀티모달 리뷰 qresearch의 llama3-vision-alpha 콜랩 구동 LLM RnD 자료를 찾으러 Note에서 일본 LLM 동향을 검색하고 있었는데 qresearch라는 곳에서 llama3로 vision모델을 만들었다는 글을 보았습니다. 그냥 자기 것이 성능이 우수하다 이런 내용이 아닌 만들어서 코드 리뷰하는 문서 였습니다. 생각보다 유익한 내용인거 같아서 따라 구동 해봤습니다.간단히 코드 구동이 가능합니다. 이 경우에 허깅페이스 레포지토리에서 lama-3-vision-alpha/mm_projector.bin만 들어있는데 그 이외에 파일은 튜닝을 따로 시키지 않은 llama3와 siglip 모델을 사용해서 중간의 projection층을 만들어서 그것만으로 vision 모델을 구현 했다는 것이 놀라웠습니다.import torchfrom PIL import Imagefrom .. 2024. 5. 9.
모델 리뷰 Llama 3을 colab에서 실행해보자 Llama 3이란?Llama 3가 공개된지 몇주가 지났지만 드디어 소개드립니다. 그동안 정말 많이 Llama3 가지고 여러 테스트와 파인튜닝 작업을 진행하느라 좀 늦게 가져왔습니다. Llama 3은 현재까지 공개적으로 사용 가능한 가장 능력 있는 LLM(Large Language Model) 중 하나입니다. 이 모델은 현재 8B와 70B의 Base모델과 Instruct 모델이 각각 공개 되어있으며, 추후에 400B 크기의 모델도 공개 예정이라고 합니다. Llama3는 대체로 언어의 다양한 뉘앙스를 이해하며, 번역, 대화 생성 등의 작업에서 뛰어난 성능을 발휘합니다.성능 향상Llama 3은 llama2 이용해서 데이타셋 정제와 생성을 일부 이용해서 확장 가능성과 성능을 더욱 향상시켰습니다. 이제 다단계 작.. 2024. 5. 3.
모델 리뷰 믹스트랄 8x22B 4bit 구동 해보자 미스트랄 AI가 최신 오픈소스 LLM인 '믹스트랄 8x22B'를 공개했습니다! 😊 이 모델은 메타의 '라마 2 70B'와 오픈AI의 'GPT-3.5'와 비슷한 성능을 자랑해하고 있습니다. 또한, 이 모델은 6만5000개의 토큰 컨텍스트 창과 최대 1760억 개의 매개변수를 가지고 있어서, 이를 위해 '희소 전문가 혼합(SMoE)' 접근 방식을 사용하여 실행 비용과 시간을 크게 줄였습니다. 믹스트랄 8x22B는 220억 개의 매개변수를 가진 8개의 전문 모델로 구성되어 있고, 각 토큰당 2개의 전문 모델을 할당하여 입력을 처리하고 출력을 생성한다고 합니다. 🤖✨ 허깅페이스에 들어가서 모델을 다운 받아 실행할 수 있습니다. H100을 사용할 수 있어서 4bit로 구동 해봤습니다. 4bit지만 속도가 괜찮게 .. 2024. 4. 16.
728x90
300x250