본문 바로가기
728x90
300x250

분류 전체보기49

Paper 리뷰 Chat Vector 학습된 가중치 매개변수를 더하고 빼는 것으로 사전 학습된 모델에 대화 능력을 부여함. LLM 관련 논문중에 재밌는 것을 발견 했습니다. Llama-3-Open-Ko-8B-Instruct-preview의 README를 보던 중 Chat Vector라는 것을 알게 되었습니다. Chat Vector 학습된 가중치 매개변수를 더하고 빼는 것으로 사전 학습된 모델에 대화 능력을 부여해준다는게 흥미로웠습니다."With applying the idea from Chat Vector paper, I released Instruction model named Llama-3-Open-Ko-8B-Instruct-preview." (https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview) 발췌Chat Vector: A Simple Approach t.. 2024. 5. 3.
모델 리뷰 Llama 3을 colab에서 실행해보자 Llama 3이란?Llama 3가 공개된지 몇주가 지났지만 드디어 소개드립니다. 그동안 정말 많이 Llama3 가지고 여러 테스트와 파인튜닝 작업을 진행하느라 좀 늦게 가져왔습니다. Llama 3은 현재까지 공개적으로 사용 가능한 가장 능력 있는 LLM(Large Language Model) 중 하나입니다. 이 모델은 현재 8B와 70B의 Base모델과 Instruct 모델이 각각 공개 되어있으며, 추후에 400B 크기의 모델도 공개 예정이라고 합니다. Llama3는 대체로 언어의 다양한 뉘앙스를 이해하며, 번역, 대화 생성 등의 작업에서 뛰어난 성능을 발휘합니다.성능 향상Llama 3은 llama2 이용해서 데이타셋 정제와 생성을 일부 이용해서 확장 가능성과 성능을 더욱 향상시켰습니다. 이제 다단계 작.. 2024. 5. 3.
모델 리뷰 믹스트랄 8x22B 4bit 구동 해보자 미스트랄 AI가 최신 오픈소스 LLM인 '믹스트랄 8x22B'를 공개했습니다! 😊 이 모델은 메타의 '라마 2 70B'와 오픈AI의 'GPT-3.5'와 비슷한 성능을 자랑해하고 있습니다. 또한, 이 모델은 6만5000개의 토큰 컨텍스트 창과 최대 1760억 개의 매개변수를 가지고 있어서, 이를 위해 '희소 전문가 혼합(SMoE)' 접근 방식을 사용하여 실행 비용과 시간을 크게 줄였습니다. 믹스트랄 8x22B는 220억 개의 매개변수를 가진 8개의 전문 모델로 구성되어 있고, 각 토큰당 2개의 전문 모델을 할당하여 입력을 처리하고 출력을 생성한다고 합니다. 🤖✨ 허깅페이스에 들어가서 모델을 다운 받아 실행할 수 있습니다. H100을 사용할 수 있어서 4bit로 구동 해봤습니다. 4bit지만 속도가 괜찮게 .. 2024. 4. 16.
모델 리뷰 OLMo Bitnet 1B을 colab에서 실행해보자 요즘 화두에 있는 Bitnet 양자화를 직접 구현했다는 NousResearch의 OLMo-Bitnet-1B을 리뷰해볼 예정입니다. NousResearch에서 제시한 방식으로 실행을 하려고 합니다. 모델 및 실행에 필요한 코드는 레포지토리에 모델과 같이 trust_remote_code=True을 하면 실행 할 수 있습니다. NousResearch에서에서 구현한 BitLinear158 클래스 먼저 살펴 볼 예정입니다. NousResearch에서에서 구현한 BitLinear158 클래스 해당 코드는 PyTorch를 사용하여 비트 정밀도(1.58 비트)로 선형 레이어를 구현하는 것으로 보입니다. 코드의 구성 요소를 살펴보겠습니다: weight_quant 함수: 이 함수는 가중치 텐서를 1.58 비트로 양자화합니.. 2024. 4. 3.
728x90
300x250