본문 바로가기
728x90
300x250

전체 글49

EXAONE 3.0 7.8B 모델의 llamafied과 파인튜닝 EXAONE 3.0 소개: EXAONE 3.0은 LG AI Research에서 개발한 명령 조정 언어 모델로, LLM(대형 언어 모델) 시리즈 중 최초의 개방형 모델로 유명합니다. 78억 개의 매개변수 버전이 연구 및 혁신을 지원하기 위해 공개적으로 출시되었습니다.성능 및 역량: 이 모델은 경쟁력 있는 성능을 보여줍니다. 특히 한국어 작업에서 탁월한 성능을 발휘하는 동시에 일반적인 작업과 복잡한 추론에서도 우수한 성능을 발휘합니다. 언어 기술과 도메인 전문성을 향상하기 위해 대규모 데이터 세트(8조 토큰)에 대한 교육을 받았습니다.모델 아키텍처 및 기능: EXAONE 3.0은 RoPE(Rotary Position Embeddings) 및 GQA(Grouped Query Attention)와 같은 고급 기.. 2024. 8. 8.
LLM2Vec 디코더 전용 LLM을 텍스트 인코더로 변환하는 방법 LLM2Vec: 디코더 전용 LLM을 텍스트 인코더로 변환하는 방법LLM2Vec은 강력한 텍스트 임베딩을 위해 디코더 전용 대규모 언어 모델(LLM)을 활용하는 새로운 접근 방식을 도입하여 BERT와 같은 기존 인코더 기반 방법과 대조됩니다. 이 백서에서는 텍스트 임베딩 작업에 디코더 전용 모델을 사용하는 방법, 실험 및 그 효과를 입증하는 결과에 대해 설명합니다.기존의 텍스트 임베딩 방법론:인코더 모델(예: BERT)은 입력의 모든 토큰을 동시에 고려하여 양방향 주의를 사용합니다.디코더 모델(예: GPT)은 인과주의를 사용하여 현재 위치까지의 과거 토큰에만 초점을 맞춥니다.디코더 모델 관련 문제: 자동 회귀 특성은 향후 토큰에 주의를 기울일 수 없기 때문에 차선책 임베딩으로 이어집니다.LLM2Vec은 .. 2024. 8. 8.
LLM 병합 Mergekit을 사용해보자 간단히 툴킷 소개 및 목적:MergeKit은 매개변수를 결합하고 전이 학습의 발전을 활용하여 대규모 언어 모델(LLM)을 병합하도록 설계된 툴킷입니다.이는 광범위한 재교육 없이 오픈 소스 LLM의 기능을 향상하여 치명적인 할루시네이션과 같은 문제를 해결하는 것을 목표로 합니다.병합 기술:Linear Mode Connectivity (LMC):모델 가중치의 선형 평균을 활용합니다.Task Arithmetic: 작업 벡터에 대한 산술 연산을 포함합니다.Permutation Symmetry: 다양한 변환을 사용하여 손실 환경의 공통 영역에 대한 가중치를 조정합니다.고급 기술: Fisher information 매트릭스, RegMean 및 OTFusion(Optimal Transport Fusion)과 같은 방법을 포.. 2024. 6. 3.
멀티모달 리뷰 qresearch의 llama3-vision-alpha 콜랩 구동 LLM RnD 자료를 찾으러 Note에서 일본 LLM 동향을 검색하고 있었는데 qresearch라는 곳에서 llama3로 vision모델을 만들었다는 글을 보았습니다. 그냥 자기 것이 성능이 우수하다 이런 내용이 아닌 만들어서 코드 리뷰하는 문서 였습니다. 생각보다 유익한 내용인거 같아서 따라 구동 해봤습니다.간단히 코드 구동이 가능합니다. 이 경우에 허깅페이스 레포지토리에서 lama-3-vision-alpha/mm_projector.bin만 들어있는데 그 이외에 파일은 튜닝을 따로 시키지 않은 llama3와 siglip 모델을 사용해서 중간의 projection층을 만들어서 그것만으로 vision 모델을 구현 했다는 것이 놀라웠습니다.import torchfrom PIL import Imagefrom .. 2024. 5. 9.
728x90
300x250