본문 바로가기

728x90

코딩/LLM29

EXAONE 3.0 7.8B 모델의 llamafied과 파인튜닝 EXAONE 3.0 소개: EXAONE 3.0은 LG AI Research에서 개발한 명령 조정 언어 모델로, LLM(대형 언어 모델) 시리즈 중 최초의 개방형 모델로 유명합니다. 78억 개의 매개변수 버전이 연구 및 혁신을 지원하기 위해 공개적으로 출시되었습니다.성능 및 역량: 이 모델은 경쟁력 있는 성능을 보여줍니다. 특히 한국어 작업에서 탁월한 성능을 발휘하는 동시에 일반적인 작업과 복잡한 추론에서도 우수한 성능을 발휘합니다. 언어 기술과 도메인 전문성을 향상하기 위해 대규모 데이터 세트(8조 토큰)에 대한 교육을 받았습니다.모델 아키텍처 및 기능: EXAONE 3.0은 RoPE(Rotary Position Embeddings) 및 GQA(Grouped Query Attention)와 같은 고급 기.. 2024. 8. 8.

LLM2Vec 디코더 전용 LLM을 텍스트 인코더로 변환하는 방법 LLM2Vec: 디코더 전용 LLM을 텍스트 인코더로 변환하는 방법LLM2Vec은 강력한 텍스트 임베딩을 위해 디코더 전용 대규모 언어 모델(LLM)을 활용하는 새로운 접근 방식을 도입하여 BERT와 같은 기존 인코더 기반 방법과 대조됩니다. 이 백서에서는 텍스트 임베딩 작업에 디코더 전용 모델을 사용하는 방법, 실험 및 그 효과를 입증하는 결과에 대해 설명합니다.기존의 텍스트 임베딩 방법론:인코더 모델(예: BERT)은 입력의 모든 토큰을 동시에 고려하여 양방향 주의를 사용합니다.디코더 모델(예: GPT)은 인과주의를 사용하여 현재 위치까지의 과거 토큰에만 초점을 맞춥니다.디코더 모델 관련 문제: 자동 회귀 특성은 향후 토큰에 주의를 기울일 수 없기 때문에 차선책 임베딩으로 이어집니다.LLM2Vec은 .. 2024. 8. 8.

LLM 병합 Mergekit을 사용해보자 간단히 툴킷 소개 및 목적:MergeKit은 매개변수를 결합하고 전이 학습의 발전을 활용하여 대규모 언어 모델(LLM)을 병합하도록 설계된 툴킷입니다.이는 광범위한 재교육 없이 오픈 소스 LLM의 기능을 향상하여 치명적인 할루시네이션과 같은 문제를 해결하는 것을 목표로 합니다.병합 기술:Linear Mode Connectivity (LMC):모델 가중치의 선형 평균을 활용합니다.Task Arithmetic: 작업 벡터에 대한 산술 연산을 포함합니다.Permutation Symmetry: 다양한 변환을 사용하여 손실 환경의 공통 영역에 대한 가중치를 조정합니다.고급 기술: Fisher information 매트릭스, RegMean 및 OTFusion(Optimal Transport Fusion)과 같은 방법을 포.. 2024. 6. 3.

Paper 리뷰 Chat Vector 학습된 가중치 매개변수를 더하고 빼는 것으로 사전 학습된 모델에 대화 능력을 부여함. LLM 관련 논문중에 재밌는 것을 발견 했습니다. Llama-3-Open-Ko-8B-Instruct-preview의 README를 보던 중 Chat Vector라는 것을 알게 되었습니다. Chat Vector 학습된 가중치 매개변수를 더하고 빼는 것으로 사전 학습된 모델에 대화 능력을 부여해준다는게 흥미로웠습니다."With applying the idea from Chat Vector paper, I released Instruction model named Llama-3-Open-Ko-8B-Instruct-preview." (https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview) 발췌Chat Vector: A Simple Approach t.. 2024. 5. 3.

이전 1 2 3 4 5 ··· 8 다음

728x90

티스토리툴바