본문 바로가기
728x90
300x250

코딩/LLM23

LLM 병합 Mergekit을 사용해보자 간단히 툴킷 소개 및 목적:MergeKit은 매개변수를 결합하고 전이 학습의 발전을 활용하여 대규모 언어 모델(LLM)을 병합하도록 설계된 툴킷입니다.이는 광범위한 재교육 없이 오픈 소스 LLM의 기능을 향상하여 치명적인 할루시네이션과 같은 문제를 해결하는 것을 목표로 합니다.병합 기술:Linear Mode Connectivity (LMC):모델 가중치의 선형 평균을 활용합니다.Task Arithmetic: 작업 벡터에 대한 산술 연산을 포함합니다.Permutation Symmetry: 다양한 변환을 사용하여 손실 환경의 공통 영역에 대한 가중치를 조정합니다.고급 기술: Fisher information 매트릭스, RegMean 및 OTFusion(Optimal Transport Fusion)과 같은 방법을 포.. 2024. 6. 3.
Paper 리뷰 Chat Vector 학습된 가중치 매개변수를 더하고 빼는 것으로 사전 학습된 모델에 대화 능력을 부여함. LLM 관련 논문중에 재밌는 것을 발견 했습니다. Llama-3-Open-Ko-8B-Instruct-preview의 README를 보던 중 Chat Vector라는 것을 알게 되었습니다. Chat Vector 학습된 가중치 매개변수를 더하고 빼는 것으로 사전 학습된 모델에 대화 능력을 부여해준다는게 흥미로웠습니다."With applying the idea from Chat Vector paper, I released Instruction model named Llama-3-Open-Ko-8B-Instruct-preview." (https://huggingface.co/beomi/Llama-3-Open-Ko-8B-Instruct-preview) 발췌Chat Vector: A Simple Approach t.. 2024. 5. 3.
LLM기반 임베딩 모델, bge 리랭커 모델 'bge-reranker-v2-gemma' 리랭커 모델 소개 이 포스트에서는 'bge-m3'를 기반으로 한 '리랭커' 모델을 살펴보겠습니다. 기존의 '임베딩' 모델과는 달리 '리랭커' 모델은 질문과 문서를 입력으로 받아들이고 유사도를 출력합니다. 다른 임베딩 모델과는 달리, 리랭커는 질문과 문서를 입력으로 사용하며, 임베딩 대신 유사도를 직접 출력합니다. 리랭커는 쿼리와 메시지를 입력으로 받으면 관련성 점수를 계산하며, 이 점수는 시그모이드 함수를 사용하여 [0,1] 범위의 부동 소수점 값으로 매핑될 수 있습니다. 또한, 다국어를 지원하기 위해 BAAI/bge-reranker-v2-m3와 BAAI/bge-reranker-v2-gemma 두 가지 버전이 존재합니다. gemma 버전은 LLM(Large Language Model) 기반의 리랭커 LL.. 2024. 4. 2.
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits "The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits" 논문에서 소개된 방법론이 소개되었습니다. 1비트 LLM(1-bit LLM)은 자연어 처리(NLP) 모델의 성능을 개선하려는 시도 중 하나로, 기존의 32비트나 16비트 LLM과는 다른 접근 방식을 취합니다. 이 모델은 모든 파라미터나 가중치를 -1, 0, 1 중 하나의 값으로 양자화하여 구성됩니다. 이렇게 함으로써, 각 파라미터가 더 적은 비트로 표현되어 전체적인 모델 크기를 줄이고 메모리 사용량을 최적화할 수 있습니다. 1비트 LLM은 절대평균 양자화(absolute mean quantization)라는 특정한 양자화 기법을 사용하여 수치를 양자화합니다. 이 양자화 기법은 평균 값과.. 2024. 4. 1.
728x90
300x250