본문 바로가기
728x90
300x250

분류 전체보기49

LLaVA-1.5 이미지 텍스트 멀티모달 LLaVA-1.5는 이미지 분석이 가능한 멀티모달의 오픈소스로서 11개 벤치마크에서 소타를 달성했다. https://llava-vl.github.io/ 원문에서 중요한 아키텍쳐 부분 발췌 ``` 주요 목표는 사전 훈련된 언어 모델(Language Model)과 시각 모델(Visual Model)의 능력을 효과적으로 활용하는 것입니다. 네트워크 아키텍처는 Figure 1에서 보여집니다. 우리는 LLaMA를 우리의 LLM fφ(·)로 선택하였으며, 이는 여러 오픈소스 언어 모델 튜닝 연구에서 그 효과가 입증되었습니다. [43, 45, 34]. 입력 이미지 Xv에 대해, 우리는 사전 훈련된 CLIP 시각 인코더 ViT-L/14 [36]를 고려합니다. 이는 시각 특성인 Zv = g(Xv)를 제공합니다. 우리는 .. 2023. 10. 10.
양자화 모델 실행과 LoRA 파인 튜닝 https://hyeong9647.tistory.com/9 이어서 양자화된 모델 불러오기 양자화된 모델 불러오는 과정은 생각보다 간단하다. 다 AutoGPTQ가 해주기 때문이다. import torch from transformers import AutoTokenizer from transformers import AutoModelForCausalLM, TextStreamer model_name = "TheBloke/Llama-2-7b-Chat-GPTQ" tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True) model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=tor.. 2023. 10. 8.
AutoGPTQ를 이용한 양자화 하는 방법 양자화 LLM 모델을 양자화 하기 양자화 모델 실행하기 양자화 모델 파인 튜닝하기 양자화 모델의 필요성 양자화 하지 않는 라마2의 경우 필요한 사양 훈련 기준 7B 모델의 경우, "GPU - 1x Nvidia A10G 12gb"를 권장. 13B 모델의 경우, "GPU - 1x Nvidia A100 40gb"을 권장. 70B 모델의 경우, "GPU - 8x Nvidia A100 40gb"을 권장. 훈련시 대략 최소 320GB 양자화 개념요약 양자화 성능의 정확도 손실에 미치지 않는 범위에서 float32에서 4bit,8bit와 같이 저밀도가 낮은 데이터 타입으로 표현해서 효율적 계산을 수행하도록 하는 방법 주로, 입력을 정량화 상수로 스케일링 하여 입력을 정규화 하는 것으로, 학습이 완료된 가중치에 flo.. 2023. 10. 7.
LLM 기반의 서비스 만들 때 LLM 기반의 서비스 만들 때 LLM을 이용한 서비스를 많을때 필요한 과정을 선택할 때, 다음과 같은 요소들을 고려해야 합니다: 복잡성, 비용, 품질 등.] Train from Scratch: 모델을 처음부터 학습시키는 방법 Prompt Engineering: 사용자에게 적절한 질문을 유도하기 위해 프롬프트를 설계 RAG 활용: Retrieval-Augmented Generation(RAG) 기술을 사용하여 외부 정보의 맥락을 가져오고, 이를 기반으로 언어 모델이 답변을 생성 Fine-tuning: 미세 조정 학습을 통해 사전 레이블링된 데이터를 활용하여 모델을 특정 작업에 맞게 조정 데이터 소스: 다양한 데이터와 데이터베이스가 필요합니다. 필요한 경우 플랫폼 내에서 데이터를 변환할 수도 있으며, 데이터.. 2023. 10. 6.
728x90
300x250