본문 바로가기
728x90
300x250

코딩46

lora finetuning 후 EOS token이 안나오는 문제 지난번에 LoRA를 학습시키고 EOS 토큰이 나오는 확률이 낮아진거같은데... 어떻게 해결 할 수 있는 방법이 있는가 구글링을 통해서 찾아 보았다. https://towardsdatascience.com/challenges-in-stop-generation-within-llama-2-25f5fea8dea2 Challenges in Stop Generation within Llama 2 An Exploration with Potential Solutions towardsdatascience.com 이글을 보면 EOS 토큰의 확률이 생성될 가능성을 확인하는 방법을 알려줌 아래 코드를 잘 훔쳐 쓰겠습니다. 선생 class EosTokenRewardLogitsProcessor(LogitsProcessor): d.. 2023. 10. 28.
llama2에 remon 데이터로 LoRA 학습기 간단히 llama2를 통해 remon데이터를 학습시켜서 AI 캐릭터을 만드는 짓을 하겠다 remon data는 허깅 페이스에서 쉽게 구할 수 있음 nsfw가 없는 클린한 데이터를 사용합니다. https://huggingface.co/datasets/junelee/remon_without_nsfw 2023. 10. 25.
RLHF 인간 피드백 강화학습 코드분석 (chatllama, stackllama) 정의 사람의 피드백을 통해 파인튜닝함으로써 LM을 사용자 의도에 맞게 조정하는 방법이다. InstructGPT, ChatGPT 등에 사용되었다. 사람이 직접 평가한 결과, 1.3B의 파라미터를 가진 InstructGPT 모델이 GPT3-175B 모델보다 선호도가 높았다 퍼블릭 NLP 데이터 셋에서 성능 저하를 최소화하면서 진실성이 개선되고, 독성 출력 생성이 줄어들었지만 편향은 줄어들지 않았다 InstructGPT는 단순한 실수를 하지만, 사람의 피드백을 통한 파인튜닝이 언어 모델을 사람의 의도에 맞게 조정하는 데 있어 유망한 방향임을 보여주었다. 절차 아래 그림은 RLHF의 절차를 보여준다. 지도 파인튜닝, 보상 모델 학습, 근사 정책 최적화를 통한 강화 학습 순으로 진행된다. Step 1) 데모 데이.. 2023. 10. 24.
AutoGPTQ로 양자화 직접 해보기 오늘은 AutoGPTQ로 한글 라마13b 모델을 양자화해볼려고 한다. 오늘도 koalpaca 데이터셋을 사용하려고 한다. 가볍게 데이터셋 프롬프트 형식만 맞춰서 만들어주고... ds = load_dataset("beomi/KoAlpaca-v1.1a", split="train") ds_list = [] for i in range(len(ds)): ds_list.append(f"### User:\n{ds[i]['instruction']}\n\n### Assistant:\n{ds[i]['output']}") pickle.dump(ds_list, open("./ds.pkl", 'wb'), protocol=4) AutoGPTQ를 통해서 양자화 하기 위한 코드르 준비한다. 뭐 별거 없다. 다 만들어주는 패키지ㄷㄷㄷ.. 2023. 10. 23.
728x90
300x250