728x90 300x250 LLM11 DPO LLM 강화학습법에 대해서 DPO는 RLHF(Reinforcement Learning from Human Feedback)에 의존하지 않고 사용자 선호도 데이터를 직접 사용하여 언어 모델(LM)을 최적화하는 방법입니다. 주요 목표는 고품질 출력을 생성하기 위해 사용자 선호도를 기반으로 언어 모델을 훈련하는 것입니다. DPO는 강화학습 정책(PPO와 같은 것)을 사용하지 않으면서도(reward 모델링 없이) reward 함수와 기존 정책을 연결하여 인간의 선호 데이터에 최적화할 수 있다고 논문에서 설명합니다. 논문에 따르면 RLHF로 finetuning한 모델과 비교했을 때, DPO는 요약, single-turn 문제에서 더 우수한 성능을 보였습니다. DPO의 동기: DPO는 RLHF에 의존하지 않고 코드 생성과 같은 작업을 위한 .. 2024. 1. 24. BERTopic v0.16 소개 글 BERTopic v0.16 소개: 오늘은 핸즈온 LLM 책을 집필하고 계시고 BERTopic과 Keybert를 개발 하신 Maarten Grootendorst은 BERTopic의 최신 릴리스를 소개하며 토픽 모델링에 대한 포괄적인 도구로 발전시키는 노력을 소개합니다. 주요 내용으로는 제로샷 토픽 모델링, 사전 훈련된 모델 병합 및 대규모 언어 모델에 대한 강화된 지원과 같은 주요 기능을 다룰 것입니다. 자세한 내용은 유튜브 영상속에 있습니다. https://youtu.be/Ba-a3EJh_Pw?si=kJVDh7paUXQXDBNy BERTopic 개요: BERTopic은 사용자 정의 토픽 모델을 구축하기 위한 모듈화된 프레임워크입니다. 기본 사용법은 임베딩을 생성하고, UMAP을 사용하여 5차원으로 축소하.. 2024. 1. 15. 라마 인덱스와 랭체인 비교 오늘의 할 일은 라마 인덱스(구 GPT 인덱스)와 랭체인에 대한 비교를 진행할 것입니다. 조사해를 해본 자료를 조합하면 대충 아래와 같습니다. Langchain (랭체인): Langchain은 일반적인 프레임워크로 사용될 수 있으며 다양한 응용 프로그램을 구축하는데 유연한 선택지를 제공합니다. 이 도구는 초기 프로젝트 시작과 빠른 구현에 적합하며 러닝 커브가 낮습니다. 여기에 몇 가지 주요 특징을 살펴봅시다: 일반적인 프레임워크: Langchain은 다양한 응용 프로그램을 구축하기 위한 보다 일반적인 프레임워크로 사용됩니다. 이는 프로젝트의 목표와 요구 사항을 다양하게 다룰 수 있음을 의미합니다. 유연성: Langchain은 사용자에게 응용 프로그램의 동작을 사용자 정의할 수 있는 유연성을 제공합니다. .. 2023. 11. 1. 이전 1 2 3 다음 728x90 300x250