본문 바로가기

728x90

코딩55

DPO LLM 강화학습법에 대해서 DPO는 RLHF(Reinforcement Learning from Human Feedback)에 의존하지 않고 사용자 선호도 데이터를 직접 사용하여 언어 모델(LM)을 최적화하는 방법입니다. 주요 목표는 고품질 출력을 생성하기 위해 사용자 선호도를 기반으로 언어 모델을 훈련하는 것입니다. DPO는 강화학습 정책(PPO와 같은 것)을 사용하지 않으면서도(reward 모델링 없이) reward 함수와 기존 정책을 연결하여 인간의 선호 데이터에 최적화할 수 있다고 논문에서 설명합니다. 논문에 따르면 RLHF로 finetuning한 모델과 비교했을 때, DPO는 요약, single-turn 문제에서 더 우수한 성능을 보였습니다. DPO의 동기: DPO는 RLHF에 의존하지 않고 코드 생성과 같은 작업을 위한 .. 2024. 1. 24.

윈도우11환경에서 wsl ubuntu에 Nvidia Docker 설치하기 (설치하고 기억나는 대로 기록한거라서 그대로 따라한다고 될 보장없음) WSL Ubuntu 상에서 도커 설치하기 windows 기능 켜기/끄기 Windows Subsystem for Linux(WSL) 기능을 활성화 Microsoft Store에서 Ubuntu 설치 WSL 전용 NVIDIA 그래픽 드라이버 설치하기 https://developer.nvidia.com/cuda/wsl Ubuntu C드라이브에서 D드라이브로 옮기기 윈도우파워셀 실행 TAR 압축으로 Export 하기 wsl --export Ubuntu-22.04 D:\ubuntu-22-04.tar 기존 Ubuntu 버전 삭제 wsl --unregister Ubuntu-22.04 압축된 TAR Import wsl --import Ubuntu-22.. 2024. 1. 18.

Efficient Training of Language Models to Fill in the Middle 언어 모델 효과적인 훈련을 위한 중간 부분 채우기 | 논문 리뷰 영상 감상 https://youtu.be/eHrUKmeQEAA?si=TaXBky4q_1uQypJs 요약: 대형 언어 모델 소개: 본 논문에서는 2017년에 소개된 transformer 아키텍처를 기반으로 한 대형 언어 모델의 성공에 대해 논의합니다. 이러한 모델들은 다양한 작업에서 최첨단 성능을 달성하며 읽기 이해, 질문 응답, 논리 추론 및 상식적 추론과 같은 여러 벤치마크에서 우수한 성과를 보입니다. Transformer 기반 언어 모델의 종류: 논문은 언어 모델을 인코더 전용 모델 (예: BERT), 인코더-디코더 모델 (예: T5) 및 인과 디코더 기반 모델 (예: GPT-3)로 세 가지 넓은 범주로 분류합니다. 각 클래스는 대량 언어 모델링, 스팬 예측 또는 왼쪽에서 오른쪽으로 다음 토큰 예측과 같은 다양.. 2024. 1. 18.

모델 리뷰 : 고퀄리티 애니 이미지 모델 'animagine-xl-3.0' ANIMAGINE XL 3.0 개요: 모델 설명: Animagine XL 3.0은 Animagine XL 2.0을 계승하는 고급 오픈 소스 애니메이션 텍스트-이미지 모델입니다. Cagliostro Research Lab에서 개발한 확산 기반의 텍스트-이미지 생성 모델입니다. Stable Diffusion XL을 사용하여 Cagliostro Research Lab에서 개발했습니다. 🧨 디퓨저 설치: 사용자는 애니매진 XL 3.0을 활용하기 위해 필수 라이브러리(디퓨저, 트랜스포머, 가속, 세이프텐서)를 설치해야 합니다. 사용 지침: 훈련 및 하이퍼파라미터: 2x A100 GPU에서 21일 동안 3단계 훈련을 통해 훈련되었습니다. 학습 중 다양한 하이퍼파라미터 및 구성이 자세히 설명되어 있습니다. 개선 사항.. 2024. 1. 15.

이전 1 ··· 6 7 8 9 10 11 12 ··· 14 다음

728x90

티스토리툴바