본문 바로가기
728x90
300x250

분류 전체보기49

Efficient Training of Language Models to Fill in the Middle 언어 모델 효과적인 훈련을 위한 중간 부분 채우기 | 논문 리뷰 영상 감상 https://youtu.be/eHrUKmeQEAA?si=TaXBky4q_1uQypJs 요약: 대형 언어 모델 소개: 본 논문에서는 2017년에 소개된 transformer 아키텍처를 기반으로 한 대형 언어 모델의 성공에 대해 논의합니다. 이러한 모델들은 다양한 작업에서 최첨단 성능을 달성하며 읽기 이해, 질문 응답, 논리 추론 및 상식적 추론과 같은 여러 벤치마크에서 우수한 성과를 보입니다. Transformer 기반 언어 모델의 종류: 논문은 언어 모델을 인코더 전용 모델 (예: BERT), 인코더-디코더 모델 (예: T5) 및 인과 디코더 기반 모델 (예: GPT-3)로 세 가지 넓은 범주로 분류합니다. 각 클래스는 대량 언어 모델링, 스팬 예측 또는 왼쪽에서 오른쪽으로 다음 토큰 예측과 같은 다양.. 2024. 1. 18.
모델 리뷰 : 고퀄리티 애니 이미지 모델 'animagine-xl-3.0' ANIMAGINE XL 3.0 개요: 모델 설명: Animagine XL 3.0은 Animagine XL 2.0을 계승하는 고급 오픈 소스 애니메이션 텍스트-이미지 모델입니다. Cagliostro Research Lab에서 개발한 확산 기반의 텍스트-이미지 생성 모델입니다. Stable Diffusion XL을 사용하여 Cagliostro Research Lab에서 개발했습니다. 🧨 디퓨저 설치: 사용자는 애니매진 XL 3.0을 활용하기 위해 필수 라이브러리(디퓨저, 트랜스포머, 가속, 세이프텐서)를 설치해야 합니다. 사용 지침: 훈련 및 하이퍼파라미터: 2x A100 GPU에서 21일 동안 3단계 훈련을 통해 훈련되었습니다. 학습 중 다양한 하이퍼파라미터 및 구성이 자세히 설명되어 있습니다. 개선 사항.. 2024. 1. 15.
tiktoken 및 cl100k_base을 오프라인에서 사용후기 가끔 프로젝트를 하다보면 tiktoken을 오프라인으로 사용해야될 경우가 필요하다. 주로 캐시파일에 저장되기 때문에 시간이 지난다면 tiktoken이 알아서 새롭게 다운 받으려고 하는데... 이 경우 오프라인 PC에서 사용하게 되거나 제한된 인터넷 환경에서는 좀 귀찬게 된다. 첫번째. tiktoken 파일 다운로드 import tiktoken_ext.openai_public import inspect print(dir(tiktoken_ext.openai_public)) print(inspect.getsource(tiktoken_ext.openai_public.cl100k_base)) # >>> # 이하 생략 def cl100k_base(): mergeable_ranks = load_tiktoken_bpe.. 2024. 1. 15.
BERTopic v0.16 소개 글 BERTopic v0.16 소개: 오늘은 핸즈온 LLM 책을 집필하고 계시고 BERTopic과 Keybert를 개발 하신 Maarten Grootendorst은 BERTopic의 최신 릴리스를 소개하며 토픽 모델링에 대한 포괄적인 도구로 발전시키는 노력을 소개합니다. 주요 내용으로는 제로샷 토픽 모델링, 사전 훈련된 모델 병합 및 대규모 언어 모델에 대한 강화된 지원과 같은 주요 기능을 다룰 것입니다. 자세한 내용은 유튜브 영상속에 있습니다. https://youtu.be/Ba-a3EJh_Pw?si=kJVDh7paUXQXDBNy BERTopic 개요: BERTopic은 사용자 정의 토픽 모델을 구축하기 위한 모듈화된 프레임워크입니다. 기본 사용법은 임베딩을 생성하고, UMAP을 사용하여 5차원으로 축소하.. 2024. 1. 15.
728x90
300x250