본문 바로가기
728x90
300x250

코딩/LLM23

BERTopic v0.16 소개 글 BERTopic v0.16 소개: 오늘은 핸즈온 LLM 책을 집필하고 계시고 BERTopic과 Keybert를 개발 하신 Maarten Grootendorst은 BERTopic의 최신 릴리스를 소개하며 토픽 모델링에 대한 포괄적인 도구로 발전시키는 노력을 소개합니다. 주요 내용으로는 제로샷 토픽 모델링, 사전 훈련된 모델 병합 및 대규모 언어 모델에 대한 강화된 지원과 같은 주요 기능을 다룰 것입니다. 자세한 내용은 유튜브 영상속에 있습니다. https://youtu.be/Ba-a3EJh_Pw?si=kJVDh7paUXQXDBNy BERTopic 개요: BERTopic은 사용자 정의 토픽 모델을 구축하기 위한 모듈화된 프레임워크입니다. 기본 사용법은 임베딩을 생성하고, UMAP을 사용하여 5차원으로 축소하.. 2024. 1. 15.
Gemini Pro API 사용해보기 (Python, Langchain) Gemini Pro API 사용료 현재(23년 12월) 무료 버전만 사용가능하고, 1분당 60번 호출 가능 유료버전은 내년 초 준비 중 https://blog.google/technology/ai/gemini-api-developers-cloud/ It’s time for developers and enterprises to build with Gemini Pro Gemini Pro is now available for developers and enterprises to build AI applications. blog.google Gemini Pro의 생산 비용은 1000 자당 $ 0.0005이며 GPT-4-Turbo ( $ 0.03 / 1K )보다 훨씬 저렴 아직 사용자가 별로 없어서그런가 TPU를.. 2023. 12. 18.
라마 인덱스와 랭체인 비교 오늘의 할 일은 라마 인덱스(구 GPT 인덱스)와 랭체인에 대한 비교를 진행할 것입니다. 조사해를 해본 자료를 조합하면 대충 아래와 같습니다. Langchain (랭체인): Langchain은 일반적인 프레임워크로 사용될 수 있으며 다양한 응용 프로그램을 구축하는데 유연한 선택지를 제공합니다. 이 도구는 초기 프로젝트 시작과 빠른 구현에 적합하며 러닝 커브가 낮습니다. 여기에 몇 가지 주요 특징을 살펴봅시다: 일반적인 프레임워크: Langchain은 다양한 응용 프로그램을 구축하기 위한 보다 일반적인 프레임워크로 사용됩니다. 이는 프로젝트의 목표와 요구 사항을 다양하게 다룰 수 있음을 의미합니다. 유연성: Langchain은 사용자에게 응용 프로그램의 동작을 사용자 정의할 수 있는 유연성을 제공합니다. .. 2023. 11. 1.
벡터 데이터베이스와 벡터 인덱스 Faiss 주로 LLM 관련되서 중장기적인 기억을 담당하는 부분을 수행으로 복합 비정형 데이터를 위해 효율적으로 저장 및 검색을 하기 위해 개발된 데이터베이스 구조 복합 비정형 데이터를 저장하기 위해서는 데이터를 일련의 숫자로 구성된 임베딩으로 변환하는 것이 필요하다. 임베딩을 하는 이유는 한 공간안에 유사한 것은 비슷한 공간에 몰려있다는 것을 전제로 진행한다. 예시 그림 Mnist 3차원같이 한 공간에 표현할 수 있어야 한다. (에 표현한 그림이라서 2차원같지만 3차원) 기존의 키-밸류 기반의 DB에서 이러한 복합 비정형 데이터를 찾을 때 상당히 느리고 정확하지 않은 문제점이 있어서 고안 됬다고 한다. 쿼리가 주어줬을 때 vecotor간의 거리를 계산해서 가장 가깝게 있는 것을 호출한다는 과정으로 주로 사용되는 .. 2023. 10. 29.
728x90
300x250