본문 바로가기
728x90
300x250

전체 글47

tiktoken 및 cl100k_base을 오프라인에서 사용후기 가끔 프로젝트를 하다보면 tiktoken을 오프라인으로 사용해야될 경우가 필요하다. 주로 캐시파일에 저장되기 때문에 시간이 지난다면 tiktoken이 알아서 새롭게 다운 받으려고 하는데... 이 경우 오프라인 PC에서 사용하게 되거나 제한된 인터넷 환경에서는 좀 귀찬게 된다. 첫번째. tiktoken 파일 다운로드 import tiktoken_ext.openai_public import inspect print(dir(tiktoken_ext.openai_public)) print(inspect.getsource(tiktoken_ext.openai_public.cl100k_base)) # >>> # 이하 생략 def cl100k_base(): mergeable_ranks = load_tiktoken_bpe.. 2024. 1. 15.
BERTopic v0.16 소개 글 BERTopic v0.16 소개: 오늘은 핸즈온 LLM 책을 집필하고 계시고 BERTopic과 Keybert를 개발 하신 Maarten Grootendorst은 BERTopic의 최신 릴리스를 소개하며 토픽 모델링에 대한 포괄적인 도구로 발전시키는 노력을 소개합니다. 주요 내용으로는 제로샷 토픽 모델링, 사전 훈련된 모델 병합 및 대규모 언어 모델에 대한 강화된 지원과 같은 주요 기능을 다룰 것입니다. 자세한 내용은 유튜브 영상속에 있습니다. https://youtu.be/Ba-a3EJh_Pw?si=kJVDh7paUXQXDBNy BERTopic 개요: BERTopic은 사용자 정의 토픽 모델을 구축하기 위한 모듈화된 프레임워크입니다. 기본 사용법은 임베딩을 생성하고, UMAP을 사용하여 5차원으로 축소하.. 2024. 1. 15.
Gemini Pro API 사용해보기 (Python, Langchain) Gemini Pro API 사용료 현재(23년 12월) 무료 버전만 사용가능하고, 1분당 60번 호출 가능 유료버전은 내년 초 준비 중 https://blog.google/technology/ai/gemini-api-developers-cloud/ It’s time for developers and enterprises to build with Gemini Pro Gemini Pro is now available for developers and enterprises to build AI applications. blog.google Gemini Pro의 생산 비용은 1000 자당 $ 0.0005이며 GPT-4-Turbo ( $ 0.03 / 1K )보다 훨씬 저렴 아직 사용자가 별로 없어서그런가 TPU를.. 2023. 12. 18.
라마 인덱스와 랭체인 비교 오늘의 할 일은 라마 인덱스(구 GPT 인덱스)와 랭체인에 대한 비교를 진행할 것입니다. 조사해를 해본 자료를 조합하면 대충 아래와 같습니다. Langchain (랭체인): Langchain은 일반적인 프레임워크로 사용될 수 있으며 다양한 응용 프로그램을 구축하는데 유연한 선택지를 제공합니다. 이 도구는 초기 프로젝트 시작과 빠른 구현에 적합하며 러닝 커브가 낮습니다. 여기에 몇 가지 주요 특징을 살펴봅시다: 일반적인 프레임워크: Langchain은 다양한 응용 프로그램을 구축하기 위한 보다 일반적인 프레임워크로 사용됩니다. 이는 프로젝트의 목표와 요구 사항을 다양하게 다룰 수 있음을 의미합니다. 유연성: Langchain은 사용자에게 응용 프로그램의 동작을 사용자 정의할 수 있는 유연성을 제공합니다. .. 2023. 11. 1.
728x90
300x250