본문 바로가기
728x90
300x250

전체 글53

MCP Remote SSE 사용하기 최근 AI 업계에서는 모델 컨텍스트 프로토콜(MCP) 이 주요 이슈로 떠오르고 있다. MCP는 애플리케이션이 대형 언어 모델(LLM)에 컨텍스트를 제공하는 방식을 표준화하는 개방형 프로토콜이며, 여러 기업 및 개발자들이 이를 활용한 프로젝트를 진행 중이다.앤트로픽 페이지에서는 MCP를 다음과 같이 정의하고 있다:"모델 컨텍스트 프로토콜 (MCP)는 애플리케이션이 LLM에 컨텍스트를 제공하는 방법을 표준화하는 개방형 프로토콜입니다."MCP는 다양한 방식으로 구현할 수 있으며, uv를 사용하여 STDIO 방식으로 운영할 수도 있지만, 확장성과 유지보수를 고려하면 클라이언트-서버 구조를 구성하는 것이 보다 효율적이다.본 문서에서는 MCP를 리모트 서버에서 실행하고, SSE(Server-Sent Events) .. 2025. 4. 3.
gemma3 vllm에서 dtype bfloat16과 float16 빈칸 문제 현재 젬마3가 나와서 구동을 돌려보는데 제대로 안되는 경우가 발생한다. vllm에서 dtype을 float16으로 돌릴때 문제가 나온다.기본적으로 젬마3가 bfloat16으로 학습이 진행됬는데, 콜랩 무료환경에서는 bfloat16이 T4 GPU의 Capability가 7.5이기 때문에 지원을 하지 않는다.vllm에서 최신 버전을 깃허브로 precompied된 버전을 다운받고 transformers를 @v4.49.0-gemma-3을 설치해도 제대로 작동하지 않을 것이다.Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla T4 GPU has compute capability 7.5. You can use .. 2025. 4. 3.
vLLM으로 임베딩 모델 서빙 LLM에서는 최근 RAG에서 많이 쓰는 임베딩 모델을 일부 지원하기 시작함. 지원하는 아키텍쳐가 적지만, LLM기반과 가장 많이 사용되는 BAAI의 SOTA 모델과 LLM 기반의 임베딩 모델 위주로 지원함. 과거 모델은 쓰기 어려우나, 앞으로 나올 새로운 BAAI의 버트 기반 SOTA 모델, LLM 기반의 SOTA 임베딩 모델로 임베딩 모델을 전환 한다면 유용 할 것이라고 생각함. 로컬에서 사용하려면 WSL을 사용해서 vllm 명령어를 통해서 실행 할 수 있다. 장점GPU: 페이지 어텐션을 이용해서 필요한 GPU 메모리는 2배 정도 절약속도: 추론 속도는 7배 정도 절약확장성 : OpenAI API 형식의 호출 방식을 지원, LoRA 지원 등등 커스텀 모델의 확장성.기대 효과: 임베딩 모델로 추론만.. 2025. 4. 3.
랭체인 VLLMOpenAI를 사용할때 모델에 맞는 형식의 프롬프트 전달 방법 이 깃허브 블로그를 시작한 2023년부터 초기부터 계속 vLLM을 이용해서 많은 프로젝트를 진행하고 있는데 OpenAI의 기능을 사용해서 호출해서 사용하지만, 경우에 따라 랭체인의 VLLMOpenAI를 호출 해서 쓸 때도 있다.vLLM 자체는 Chat Template를 토크나이저로부터 jinja2 탬플릿을 가져와서 [{"role": "","content":""}]에 맞춰서 OpenAI 라이브러리 호출하는 방법으로 편하게 사용할 수 있지만 랭체인을 이용할때 약간 불편해진다.랭체인으로 다른 플랫폼의 모델들을 동시에 사용하거나 같은 코드로 관리하기 쉽게 사용하려고 하는데 VLLMOpenAI는 자동적으로 탬플릿에 적용이 안되는거 같다. (자세히 아는 분은 댓글좀..)ChatPromptTemplate을 이용해서 .. 2025. 2. 3.
728x90
300x250