본문 바로가기

728x90

전체 글54

MCP Langgraph AI 에이전트 아키텍처와 LangChain MCP Adapters의 FastMCP SSE 예제 최근 AI 에이전트를 구축할 때, 다양한 외부 도구를 손쉽게 연결하고 확장할 수 있는 MCP (Model Context Protocol) 아키텍처가 주목받고 있습니다.🧩 MCP란?**MCP(Model Context Protocol)**는 LLM 기반 AI 에이전트가 다양한 외부 도구를 유연하게 호출할 수 있도록 설계된 개방형 프로토콜이며, 여러 기업 및 개발자들이 이를 활용한 프로젝트를 진행 중이다.✔️ MCP의 주요 특징유연한 통신: 다양한 클라이언트/서버 구성에서 사용 가능빠른 도구 연동: 도구를 데코레이터 한 줄로 노출 가능빠른 개발 및 프로토타이핑에 최적낮은 진입 장벽: LangChain Adapter + FastMCP로 바로 시작 가능🧱 아키텍처 구성 개요MCP 시스템은 크게 3가지 요소로 .. 2025. 4. 5.

MCP SSE Remote사용하기 최근 AI 업계에서는 모델 컨텍스트 프로토콜(MCP) 이 주요 이슈로 떠오르고 있다. MCP는 애플리케이션이 대형 언어 모델(LLM)에 컨텍스트를 제공하는 방식을 표준화하는 개방형 프로토콜이며, 여러 기업 및 개발자들이 이를 활용한 프로젝트를 진행 중이다.앤트로픽 페이지에서는 MCP를 다음과 같이 정의하고 있다:"모델 컨텍스트 프로토콜 (MCP)는 애플리케이션이 LLM에 컨텍스트를 제공하는 방법을 표준화하는 개방형 프로토콜입니다."MCP는 다양한 방식으로 구현할 수 있으며, uv를 사용하여 STDIO 방식으로 운영할 수도 있지만, 확장성과 유지보수를 고려하면 클라이언트-서버 구조를 구성하는 것이 보다 효율적이다.본 문서에서는 MCP를 리모트 서버에서 실행하고, SSE(Server-Sent Events) .. 2025. 4. 3.

gemma3 vllm에서 dtype bfloat16과 float16 빈칸 문제 현재 젬마3가 나와서 구동을 돌려보는데 제대로 안되는 경우가 발생한다. vllm에서 dtype을 float16으로 돌릴때 문제가 나온다.기본적으로 젬마3가 bfloat16으로 학습이 진행됬는데, 콜랩 무료환경에서는 bfloat16이 T4 GPU의 Capability가 7.5이기 때문에 지원을 하지 않는다.vllm에서 최신 버전을 깃허브로 precompied된 버전을 다운받고 transformers를 @v4.49.0-gemma-3을 설치해도 제대로 작동하지 않을 것이다.Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla T4 GPU has compute capability 7.5. You can use .. 2025. 4. 3.

vLLM으로 임베딩 모델 서빙 LLM에서는 최근 RAG에서 많이 쓰는 임베딩 모델을 일부 지원하기 시작함. 지원하는 아키텍쳐가 적지만, LLM기반과 가장 많이 사용되는 BAAI의 SOTA 모델과 LLM 기반의 임베딩 모델 위주로 지원함. 과거 모델은 쓰기 어려우나, 앞으로 나올 새로운 BAAI의 버트 기반 SOTA 모델, LLM 기반의 SOTA 임베딩 모델로 임베딩 모델을 전환 한다면 유용 할 것이라고 생각함. 로컬에서 사용하려면 WSL을 사용해서 vllm 명령어를 통해서 실행 할 수 있다. 장점GPU: 페이지 어텐션을 이용해서 필요한 GPU 메모리는 2배 정도 절약속도: 추론 속도는 7배 정도 절약확장성 : OpenAI API 형식의 호출 방식을 지원, LoRA 지원 등등 커스텀 모델의 확장성.기대 효과: 임베딩 모델로 추론만.. 2025. 4. 3.

이전 1 2 3 4 ··· 14 다음

728x90

티스토리툴바