AI

高スループットなLLM推論エンジン

vLLMは、LLMの推論・サービングに特化した高スループットなオープンソースエンジンです。PagedAttentionという独自のメモリ管理技術により、GPUメモリを効率的に使いながら多数のリクエストを並列処理でき、同じハードウェアでもより多くのユーザーにLLMを提供できます。OpenAI互換APIを備えているため既存アプリからの移行が容易で、Llama、Qwen、DeepSeekなど主要なオープンモデルを幅広くサポートします。NVIDIAだけでなくAMD GPUやTPUにも対応しています。自社インフラでLLMを本番運用したい企業や、推論コストを最適化したいAIサービス事業者に向いており、オープンモデルのセルフホスト基盤としては事実上の標準的な選択肢です。Apache-2.0ライセンスです。

関連トピック

amdblackwellcudadeepseekdeepseek-v3gptgpt-ossinferencekimillamallmllm-servingmodel-servingmoeopenaipytorchqwenqwen3tputransformer

vllmの解説記事

コメント(0

コメントするにはログインしてください。

同じカテゴリのOSS

Let's Build Together

OSS導入、自社だけで悩まない。

ツール選定から構築・運用・AI活用まで、オープンソースラボ運営元のClasslessが伴走します。初回のご相談は無料です。