3月はDELLのアンバサダー・プログラムでIntel Core Ultra 7 268V搭載のPCをお借りしていましたが、せっかくNPUがあるのにあまり活用できていないなーと思っていました。ローカルLLMは、普段llama.cpp、Ollama、LM Studioなどで動かしていますが、これらのターゲットは基本的にCPU/GPUなので、NPUを直接使うことができません。NPUを使用するには、モデルを最適化して動かす必要があります。
今回は OpenVINO Model Server(以下OVMS) という仕組みを使って、WindowsネイティブでNPU上でLLMを推論させるところまでやってみました。OVMSはIntelが開発しているツールで、OpenAI互換のAPIを提供してくれるので、既存のOpenAIクライアントなどからそのまま使えるのが魅力でもあります。
結論から言うと、ちゃんと動きました😊 ただ、途中でいくつかハマりポイントがあったので、備忘録として残しておきます。
環境
- PC: DELL(Intel Core Ultra 7 268V搭載 / Lunar Lake / Series 2)※DELLアンバサダー・プログラムでお借りしたもの
- RAM: 32GB
- OS: Windows 11
- OVMS: 2025.4
- モデル: OpenVINO/Qwen3-8B-int4-cw-ov(NPU用)


OpenVINO Model Serverとは
ローカルでLLMを動かしてAPIとして提供するツールです。普段、llama.cppを使っている方であれば、同じカテゴリのツールだと思ってもらえれば大丈夫です。C++で実装されていて、Intelハードウェア(CPU/GPU/NPU)に最適化されています。
llama.cppとの大きな違いは
- NPUを直接ターゲットにできる … llama.cppではできない
- OpenAI互換のAPIを提供 …
chat/completionsエンドポイントなどがそのまま使える - Intelのハードウェア最適化 … Speculative Decoding、KV-cache最適化などが組み込まれている
セットアップ方法
【前提】Visual C++ Redistributableのインストール
OVMSの動作には Microsoft Visual C++ Redistributable for Visual Studio 2015-2022(x64) が必要です。これはVisual Studio本体ではなく、ランタイムライブラリだけのパッケージです(無料)。
- 公式ページ … https://learn.microsoft.com/en-us/cpp/windows/latest-supported-vc-redist
- 直リンク(x64) … https://aka.ms/vs/17/release/vc_redist.x64.exe

【設定】→【アプリ】→【インストールされたアプリ】でMicrosoft Visual C++ 2015-2022 Redistributable (x64)が表示されていれば、既にインストール済みです。多くのPCでは他のアプリの依存関係で入っていることが多いので、まず確認してみてください。

OVMSバイナリのダウンロード

OVMSのバイナリパッケージは C++のみ版 と Python付き版 の2種類があります。
| パッケージ | ファイル名 | 特徴 |
|---|---|---|
| C++のみ版 | ovms_windows_python_off.zip |
軽量、既存Pythonに干渉しない |
| Python付き版 | ovms_windows_python_on.zip |
完全なチャットテンプレート対応 |
既存のPython環境への影響をゼロにしたかったので、まずはC++のみ版を選びました。
PS> mkdir C:\ovms PS> cd C:\ovms PS> curl.exe -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.4/ovms_windows_python_off.zip -o ovms.zip PS> tar -xf ovms.zip
⚠️ PowerShellでは curl ではなく curl.exe と書きましょう。 PowerShellでは curl が Invoke-WebRequest のエイリアスになっていて、-L オプションなどが認識されずエラーになります。本記事のコマンドはすべて curl.exe で記載しています。
CPUでの動作確認
いきなりNPUでの実行をする前に、まずCPUで動くことを確認しました。起動用のPowerShellスクリプト(C:\ovms\start_ovms.ps1)を作成します。
⚠️ PowerShellスクリプトと文字コードの罠 Windows標準のPowerShell 5.1は、スクリプトファイルをCP932として読み込みます。UTF-8で保存した日本語が文字化けしてパースエラーになるので、スクリプト内のメッセージやコメントはASCII文字(英語)のみで書くのが安全です。
⚠️ PowerShellの実行ポリシー .ps1スクリプトの実行にはポリシーの変更が必要です。初回のみ以下を実行します。
PS> Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
start_ovms.ps1
Write-Host "=== OpenVINO Model Server Starting ===" -ForegroundColor Cyan Write-Host "" & "$PSScriptRoot\ovms\setupvars.ps1" & "$PSScriptRoot\ovms\ovms.exe" ` --source_model "OpenVINO/Phi-3.5-mini-instruct-int4-ov" ` --model_repository_path "C:\ovms-models" ` --model_name phi3 ` --target_device CPU ` --task text_generation ` --rest_port 8000 Read-Host "Press Enter to exit"
start_ovms.ps1 を実行すると、初回はHugging Face🤗からモデルがダウンロードされます(数GB)。Started cleaner thread と表示されれば起動成功です🎉

別のPowerShellウィンドウを開いて動作確認します。
PS> [System.IO.File]::WriteAllText("$PWD\req.json", '{"model":"phi3","messages":[{"role":"user","content":"Hello"}],"max_tokens":50}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req.json"

⚠️ PowerShellではJSONファイル経由が確実 PowerShellは外部コマンド(curl.exeなど)に引数を渡す際にダブルクォートやエスケープ文字を再解釈するため、コマンドライン上にJSONを直接書くとパースエラーになります。-d "@ファイル名" でJSONファイルを渡す方法が最も安全です。
実行後、JSON形式でレスポンスが返ってくればOKです👍
NPUで動かす
いよいよ、本題のNPU対応です。
NPU向け起動スクリプト
NPUで動かすにはいくつか押さえておくべきポイントがあります。
⚠️ NPU向けに最適化されたモデルが必要です CPUで使っていたPhi-3.5-miniのまま --target_device NPU に変更するとNPUコンパイラでエラーになります。Hugging FaceのOpenVINOコレクションにあるチャンネルワイズINT4量子化済みモデル(ファイル名に int4-cw-ov が含まれるもの)を使いましょう。
⚠️ --cache_dir には相対パスを使いましょう C:\ovms-models\.ov_cache のようなWindows絶対パスを指定すると、バックスラッシュがOVMS内部のJSON処理でエスケープ文字として解釈されてエラーになります。
⚠️ デバイスマネージャーでNPUの認識を確認 Core Ultra Series 2(Lunar Lake)では「Intel(R) AI Boost」、Series 1では「Intel(R) NPU Accelerator」として表示されます。
これらを踏まえた起動スクリプト(C:\ovms\start_ovms_npu.ps1)がこちらです。
start_ovms_npu.ps1
Write-Host "=== OpenVINO Model Server Starting (NPU) ===" -ForegroundColor Cyan Write-Host "" & "$PSScriptRoot\ovms\setupvars.ps1" Set-Location $PSScriptRoot & "$PSScriptRoot\ovms\ovms.exe" ` --source_model "OpenVINO/Qwen3-8B-int4-cw-ov" ` --model_repository_path "C:\ovms-models" ` --model_name qwen3 ` --target_device NPU ` --task text_generation ` --rest_port 8000 ` --cache_dir .ov_cache ` --enable_prefix_caching true ` --max_prompt_len 2000 Read-Host "Press Enter to exit"
オプションの解説:
--source_model… NPU向けチャンネルワイズINT4量子化済みモデル--cache_dir .ov_cache… 相対パスで指定(バックスラッシュ問題の回避)--enable_prefix_caching true… プロンプトキャッシュで応答高速化--max_prompt_len 2000… 動的プロンプト長を有効化Set-Location $PSScriptRoot… 相対パスの基準をスクリプトの場所に固定
初回はNPUコンパイルに数十秒〜数分かかります。--cache_dir を指定しているので、2回目以降はキャッシュが効いて速くなります。
8Bモデルが重い場合は OpenVINO/Qwen3-4B-int4-cw-ov のモデルに変更することもできます。

動作確認
PS> [System.IO.File]::WriteAllText("$PWD\req.json", '{"model":"qwen3","messages":[{"role":"user","content":"Hello"}],"max_tokens":50}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req.json"

NPUでLLMが動作しています🤩

Qwen3は日本語対応モデルなので、日本語でもそのままリクエストを送信できます。
PS> [System.IO.File]::WriteAllText("$PWD\req_heavy.json", '{"model":"qwen3","messages":[{"role":"user","content":"AIがメディア業界にもたらす変化について、具体例を挙げながら詳しく説明してください。"}],"max_tokens":500}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req_heavy.json"
ストリーミングでリアルタイム生成を見ることもできます。curl.exe に -N オプションを付けるとバッファリングが無効になり、トークンが生成されるたびに表示されます。
PS> [System.IO.File]::WriteAllText("$PWD\req_stream.json", '{"model":"qwen3","messages":[{"role":"user","content":"IoTシステムの構築手順を初心者向けに解説してください。"}],"max_tokens":800,"stream":true}')
PS> curl.exe -N http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req_stream.json"
ブラウザからチャットする
コマンドラインでの動作確認はできましたが、もう少し使いやすくしたいですよね。OVMSはOpenAI互換APIなので、HTMLファイル1つで簡単なチャットUIを作ることができます。追加インストールは一切不要で、ブラウザで開くだけです。

以下の内容を ovms_chat.html として保存してください。
<!DOCTYPE html> <html lang="ja"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <title>OVMS Chat</title> <link href="https://fonts.googleapis.com/css2?family=Noto+Sans+JP:wght@300;400;500;700&family=JetBrains+Mono:wght@400;500&display=swap" rel="stylesheet"> <style> :root { --bg: #0a0e17; --surface: #131926; --surface-hover: #1a2233; --border: #1e2a3a; --text: #e4e8f1; --text-dim: #7a8599; --accent: #3b82f6; --accent-glow: rgba(59, 130, 246, 0.15); --user-bg: #1a2744; --assistant-bg: #131926; --code-bg: #0d1117; --success: #22c55e; --error: #ef4444; --warning: #f59e0b; } { margin: 0; padding: 0; box-sizing: border-box; } body { font-family: 'Noto Sans JP', sans-serif; background: var(--bg); color: var(--text); height: 100vh; display: flex; flex-direction: column; overflow: hidden; } header { display: flex; align-items: center; justify-content: space-between; padding: 12px 24px; border-bottom: 1px solid var(--border); background: var(--surface); flex-shrink: 0; } .logo { display: flex; align-items: center; gap: 10px; font-weight: 700; font-size: 16px; letter-spacing: -0.02em; } .logo-icon { width: 28px; height: 28px; background: linear-gradient(135deg, var(--accent), #8b5cf6); border-radius: 6px; display: flex; align-items: center; justify-content: center; font-size: 14px; color: white; } .status { display: flex; align-items: center; gap: 8px; font-size: 12px; color: var(--text-dim); } .status-dot { width: 7px; height: 7px; border-radius: 50%; background: var(--error); transition: background 0.3s; } .status-dot.connected { background: var(--success); } .settings-bar { display: flex; align-items: center; gap: 16px; padding: 10px 24px; border-bottom: 1px solid var(--border); background: var(--surface); flex-shrink: 0; flex-wrap: wrap; } .setting-group { display: flex; align-items: center; gap: 6px; } .setting-group label { font-size: 11px; color: var(--text-dim); text-transform: uppercase; letter-spacing: 0.05em; font-weight: 500; white-space: nowrap; } .setting-group input, .setting-group select { font-family: 'JetBrains Mono', monospace; font-size: 12px; padding: 4px 8px; border: 1px solid var(--border); border-radius: 4px; background: var(--bg); color: var(--text); outline: none; transition: border-color 0.2s; } .setting-group input:focus, .setting-group select:focus { border-color: var(--accent); } .setting-group input[type="number"] { width: 70px; } .setting-group input[type="text"] { width: 200px; } .btn-clear { margin-left: auto; padding: 4px 12px; font-size: 11px; font-family: 'Noto Sans JP', sans-serif; color: var(--text-dim); background: transparent; border: 1px solid var(--border); border-radius: 4px; cursor: pointer; transition: all 0.2s; } .btn-clear:hover { color: var(--error); border-color: var(--error); } .chat-area { flex: 1; overflow-y: auto; padding: 24px; display: flex; flex-direction: column; gap: 4px; scroll-behavior: smooth; } .chat-area::-webkit-scrollbar { width: 6px; } .chat-area::-webkit-scrollbar-track { background: transparent; } .chat-area::-webkit-scrollbar-thumb { background: var(--border); border-radius: 3px; } .message { max-width: 80%; padding: 12px 16px; border-radius: 12px; font-size: 14px; line-height: 1.7; white-space: pre-wrap; word-break: break-word; animation: fadeIn 0.25s ease; } @keyframes fadeIn { from { opacity: 0; transform: translateY(6px); } to { opacity: 1; transform: translateY(0); } } .message.user { align-self: flex-end; background: var(--user-bg); border: 1px solid rgba(59, 130, 246, 0.2); border-bottom-right-radius: 4px; } .message.assistant { align-self: flex-start; background: var(--assistant-bg); border: 1px solid var(--border); border-bottom-left-radius: 4px; } .message .role-tag { font-size: 10px; text-transform: uppercase; letter-spacing: 0.08em; font-weight: 500; margin-bottom: 4px; display: block; } .message.user .role-tag { color: var(--accent); } .message.assistant .role-tag { color: var(--success); } .message .content { color: var(--text); } .message .meta { font-size: 11px; color: var(--text-dim); margin-top: 8px; font-family: 'JetBrains Mono', monospace; border-top: 1px solid var(--border); padding-top: 6px; } .typing-indicator { align-self: flex-start; padding: 12px 16px; font-size: 13px; color: var(--text-dim); animation: fadeIn 0.2s ease; } .typing-indicator span { display: inline-block; animation: blink 1.2s infinite; } .typing-indicator span:nth-child(2) { animation-delay: 0.2s; } .typing-indicator span:nth-child(3) { animation-delay: 0.4s; } @keyframes blink { 0%, 60%, 100% { opacity: 0.2; } 30% { opacity: 1; } } .welcome { flex: 1; display: flex; flex-direction: column; align-items: center; justify-content: center; color: var(--text-dim); gap: 12px; text-align: center; } .welcome h2 { font-size: 20px; font-weight: 500; color: var(--text); } .welcome p { font-size: 13px; max-width: 400px; line-height: 1.6; } .input-area { padding: 16px 24px; border-top: 1px solid var(--border); background: var(--surface); flex-shrink: 0; } .input-row { display: flex; gap: 10px; align-items: flex-end; } .input-row textarea { flex: 1; font-family: 'Noto Sans JP', sans-serif; font-size: 14px; padding: 10px 14px; border: 1px solid var(--border); border-radius: 8px; background: var(--bg); color: var(--text); resize: none; outline: none; min-height: 44px; max-height: 160px; line-height: 1.5; transition: border-color 0.2s; } .input-row textarea:focus { border-color: var(--accent); } .input-row textarea::placeholder { color: var(--text-dim); } .btn-send { padding: 10px 20px; font-family: 'Noto Sans JP', sans-serif; font-size: 13px; font-weight: 500; color: white; background: var(--accent); border: none; border-radius: 8px; cursor: pointer; transition: all 0.2s; white-space: nowrap; height: 44px; } .btn-send:hover { filter: brightness(1.15); } .btn-send:disabled { opacity: 0.4; cursor: not-allowed; } .input-hint { font-size: 11px; color: var(--text-dim); margin-top: 6px; } .error-toast { position: fixed; top: 16px; right: 16px; background: var(--error); color: white; padding: 10px 16px; border-radius: 8px; font-size: 13px; z-index: 100; animation: fadeIn 0.3s ease; max-width: 400px; } </style> </head> <body> <header> <div class="logo"> <div class="logo-icon">OV</div> OVMS Chat </div> <div class="status"> <div class="status-dot" id="statusDot"></div> <span id="statusText">Connecting...</span> </div> </header> <div class="settings-bar"> <div class="setting-group"> <label>Endpoint</label> <input type="text" id="endpoint" value="http://localhost:8000/v3"> </div> <div class="setting-group"> <label>Model</label> <input type="text" id="model" value="qwen3"> </div> <div class="setting-group"> <label>Max Tokens</label> <input type="number" id="maxTokens" value="500" min="1" max="4096"> </div> <button class="btn-clear" onclick="clearChat()">Clear Chat</button> </div> <div class="chat-area" id="chatArea"> <div class="welcome" id="welcome"> <h2>OVMS Chat</h2> <p>OpenVINO Model Server に接続してチャットを行います。 サーバーが起動していることを確認してください。</p> </div> </div> <div class="input-area"> <div class="input-row"> <textarea id="userInput" placeholder="メッセージを入力..." rows="1" oninput="autoResize(this)"></textarea> <button class="btn-send" id="sendBtn" onclick="sendMessage()">送信</button> </div> <div class="input-hint">Enter で送信 / Shift+Enter で改行</div> </div> <script> const chatArea = document.getElementById('chatArea'); const userInput = document.getElementById('userInput'); const sendBtn = document.getElementById('sendBtn'); const statusDot = document.getElementById('statusDot'); const statusText = document.getElementById('statusText'); const welcome = document.getElementById('welcome'); let messages = []; let isGenerating = false; function autoResize(el) { el.style.height = 'auto'; el.style.height = Math.min(el.scrollHeight, 160) + 'px'; } userInput.addEventListener('keydown', (e) => { if (e.key === 'Enter' && !e.shiftKey) { e.preventDefault(); sendMessage(); } }); async function checkStatus() { try { const endpoint = document.getElementById('endpoint').value; const model = document.getElementById('model').value; const res = await fetch(`${endpoint}/models/${model}`, { method: 'GET' }); if (res.ok) { statusDot.className = 'status-dot connected'; statusText.textContent = 'Connected'; } else { throw new Error(); } } catch { statusDot.className = 'status-dot'; statusText.textContent = 'Disconnected'; } } function showError(msg) { const el = document.createElement('div'); el.className = 'error-toast'; el.textContent = msg; document.body.appendChild(el); setTimeout(() => el.remove(), 5000); } function escapeHtml(text) { const d = document.createElement('div'); d.textContent = text; return d.innerHTML; } function addMessage(role, content, meta) { if (welcome) welcome.style.display = 'none'; const div = document.createElement('div'); div.className = `message ${role}`; const roleTag = role === 'user' ? 'You' : 'Assistant'; let html = `<span class="role-tag">${roleTag}</span>` + `<div class="content">${escapeHtml(content)}</div>`; if (meta) html += `<div class="meta">${meta}</div>`; div.innerHTML = html; chatArea.appendChild(div); chatArea.scrollTop = chatArea.scrollHeight; return div; } function updateAssistantMessage(div, content, meta) { let html = `<span class="role-tag">Assistant</span>` + `<div class="content">${escapeHtml(content)}</div>`; if (meta) html += `<div class="meta">${meta}</div>`; div.innerHTML = html; chatArea.scrollTop = chatArea.scrollHeight; } function clearChat() { messages = []; chatArea.innerHTML = ''; if (welcome) { welcome.style.display = 'flex'; chatArea.appendChild(welcome); } } async function sendMessage() { const text = userInput.value.trim(); if (!text || isGenerating) return; isGenerating = true; sendBtn.disabled = true; userInput.value = ''; userInput.style.height = 'auto'; messages.push({ role: 'user', content: text }); addMessage('user', text); const typing = document.createElement('div'); typing.className = 'typing-indicator'; typing.innerHTML = '<span>●</span><span>●</span><span>●</span>'; chatArea.appendChild(typing); chatArea.scrollTop = chatArea.scrollHeight; const endpoint = document.getElementById('endpoint').value; const model = document.getElementById('model').value; const maxTokens = parseInt(document.getElementById('maxTokens').value) || 500; const startTime = performance.now(); try { const res = await fetch(`${endpoint}/chat/completions`, { method: 'POST', headers: { 'Content-Type': 'application/json' }, body: JSON.stringify({ model, messages, max_tokens: maxTokens, stream: true }) }); if (!res.ok) throw new Error(`HTTP ${res.status}: ${await res.text()}`); typing.remove(); const assistantDiv = addMessage('assistant', ''); let fullContent = '', completionTokens = 0; const reader = res.body.getReader(); const decoder = new TextDecoder(); let buffer = ''; while (true) { const { done, value } = await reader.read(); if (done) break; buffer += decoder.decode(value, { stream: true }); const lines = buffer.split('\n'); buffer = lines.pop(); for (const line of lines) { if (!line.startsWith('data: ')) continue; const data = line.slice(6).trim(); if (data === '[DONE]') continue; try { const json = JSON.parse(data); const delta = json.choices?.[0]?.delta?.content; if (delta) { fullContent += delta; updateAssistantMessage(assistantDiv, fullContent); } if (json.usage) completionTokens = json.usage.completion_tokens || 0; } catch {} } } const elapsed = (performance.now() - startTime) / 1000; if (!completionTokens) completionTokens = Math.ceil(fullContent.length / 2); const tps = (completionTokens / elapsed).toFixed(1); updateAssistantMessage(assistantDiv, fullContent, `${completionTokens} tokens / ${elapsed.toFixed(1)}s / ${tps} tokens/sec`); messages.push({ role: 'assistant', content: fullContent }); } catch (err) { typing.remove(); showError(`Error: ${err.message}`); messages.pop(); } isGenerating = false; sendBtn.disabled = false; userInput.focus(); } checkStatus(); setInterval(checkStatus, 10000); userInput.focus(); </script> </body> </html>
このチャットUIの機能
- ストリーミング対応でリアルタイムに生成過程が見える
- 各メッセージにTPS(tokens/sec)を表示してパフォーマンスがわかる
- 右上にOVMSの接続ステータスを表示(
/v3/models/{model_name}で確認) - Endpoint、モデル名、Max Tokensを画面上で変更可能

使い方は、OVMSが起動している状態でこのHTMLファイルをブラウザで開くだけです。ローカルのファイルなのでWebサーバーも不要。接続先やモデル名も画面上で変えられるので、CPU版(phi3)とNPU版(qwen3)の切り替えも簡単です。右上のステータスがConnected(緑色)になっていれば接続OKです。
もっと本格的なUIが欲しい場合は Open WebUI もいいかもしれません。pipやDockerでインストールでき、ChatGPTライクなUIで会話履歴の保存やモデル切り替えが可能です。設定画面でOVMSのエンドポイント(http://localhost:8000/v3)を登録すれば使えるようです。(未確認)
Pythonクライアントからの利用
OpenAIのPythonクライアントがそのまま使えるのは便利ですね。base_url を変えるだけです。
from openai import OpenAI client = OpenAI( base_url="http://localhost:8000/v3", api_key="unused" ) stream = client.chat.completions.create( model="qwen3", messages=[ {"role": "user", "content": "AIとは何ですか?"} ], max_tokens=200, stream=True ) for chunk in stream: if chunk.choices[0].delta.content is not None: print(chunk.choices[0].delta.content, end="", flush=True)
TPS(tokens/sec)の計測
NPUのパフォーマンスが気になるので、TPSも計測してみましょう。
import time from openai import OpenAI client = OpenAI(base_url="http://localhost:8000/v3", api_key="unused") start = time.time() response = client.chat.completions.create( model="qwen3", messages=[{"role": "user", "content": "AIがメディア業界にもたらす変化について説明してください。"}], max_tokens=500, stream=False ) elapsed = time.time() - start completion_tokens = response.usage.completion_tokens print(f"Completion tokens: {completion_tokens}") print(f"Elapsed time: {elapsed:.2f}s") print(f"Generation TPS: {completion_tokens / elapsed:.2f} tokens/sec")
アンインストール
OVMSはレジストリやシステム環境変数を一切変更しません。不要になったら以下のフォルダを削除するだけです👍
C:\ovms\(OVMS本体)C:\ovms-models\(モデルデータ)
今回のハマりポイントまとめ
Windows + PowerShell + 外部コマンドの組み合わせは本当にクセが強い😅
| ハマりポイント | 原因 | 解決策 |
|---|---|---|
curl -L がエラー |
PowerShellの curl は Invoke-WebRequest のエイリアス |
curl.exe と拡張子付きで指定 |
| .ps1の日本語が文字化け | PowerShell 5.1のデフォルトがCP932 | スクリプト内をASCII文字のみにする |
| curl.exeでJSONパースエラー | PowerShellが引数を再解釈して壊す | JSONファイル経由で -d "@req.json" |
| NPUでモデルがLLVM ERROR | NPU向けに最適化されていないモデル | int4-cw-ov 付きのモデルを使う |
Plugin config is in wrong format |
cache_dirの \ がJSON内でエスケープに |
相対パス(.ov_cache)を使う |
おわりに
OpenVINO Model ServerをWindowsネイティブでセットアップして、Intel NPUでLLM推論を動かすことができました。
正直、llama.cppでの動作と比べるとセットアップの手間は多いのですが、NPUを直接ターゲットにできるのはOVMSならではの強みですし、OpenAI互換APIのおかげで既存ツールとの連携もしやすい。Intel AI PCを持っている人にとっては、NPUの活用方法として有力な選択肢かもしれません。CPUの動作も軽くなりますしね。あと、PCの温度上昇もそこまで高くならなかったので、GPUよりもNPUをうまく使えればバッテリーの消費もかなり抑えられるのではないかと思います。
やはり、Qwen3-8BがNPU上で日本語もちゃんと生成できたのは😊ですね。また、8Bクラスのモデルが動くのはかなり選択肢が広がると思います。