3月はDELLのアンバサダー・プログラムでIntel Core Ultra 7 268V搭載のPCをお借りしていましたが、せっかくNPUがあるのにあまり活用できていないなーと思っていました。ローカルLLMは、普段llama.cpp、Ollama、LM Studioなどで動かしていますが、これらのターゲットは基本的にCPU/GPUなので、NPUを直接使うことができません。NPUを使用するには、モデルを最適化して動かす必要があります。
今回は OpenVINO Model Server(以下OVMS) という仕組みを使って、WindowsネイティブでNPU上でLLMを推論させるところまでやってみました。OVMSはIntelが開発しているツールで、OpenAI互換のAPIを提供してくれるので、既存のOpenAIクライアントなどからそのまま使えるのが魅力でもあります。
結論から言うと、ちゃんと動きました😊 ただ、途中でいくつかハマりポイントがあったので、備忘録として残しておきます。
環境
- PC: DELL(Intel Core Ultra 7 268V搭載 / Lunar Lake / Series 2)※DELLアンバサダー・プログラムでお借りしたもの
- RAM: 32GB
- OS: Windows 11
- OVMS: 2025.4
- モデル: OpenVINO/Qwen3-8B-int4-cw-ov(NPU用)


OpenVINO Model Serverとは
ローカルでLLMを動かしてAPIとして提供するツールです。普段、llama.cppを使っている方であれば、同じカテゴリのツールだと思ってもらえれば大丈夫です。C++で実装されていて、Intelハードウェア(CPU/GPU/NPU)に最適化されています。
llama.cppとの大きな違いは
- NPUを直接ターゲットにできる … llama.cppではできない
- OpenAI互換のAPIを提供 …
chat/completions エンドポイントなどがそのまま使える
- Intelのハードウェア最適化 … Speculative Decoding、KV-cache最適化などが組み込まれている
セットアップ方法
【前提】Visual C++ Redistributableのインストール
OVMSの動作には Microsoft Visual C++ Redistributable for Visual Studio 2015-2022(x64) が必要です。これはVisual Studio本体ではなく、ランタイムライブラリだけのパッケージです(無料)。

【設定】→【アプリ】→【インストールされたアプリ】でMicrosoft Visual C++ 2015-2022 Redistributable (x64)が表示されていれば、既にインストール済みです。多くのPCでは他のアプリの依存関係で入っていることが多いので、まず確認してみてください。

OVMSバイナリのダウンロード
github.com

OVMSのバイナリパッケージは C++のみ版 と Python付き版 の2種類があります。
| パッケージ |
ファイル名 |
特徴 |
| C++のみ版 |
ovms_windows_python_off.zip |
軽量、既存Pythonに干渉しない |
| Python付き版 |
ovms_windows_python_on.zip |
完全なチャットテンプレート対応 |
既存のPython環境への影響をゼロにしたかったので、まずはC++のみ版を選びました。
PS> mkdir C:\ovms
PS> cd C:\ovms
PS> curl.exe -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.4/ovms_windows_python_off.zip -o ovms.zip
PS> tar -xf ovms.zip
⚠️ PowerShellでは curl ではなく curl.exe と書きましょう。 PowerShellでは curl が Invoke-WebRequest のエイリアスになっていて、-L オプションなどが認識されずエラーになります。本記事のコマンドはすべて curl.exe で記載しています。
CPUでの動作確認
いきなりNPUでの実行をする前に、まずCPUで動くことを確認しました。起動用のPowerShellスクリプト(C:\ovms\start_ovms.ps1)を作成します。
⚠️ PowerShellスクリプトと文字コードの罠 Windows標準のPowerShell 5.1は、スクリプトファイルをCP932として読み込みます。UTF-8で保存した日本語が文字化けしてパースエラーになるので、スクリプト内のメッセージやコメントはASCII文字(英語)のみで書くのが安全です。
⚠️ PowerShellの実行ポリシー .ps1スクリプトの実行にはポリシーの変更が必要です。初回のみ以下を実行します。
PS> Set-ExecutionPolicy RemoteSigned -Scope CurrentUser
start_ovms.ps1
Write-Host "=== OpenVINO Model Server Starting ===" -ForegroundColor Cyan
Write-Host ""
& "$PSScriptRoot\ovms\setupvars.ps1"
& "$PSScriptRoot\ovms\ovms.exe" `
--source_model "OpenVINO/Phi-3.5-mini-instruct-int4-ov" `
--model_repository_path "C:\ovms-models" `
--model_name phi3 `
--target_device CPU `
--task text_generation `
--rest_port 8000
Read-Host "Press Enter to exit"
start_ovms.ps1 を実行すると、初回はHugging Face🤗からモデルがダウンロードされます(数GB)。Started cleaner thread と表示されれば起動成功です🎉

別のPowerShellウィンドウを開いて動作確認します。
PS> [System.IO.File]::WriteAllText("$PWD\req.json", '{"model":"phi3","messages":[{"role":"user","content":"Hello"}],"max_tokens":50}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req.json"

⚠️ PowerShellではJSONファイル経由が確実 PowerShellは外部コマンド(curl.exeなど)に引数を渡す際にダブルクォートやエスケープ文字を再解釈するため、コマンドライン上にJSONを直接書くとパースエラーになります。-d "@ファイル名" でJSONファイルを渡す方法が最も安全です。
実行後、JSON形式でレスポンスが返ってくればOKです👍
NPUで動かす
いよいよ、本題のNPU対応です。
NPU向け起動スクリプト
NPUで動かすにはいくつか押さえておくべきポイントがあります。
⚠️ NPU向けに最適化されたモデルが必要です CPUで使っていたPhi-3.5-miniのまま --target_device NPU に変更するとNPUコンパイラでエラーになります。Hugging FaceのOpenVINOコレクションにあるチャンネルワイズINT4量子化済みモデル(ファイル名に int4-cw-ov が含まれるもの)を使いましょう。
⚠️ --cache_dir には相対パスを使いましょう C:\ovms-models\.ov_cache のようなWindows絶対パスを指定すると、バックスラッシュがOVMS内部のJSON処理でエスケープ文字として解釈されてエラーになります。
⚠️ デバイスマネージャーでNPUの認識を確認 Core Ultra Series 2(Lunar Lake)では「Intel(R) AI Boost」、Series 1では「Intel(R) NPU Accelerator」として表示されます。
これらを踏まえた起動スクリプト(C:\ovms\start_ovms_npu.ps1)がこちらです。
start_ovms_npu.ps1
Write-Host "=== OpenVINO Model Server Starting (NPU) ===" -ForegroundColor Cyan
Write-Host ""
& "$PSScriptRoot\ovms\setupvars.ps1"
Set-Location $PSScriptRoot
& "$PSScriptRoot\ovms\ovms.exe" `
--source_model "OpenVINO/Qwen3-8B-int4-cw-ov" `
--model_repository_path "C:\ovms-models" `
--model_name qwen3 `
--target_device NPU `
--task text_generation `
--rest_port 8000 `
--cache_dir .ov_cache `
--enable_prefix_caching true `
--max_prompt_len 2000
Read-Host "Press Enter to exit"
オプションの解説:
--source_model … NPU向けチャンネルワイズINT4量子化済みモデル
--cache_dir .ov_cache … 相対パスで指定(バックスラッシュ問題の回避)
--enable_prefix_caching true … プロンプトキャッシュで応答高速化
--max_prompt_len 2000 … 動的プロンプト長を有効化
Set-Location $PSScriptRoot … 相対パスの基準をスクリプトの場所に固定
初回はNPUコンパイルに数十秒〜数分かかります。--cache_dir を指定しているので、2回目以降はキャッシュが効いて速くなります。
8Bモデルが重い場合は OpenVINO/Qwen3-4B-int4-cw-ov のモデルに変更することもできます。

動作確認
PS> [System.IO.File]::WriteAllText("$PWD\req.json", '{"model":"qwen3","messages":[{"role":"user","content":"Hello"}],"max_tokens":50}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req.json"

NPUでLLMが動作しています🤩

Qwen3は日本語対応モデルなので、日本語でもそのままリクエストを送信できます。
PS> [System.IO.File]::WriteAllText("$PWD\req_heavy.json", '{"model":"qwen3","messages":[{"role":"user","content":"AIがメディア業界にもたらす変化について、具体例を挙げながら詳しく説明してください。"}],"max_tokens":500}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req_heavy.json"
ストリーミングでリアルタイム生成を見ることもできます。curl.exe に -N オプションを付けるとバッファリングが無効になり、トークンが生成されるたびに表示されます。
PS> [System.IO.File]::WriteAllText("$PWD\req_stream.json", '{"model":"qwen3","messages":[{"role":"user","content":"IoTシステムの構築手順を初心者向けに解説してください。"}],"max_tokens":800,"stream":true}')
PS> curl.exe -N http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req_stream.json"
ブラウザからチャットする
コマンドラインでの動作確認はできましたが、もう少し使いやすくしたいですよね。OVMSはOpenAI互換APIなので、HTMLファイル1つで簡単なチャットUIを作ることができます。追加インストールは一切不要で、ブラウザで開くだけです。

以下の内容を ovms_chat.html として保存してください。
<html lang="ja">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>OVMS Chat</title>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+JP:wght@300;400;500;700&family=JetBrains+Mono:wght@400;500&display=swap" rel="stylesheet">
<style>
:root {
--bg: #0a0e17;
--surface: #131926;
--surface-hover: #1a2233;
--border: #1e2a3a;
--text: #e4e8f1;
--text-dim: #7a8599;
--accent: #3b82f6;
--accent-glow: rgba(59, 130, 246, 0.15);
--user-bg: #1a2744;
--assistant-bg: #131926;
--code-bg: #0d1117;
--success: #22c55e;
--error: #ef4444;
--warning: #f59e0b;
}
{ margin: 0; padding: 0; box-sizing: border-box; }
body {
font-family: 'Noto Sans JP', sans-serif;
background: var(--bg);
color: var(--text);
height: 100vh;
display: flex;
flex-direction: column;
overflow: hidden;
}
header {
display: flex;
align-items: center;
justify-content: space-between;
padding: 12px 24px;
border-bottom: 1px solid var(--border);
background: var(--surface);
flex-shrink: 0;
}
.logo {
display: flex; align-items: center; gap: 10px;
font-weight: 700; font-size: 16px; letter-spacing: -0.02em;
}
.logo-icon {
width: 28px; height: 28px;
background: linear-gradient(135deg, var(--accent), #8b5cf6);
border-radius: 6px; display: flex; align-items: center;
justify-content: center; font-size: 14px; color: white;
}
.status {
display: flex; align-items: center; gap: 8px;
font-size: 12px; color: var(--text-dim);
}
.status-dot {
width: 7px; height: 7px; border-radius: 50%;
background: var(--error); transition: background 0.3s;
}
.status-dot.connected { background: var(--success); }
.settings-bar {
display: flex; align-items: center; gap: 16px;
padding: 10px 24px; border-bottom: 1px solid var(--border);
background: var(--surface); flex-shrink: 0; flex-wrap: wrap;
}
.setting-group {
display: flex; align-items: center; gap: 6px;
}
.setting-group label {
font-size: 11px; color: var(--text-dim); text-transform: uppercase;
letter-spacing: 0.05em; font-weight: 500; white-space: nowrap;
}
.setting-group input, .setting-group select {
font-family: 'JetBrains Mono', monospace; font-size: 12px;
padding: 4px 8px; border: 1px solid var(--border); border-radius: 4px;
background: var(--bg); color: var(--text); outline: none;
transition: border-color 0.2s;
}
.setting-group input:focus, .setting-group select:focus {
border-color: var(--accent);
}
.setting-group input[type="number"] { width: 70px; }
.setting-group input[type="text"] { width: 200px; }
.btn-clear {
margin-left: auto; padding: 4px 12px; font-size: 11px;
font-family: 'Noto Sans JP', sans-serif; color: var(--text-dim);
background: transparent; border: 1px solid var(--border);
border-radius: 4px; cursor: pointer; transition: all 0.2s;
}
.btn-clear:hover { color: var(--error); border-color: var(--error); }
.chat-area {
flex: 1; overflow-y: auto; padding: 24px;
display: flex; flex-direction: column; gap: 4px;
scroll-behavior: smooth;
}
.chat-area::scrollbar { width: 6px; }
.chat-area::scrollbar-track { background: transparent; }
.chat-area::scrollbar-thumb { background: var(--border); border-radius: 3px; }
.message {
max-width: 80%; padding: 12px 16px; border-radius: 12px;
font-size: 14px; line-height: 1.7; white-space: pre-wrap;
word-break: break-word; animation: fadeIn 0.25s ease;
}
@keyframes fadeIn {
from { opacity: 0; transform: translateY(6px); }
to { opacity: 1; transform: translateY(0); }
}
.message.user {
align-self: flex-end; background: var(--user-bg);
border: 1px solid rgba(59, 130, 246, 0.2);
border-bottom-right-radius: 4px;
}
.message.assistant {
align-self: flex-start; background: var(--assistant-bg);
border: 1px solid var(--border); border-bottom-left-radius: 4px;
}
.message .role-tag {
font-size: 10px; text-transform: uppercase;
letter-spacing: 0.08em; font-weight: 500;
margin-bottom: 4px; display: block;
}
.message.user .role-tag { color: var(--accent); }
.message.assistant .role-tag { color: var(--success); }
.message .content { color: var(--text); }
.message .meta {
font-size: 11px; color: var(--text-dim); margin-top: 8px;
font-family: 'JetBrains Mono', monospace;
border-top: 1px solid var(--border); padding-top: 6px;
}
.typing-indicator {
align-self: flex-start; padding: 12px 16px;
font-size: 13px; color: var(--text-dim); animation: fadeIn 0.2s ease;
}
.typing-indicator span { display: inline-block; animation: blink 1.2s infinite; }
.typing-indicator span:nth-child(2) { animation-delay: 0.2s; }
.typing-indicator span:nth-child(3) { animation-delay: 0.4s; }
@keyframes blink {
0%, 60%, 100% { opacity: 0.2; }
30% { opacity: 1; }
}
.welcome {
flex: 1; display: flex; flex-direction: column;
align-items: center; justify-content: center;
color: var(--text-dim); gap: 12px; text-align: center;
}
.welcome h2 { font-size: 20px; font-weight: 500; color: var(--text); }
.welcome p { font-size: 13px; max-width: 400px; line-height: 1.6; }
.input-area {
padding: 16px 24px; border-top: 1px solid var(--border);
background: var(--surface); flex-shrink: 0;
}
.input-row { display: flex; gap: 10px; align-items: flex-end; }
.input-row textarea {
flex: 1; font-family: 'Noto Sans JP', sans-serif; font-size: 14px;
padding: 10px 14px; border: 1px solid var(--border); border-radius: 8px;
background: var(--bg); color: var(--text); resize: none; outline: none;
min-height: 44px; max-height: 160px; line-height: 1.5;
transition: border-color 0.2s;
}
.input-row textarea:focus { border-color: var(--accent); }
.input-row textarea::placeholder { color: var(--text-dim); }
.btn-send {
padding: 10px 20px; font-family: 'Noto Sans JP', sans-serif;
font-size: 13px; font-weight: 500; color: white;
background: var(--accent); border: none; border-radius: 8px;
cursor: pointer; transition: all 0.2s; white-space: nowrap; height: 44px;
}
.btn-send:hover { filter: brightness(1.15); }
.btn-send:disabled { opacity: 0.4; cursor: not-allowed; }
.input-hint { font-size: 11px; color: var(--text-dim); margin-top: 6px; }
.error-toast {
position: fixed; top: 16px; right: 16px; background: var(--error);
color: white; padding: 10px 16px; border-radius: 8px;
font-size: 13px; z-index: 100; animation: fadeIn 0.3s ease;
max-width: 400px;
}
</style>
</head>
<body>
<header>
<div class="logo">
<div class="logo-icon">OV</div>
OVMS Chat
</div>
<div class="status">
<div class="status-dot" id="statusDot"></div>
<span id="statusText">Connecting...</span>
</div>
</header>
<div class="settings-bar">
<div class="setting-group">
<label>Endpoint</label>
<input type="text" id="endpoint" value="http://localhost:8000/v3">
</div>
<div class="setting-group">
<label>Model</label>
<input type="text" id="model" value="qwen3">
</div>
<div class="setting-group">
<label>Max Tokens</label>
<input type="number" id="maxTokens" value="500" min="1" max="4096">
</div>
<button class="btn-clear" onclick="clearChat()">Clear Chat</button>
</div>
<div class="chat-area" id="chatArea">
<div class="welcome" id="welcome">
<h2>OVMS Chat</h2>
<p>OpenVINO Model Server に接続してチャットを行います。
サーバーが起動していることを確認してください。</p>
</div>
</div>
<div class="input-area">
<div class="input-row">
<textarea id="userInput" placeholder="メッセージを入力..." rows="1"
oninput="autoResize(this)"></textarea>
<button class="btn-send" id="sendBtn" onclick="sendMessage()">送信</button>
</div>
<div class="input-hint">Enter で送信 / Shift+Enter で改行</div>
</div>
<script>
const chatArea = document.getElementById('chatArea');
const userInput = document.getElementById('userInput');
const sendBtn = document.getElementById('sendBtn');
const statusDot = document.getElementById('statusDot');
const statusText = document.getElementById('statusText');
const welcome = document.getElementById('welcome');
let messages = [];
let isGenerating = false;
function autoResize(el) {
el.style.height = 'auto';
el.style.height = Math.min(el.scrollHeight, 160) + 'px';
}
userInput.addEventListener('keydown', (e) => {
if (e.key === 'Enter' && !e.shiftKey) {
e.preventDefault();
sendMessage();
}
});
async function checkStatus() {
try {
const endpoint = document.getElementById('endpoint').value;
const model = document.getElementById('model').value;
const res = await fetch(`${endpoint}/models/${model}`, { method: 'GET' });
if (res.ok) {
statusDot.className = 'status-dot connected';
statusText.textContent = 'Connected';
} else { throw new Error(); }
} catch {
statusDot.className = 'status-dot';
statusText.textContent = 'Disconnected';
}
}
function showError(msg) {
const el = document.createElement('div');
el.className = 'error-toast';
el.textContent = msg;
document.body.appendChild(el);
setTimeout(() => el.remove(), 5000);
}
function escapeHtml(text) {
const d = document.createElement('div');
d.textContent = text;
return d.innerHTML;
}
function addMessage(role, content, meta) {
if (welcome) welcome.style.display = 'none';
const div = document.createElement('div');
div.className = `message ${role}`;
const roleTag = role === 'user' ? 'You' : 'Assistant';
let html = `<span class="role-tag">${roleTag}</span>`
+ `<div class="content">${escapeHtml(content)}</div>`;
if (meta) html += `<div class="meta">${meta}</div>`;
div.innerHTML = html;
chatArea.appendChild(div);
chatArea.scrollTop = chatArea.scrollHeight;
return div;
}
function updateAssistantMessage(div, content, meta) {
let html = `<span class="role-tag">Assistant</span>`
+ `<div class="content">${escapeHtml(content)}</div>`;
if (meta) html += `<div class="meta">${meta}</div>`;
div.innerHTML = html;
chatArea.scrollTop = chatArea.scrollHeight;
}
function clearChat() {
messages = [];
chatArea.innerHTML = '';
if (welcome) { welcome.style.display = 'flex'; chatArea.appendChild(welcome); }
}
async function sendMessage() {
const text = userInput.value.trim();
if (!text || isGenerating) return;
isGenerating = true;
sendBtn.disabled = true;
userInput.value = '';
userInput.style.height = 'auto';
messages.push({ role: 'user', content: text });
addMessage('user', text);
const typing = document.createElement('div');
typing.className = 'typing-indicator';
typing.innerHTML = '<span>●</span><span>●</span><span>●</span>';
chatArea.appendChild(typing);
chatArea.scrollTop = chatArea.scrollHeight;
const endpoint = document.getElementById('endpoint').value;
const model = document.getElementById('model').value;
const maxTokens = parseInt(document.getElementById('maxTokens').value) || 500;
const startTime = performance.now();
try {
const res = await fetch(`${endpoint}/chat/completions`, {
method: 'POST',
headers: { 'Content-Type': 'application/json' },
body: JSON.stringify({
model, messages, max_tokens: maxTokens, stream: true
})
});
if (!res.ok) throw new Error(`HTTP ${res.status}: ${await res.text()}`);
typing.remove();
const assistantDiv = addMessage('assistant', '');
let fullContent = '', completionTokens = 0;
const reader = res.body.getReader();
const decoder = new TextDecoder();
let buffer = '';
while (true) {
const { done, value } = await reader.read();
if (done) break;
buffer += decoder.decode(value, { stream: true });
const lines = buffer.split('\n');
buffer = lines.pop();
for (const line of lines) {
if (!line.startsWith('data: ')) continue;
const data = line.slice(6).trim();
if (data === '[DONE]') continue;
try {
const json = JSON.parse(data);
const delta = json.choices?.[0]?.delta?.content;
if (delta) { fullContent += delta; updateAssistantMessage(assistantDiv, fullContent); }
if (json.usage) completionTokens = json.usage.completion_tokens || 0;
} catch {}
}
}
const elapsed = (performance.now() - startTime) / 1000;
if (!completionTokens) completionTokens = Math.ceil(fullContent.length / 2);
const tps = (completionTokens / elapsed).toFixed(1);
updateAssistantMessage(assistantDiv, fullContent,
`${completionTokens} tokens / ${elapsed.toFixed(1)}s / ${tps} tokens/sec`);
messages.push({ role: 'assistant', content: fullContent });
} catch (err) {
typing.remove();
showError(`Error: ${err.message}`);
messages.pop();
}
isGenerating = false;
sendBtn.disabled = false;
userInput.focus();
}
checkStatus();
setInterval(checkStatus, 10000);
userInput.focus();
</script>
</body>
</html>
このチャットUIの機能
- ストリーミング対応でリアルタイムに生成過程が見える
- 各メッセージにTPS(tokens/sec)を表示してパフォーマンスがわかる
- 右上にOVMSの接続ステータスを表示(
/v3/models/{model_name} で確認)
- Endpoint、モデル名、Max Tokensを画面上で変更可能

使い方は、OVMSが起動している状態でこのHTMLファイルをブラウザで開くだけです。ローカルのファイルなのでWebサーバーも不要。接続先やモデル名も画面上で変えられるので、CPU版(phi3)とNPU版(qwen3)の切り替えも簡単です。右上のステータスがConnected(緑色)になっていれば接続OKです。
もっと本格的なUIが欲しい場合は Open WebUI もいいかもしれません。pipやDockerでインストールでき、ChatGPTライクなUIで会話履歴の保存やモデル切り替えが可能です。設定画面でOVMSのエンドポイント(http://localhost:8000/v3)を登録すれば使えるようです。(未確認)
Pythonクライアントからの利用
OpenAIのPythonクライアントがそのまま使えるのは便利ですね。base_url を変えるだけです。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:8000/v3",
api_key="unused"
)
stream = client.chat.completions.create(
model="qwen3",
messages=[
{"role": "user", "content": "AIとは何ですか?"}
],
max_tokens=200,
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="", flush=True)
TPS(tokens/sec)の計測
NPUのパフォーマンスが気になるので、TPSも計測してみましょう。
import time
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v3", api_key="unused")
start = time.time()
response = client.chat.completions.create(
model="qwen3",
messages=[{"role": "user", "content": "AIがメディア業界にもたらす変化について説明してください。"}],
max_tokens=500,
stream=False
)
elapsed = time.time() - start
completion_tokens = response.usage.completion_tokens
print(f"Completion tokens: {completion_tokens}")
print(f"Elapsed time: {elapsed:.2f}s")
print(f"Generation TPS: {completion_tokens / elapsed:.2f} tokens/sec")
アンインストール
OVMSはレジストリやシステム環境変数を一切変更しません。不要になったら以下のフォルダを削除するだけです👍
C:\ovms\(OVMS本体)
C:\ovms-models\(モデルデータ)
今回のハマりポイントまとめ
Windows + PowerShell + 外部コマンドの組み合わせは本当にクセが強い😅
| ハマりポイント |
原因 |
解決策 |
curl -L がエラー |
PowerShellの curl は Invoke-WebRequest のエイリアス |
curl.exe と拡張子付きで指定 |
| .ps1の日本語が文字化け |
PowerShell 5.1のデフォルトがCP932 |
スクリプト内をASCII文字のみにする |
| curl.exeでJSONパースエラー |
PowerShellが引数を再解釈して壊す |
JSONファイル経由で -d "@req.json" |
| NPUでモデルがLLVM ERROR |
NPU向けに最適化されていないモデル |
int4-cw-ov 付きのモデルを使う |
Plugin config is in wrong format |
cache_dirの \ がJSON内でエスケープに |
相対パス(.ov_cache)を使う |
おわりに
OpenVINO Model ServerをWindowsネイティブでセットアップして、Intel NPUでLLM推論を動かすことができました。
正直、llama.cppでの動作と比べるとセットアップの手間は多いのですが、NPUを直接ターゲットにできるのはOVMSならではの強みですし、OpenAI互換APIのおかげで既存ツールとの連携もしやすい。Intel AI PCを持っている人にとっては、NPUの活用方法として有力な選択肢かもしれません。CPUの動作も軽くなりますしね。あと、PCの温度上昇もそこまで高くならなかったので、GPUよりもNPUをうまく使えればバッテリーの消費もかなり抑えられるのではないかと思います。
やはり、Qwen3-8BがNPU上で日本語もちゃんと生成できたのは😊ですね。また、8Bクラスのモデルが動くのはかなり選択肢が広がると思います。
参考リンク