OpenVINO Model ServerをWindowsネイティブ環境のNPUでLLM推論してみた!

3月はDELLのアンバサダー・プログラムでIntel Core Ultra 7 268V搭載のPCをお借りしていましたが、せっかくNPUがあるのにあまり活用できていないなーと思っていました。ローカルLLMは、普段llama.cppOllamaLM Studioなどで動かしていますが、これらのターゲットは基本的にCPU/GPUなので、NPUを直接使うことができません。NPUを使用するには、モデルを最適化して動かす必要があります。

今回は OpenVINO Model Server(以下OVMS) という仕組みを使って、WindowsネイティブでNPU上でLLMを推論させるところまでやってみました。OVMSはIntelが開発しているツールで、OpenAI互換のAPIを提供してくれるので、既存のOpenAIクライアントなどからそのまま使えるのが魅力でもあります。

結論から言うと、ちゃんと動きました😊 ただ、途中でいくつかハマりポイントがあったので、備忘録として残しておきます。

環境

  • PC: DELL(Intel Core Ultra 7 268V搭載 / Lunar Lake / Series 2)※DELLアンバサダー・プログラムでお借りしたもの
  • RAM: 32GB
  • OS: Windows 11
  • OVMS: 2025.4
  • モデル: OpenVINO/Qwen3-8B-int4-cw-ov(NPU用)

OpenVINO Model Serverとは

ローカルでLLMを動かしてAPIとして提供するツールです。普段、llama.cppを使っている方であれば、同じカテゴリのツールだと思ってもらえれば大丈夫です。C++で実装されていて、Intelハードウェア(CPU/GPU/NPU)に最適化されています。

llama.cppとの大きな違いは

  • NPUを直接ターゲットにできる … llama.cppではできない
  • OpenAI互換のAPIを提供 … chat/completions エンドポイントなどがそのまま使える
  • Intelのハードウェア最適化 … Speculative Decoding、KV-cache最適化などが組み込まれている

セットアップ方法

【前提】Visual C++ Redistributableのインストール

OVMSの動作には Microsoft Visual C++ Redistributable for Visual Studio 2015-2022(x64) が必要です。これはVisual Studio本体ではなく、ランタイムライブラリだけのパッケージです(無料)。

【設定】→【アプリ】→【インストールされたアプリ】でMicrosoft Visual C++ 2015-2022 Redistributable (x64)が表示されていれば、既にインストール済みです。多くのPCでは他のアプリの依存関係で入っていることが多いので、まず確認してみてください。

OVMSバイナリのダウンロード

github.com

OVMSのバイナリパッケージは C++のみ版Python付き版 の2種類があります。

パッケージ ファイル名 特徴
C++のみ版 ovms_windows_python_off.zip 軽量、既存Pythonに干渉しない
Python付き版 ovms_windows_python_on.zip 完全なチャットテンプレート対応

既存のPython環境への影響をゼロにしたかったので、まずはC++のみ版を選びました。

PS> mkdir C:\ovms
PS> cd C:\ovms
PS> curl.exe -L https://github.com/openvinotoolkit/model_server/releases/download/v2025.4/ovms_windows_python_off.zip -o ovms.zip
PS> tar -xf ovms.zip

⚠️ PowerShellでは curl ではなく curl.exe と書きましょう。 PowerShellでは curlInvoke-WebRequest のエイリアスになっていて、-L オプションなどが認識されずエラーになります。本記事のコマンドはすべて curl.exe で記載しています。

CPUでの動作確認

いきなりNPUでの実行をする前に、まずCPUで動くことを確認しました。起動用のPowerShellスクリプト(C:\ovms\start_ovms.ps1)を作成します。

⚠️ PowerShellスクリプトと文字コードの罠 Windows標準のPowerShell 5.1は、スクリプトファイルをCP932として読み込みます。UTF-8で保存した日本語が文字化けしてパースエラーになるので、スクリプト内のメッセージやコメントはASCII文字(英語)のみで書くのが安全です。

⚠️ PowerShellの実行ポリシー .ps1スクリプトの実行にはポリシーの変更が必要です。初回のみ以下を実行します。

PS> Set-ExecutionPolicy RemoteSigned -Scope CurrentUser

start_ovms.ps1

Write-Host "=== OpenVINO Model Server Starting ===" -ForegroundColor Cyan
Write-Host ""

& "$PSScriptRoot\ovms\setupvars.ps1"

& "$PSScriptRoot\ovms\ovms.exe" `
  --source_model "OpenVINO/Phi-3.5-mini-instruct-int4-ov" `
  --model_repository_path "C:\ovms-models" `
  --model_name phi3 `
  --target_device CPU `
  --task text_generation `
  --rest_port 8000

Read-Host "Press Enter to exit"

start_ovms.ps1 を実行すると、初回はHugging Face🤗からモデルがダウンロードされます(数GB)。Started cleaner thread と表示されれば起動成功です🎉

別のPowerShellウィンドウを開いて動作確認します。

PS> [System.IO.File]::WriteAllText("$PWD\req.json", '{"model":"phi3","messages":[{"role":"user","content":"Hello"}],"max_tokens":50}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req.json"

⚠️ PowerShellではJSONファイル経由が確実 PowerShellは外部コマンド(curl.exeなど)に引数を渡す際にダブルクォートやエスケープ文字を再解釈するため、コマンドライン上にJSONを直接書くとパースエラーになります。-d "@ファイル名" でJSONファイルを渡す方法が最も安全です。

実行後、JSON形式でレスポンスが返ってくればOKです👍

NPUで動かす

いよいよ、本題のNPU対応です。

NPU向け起動スクリプト

NPUで動かすにはいくつか押さえておくべきポイントがあります。

⚠️ NPU向けに最適化されたモデルが必要です CPUで使っていたPhi-3.5-miniのまま --target_device NPU に変更するとNPUコンパイラでエラーになります。Hugging FaceのOpenVINOコレクションにあるチャンネルワイズINT4量子化済みモデル(ファイル名に int4-cw-ov が含まれるもの)を使いましょう。

⚠️ --cache_dir には相対パスを使いましょう C:\ovms-models\.ov_cache のようなWindows絶対パスを指定すると、バックスラッシュがOVMS内部のJSON処理でエスケープ文字として解釈されてエラーになります。

⚠️ デバイスマネージャーでNPUの認識を確認 Core Ultra Series 2(Lunar Lake)では「Intel(R) AI Boost」、Series 1では「Intel(R) NPU Accelerator」として表示されます。

これらを踏まえた起動スクリプト(C:\ovms\start_ovms_npu.ps1)がこちらです。

start_ovms_npu.ps1

Write-Host "=== OpenVINO Model Server Starting (NPU) ===" -ForegroundColor Cyan
Write-Host ""

& "$PSScriptRoot\ovms\setupvars.ps1"

Set-Location $PSScriptRoot

& "$PSScriptRoot\ovms\ovms.exe" `
  --source_model "OpenVINO/Qwen3-8B-int4-cw-ov" `
  --model_repository_path "C:\ovms-models" `
  --model_name qwen3 `
  --target_device NPU `
  --task text_generation `
  --rest_port 8000 `
  --cache_dir .ov_cache `
  --enable_prefix_caching true `
  --max_prompt_len 2000

Read-Host "Press Enter to exit"

オプションの解説:

  • --source_model … NPU向けチャンネルワイズINT4量子化済みモデル
  • --cache_dir .ov_cache … 相対パスで指定(バックスラッシュ問題の回避)
  • --enable_prefix_caching true … プロンプトキャッシュで応答高速化
  • --max_prompt_len 2000 … 動的プロンプト長を有効化
  • Set-Location $PSScriptRoot … 相対パスの基準をスクリプトの場所に固定

初回はNPUコンパイルに数十秒〜数分かかります。--cache_dir を指定しているので、2回目以降はキャッシュが効いて速くなります。

8Bモデルが重い場合は OpenVINO/Qwen3-4B-int4-cw-ov のモデルに変更することもできます。

動作確認

PS> [System.IO.File]::WriteAllText("$PWD\req.json", '{"model":"qwen3","messages":[{"role":"user","content":"Hello"}],"max_tokens":50}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req.json"

NPUでLLMが動作しています🤩

Qwen3は日本語対応モデルなので、日本語でもそのままリクエストを送信できます。

PS> [System.IO.File]::WriteAllText("$PWD\req_heavy.json", '{"model":"qwen3","messages":[{"role":"user","content":"AIがメディア業界にもたらす変化について、具体例を挙げながら詳しく説明してください。"}],"max_tokens":500}')
PS> curl.exe http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req_heavy.json"

ストリーミングでリアルタイム生成を見ることもできます。curl.exe-N オプションを付けるとバッファリングが無効になり、トークンが生成されるたびに表示されます。

PS> [System.IO.File]::WriteAllText("$PWD\req_stream.json", '{"model":"qwen3","messages":[{"role":"user","content":"IoTシステムの構築手順を初心者向けに解説してください。"}],"max_tokens":800,"stream":true}')
PS> curl.exe -N http://localhost:8000/v3/chat/completions -H "Content-Type: application/json" -d "@req_stream.json"

ブラウザからチャットする

コマンドラインでの動作確認はできましたが、もう少し使いやすくしたいですよね。OVMSはOpenAI互換APIなので、HTMLファイル1つで簡単なチャットUIを作ることができます。追加インストールは一切不要で、ブラウザで開くだけです。

以下の内容を ovms_chat.html として保存してください。

<!DOCTYPE html>
<html lang="ja">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<title>OVMS Chat</title>
<link href="https://fonts.googleapis.com/css2?family=Noto+Sans+JP:wght@300;400;500;700&family=JetBrains+Mono:wght@400;500&display=swap" rel="stylesheet">
<style>
  :root {
    --bg: #0a0e17;
    --surface: #131926;
    --surface-hover: #1a2233;
    --border: #1e2a3a;
    --text: #e4e8f1;
    --text-dim: #7a8599;
    --accent: #3b82f6;
    --accent-glow: rgba(59, 130, 246, 0.15);
    --user-bg: #1a2744;
    --assistant-bg: #131926;
    --code-bg: #0d1117;
    --success: #22c55e;
    --error: #ef4444;
    --warning: #f59e0b;
  }

{ margin: 0; padding: 0; box-sizing: border-box; }

body {
font-family: 'Noto Sans JP', sans-serif;
background: var(--bg);
color: var(--text);
height: 100vh;
display: flex;
flex-direction: column;
overflow: hidden;
}
header {
display: flex;
align-items: center;
justify-content: space-between;
padding: 12px 24px;
border-bottom: 1px solid var(--border);
background: var(--surface);
flex-shrink: 0;
}
.logo {
display: flex; align-items: center; gap: 10px;
font-weight: 700; font-size: 16px; letter-spacing: -0.02em;
}
.logo-icon {
width: 28px; height: 28px;
background: linear-gradient(135deg, var(--accent), #8b5cf6);
border-radius: 6px; display: flex; align-items: center;
justify-content: center; font-size: 14px; color: white;
}
.status {
display: flex; align-items: center; gap: 8px;
font-size: 12px; color: var(--text-dim);
}
.status-dot {
width: 7px; height: 7px; border-radius: 50%;
background: var(--error); transition: background 0.3s;
}
.status-dot.connected { background: var(--success); }
.settings-bar {
display: flex; align-items: center; gap: 16px;
padding: 10px 24px; border-bottom: 1px solid var(--border);
background: var(--surface); flex-shrink: 0; flex-wrap: wrap;
}
.setting-group {
display: flex; align-items: center; gap: 6px;
}
.setting-group label {
font-size: 11px; color: var(--text-dim); text-transform: uppercase;
letter-spacing: 0.05em; font-weight: 500; white-space: nowrap;
}
.setting-group input, .setting-group select {
font-family: 'JetBrains Mono', monospace; font-size: 12px;
padding: 4px 8px; border: 1px solid var(--border); border-radius: 4px;
background: var(--bg); color: var(--text); outline: none;
transition: border-color 0.2s;
}
.setting-group input:focus, .setting-group select:focus {
border-color: var(--accent);
}
.setting-group input[type="number"] { width: 70px; }
.setting-group input[type="text"] { width: 200px; }
.btn-clear {
margin-left: auto; padding: 4px 12px; font-size: 11px;
font-family: 'Noto Sans JP', sans-serif; color: var(--text-dim);
background: transparent; border: 1px solid var(--border);
border-radius: 4px; cursor: pointer; transition: all 0.2s;
}
.btn-clear:hover { color: var(--error); border-color: var(--error); }
.chat-area {
flex: 1; overflow-y: auto; padding: 24px;
display: flex; flex-direction: column; gap: 4px;
scroll-behavior: smooth;
}
.chat-area::-webkit-scrollbar { width: 6px; }
.chat-area::-webkit-scrollbar-track { background: transparent; }
.chat-area::-webkit-scrollbar-thumb { background: var(--border); border-radius: 3px; }
.message {
max-width: 80%; padding: 12px 16px; border-radius: 12px;
font-size: 14px; line-height: 1.7; white-space: pre-wrap;
word-break: break-word; animation: fadeIn 0.25s ease;
}
@keyframes fadeIn {
from { opacity: 0; transform: translateY(6px); }
to   { opacity: 1; transform: translateY(0); }
}
.message.user {
align-self: flex-end; background: var(--user-bg);
border: 1px solid rgba(59, 130, 246, 0.2);
border-bottom-right-radius: 4px;
}
.message.assistant {
align-self: flex-start; background: var(--assistant-bg);
border: 1px solid var(--border); border-bottom-left-radius: 4px;
}
.message .role-tag {
font-size: 10px; text-transform: uppercase;
letter-spacing: 0.08em; font-weight: 500;
margin-bottom: 4px; display: block;
}
.message.user .role-tag { color: var(--accent); }
.message.assistant .role-tag { color: var(--success); }
.message .content { color: var(--text); }
.message .meta {
font-size: 11px; color: var(--text-dim); margin-top: 8px;
font-family: 'JetBrains Mono', monospace;
border-top: 1px solid var(--border); padding-top: 6px;
}
.typing-indicator {
align-self: flex-start; padding: 12px 16px;
font-size: 13px; color: var(--text-dim); animation: fadeIn 0.2s ease;
}
.typing-indicator span { display: inline-block; animation: blink 1.2s infinite; }
.typing-indicator span:nth-child(2) { animation-delay: 0.2s; }
.typing-indicator span:nth-child(3) { animation-delay: 0.4s; }
@keyframes blink {
0%, 60%, 100% { opacity: 0.2; }
30% { opacity: 1; }
}
.welcome {
flex: 1; display: flex; flex-direction: column;
align-items: center; justify-content: center;
color: var(--text-dim); gap: 12px; text-align: center;
}
.welcome h2 { font-size: 20px; font-weight: 500; color: var(--text); }
.welcome p { font-size: 13px; max-width: 400px; line-height: 1.6; }
.input-area {
padding: 16px 24px; border-top: 1px solid var(--border);
background: var(--surface); flex-shrink: 0;
}
.input-row { display: flex; gap: 10px; align-items: flex-end; }
.input-row textarea {
flex: 1; font-family: 'Noto Sans JP', sans-serif; font-size: 14px;
padding: 10px 14px; border: 1px solid var(--border); border-radius: 8px;
background: var(--bg); color: var(--text); resize: none; outline: none;
min-height: 44px; max-height: 160px; line-height: 1.5;
transition: border-color 0.2s;
}
.input-row textarea:focus { border-color: var(--accent); }
.input-row textarea::placeholder { color: var(--text-dim); }
.btn-send {
padding: 10px 20px; font-family: 'Noto Sans JP', sans-serif;
font-size: 13px; font-weight: 500; color: white;
background: var(--accent); border: none; border-radius: 8px;
cursor: pointer; transition: all 0.2s; white-space: nowrap; height: 44px;
}
.btn-send:hover { filter: brightness(1.15); }
.btn-send:disabled { opacity: 0.4; cursor: not-allowed; }
.input-hint { font-size: 11px; color: var(--text-dim); margin-top: 6px; }
.error-toast {
position: fixed; top: 16px; right: 16px; background: var(--error);
color: white; padding: 10px 16px; border-radius: 8px;
font-size: 13px; z-index: 100; animation: fadeIn 0.3s ease;
max-width: 400px;
}
</style>
</head>
<body>
<header>
  <div class="logo">
    <div class="logo-icon">OV</div>
    OVMS Chat
  </div>
  <div class="status">
    <div class="status-dot" id="statusDot"></div>
    <span id="statusText">Connecting...</span>
  </div>
</header>
<div class="settings-bar">
  <div class="setting-group">
    <label>Endpoint</label>
    <input type="text" id="endpoint" value="http://localhost:8000/v3">
  </div>
  <div class="setting-group">
    <label>Model</label>
    <input type="text" id="model" value="qwen3">
  </div>
  <div class="setting-group">
    <label>Max Tokens</label>
    <input type="number" id="maxTokens" value="500" min="1" max="4096">
  </div>
  <button class="btn-clear" onclick="clearChat()">Clear Chat</button>
</div>
<div class="chat-area" id="chatArea">
  <div class="welcome" id="welcome">
    <h2>OVMS Chat</h2>
    <p>OpenVINO Model Server に接続してチャットを行います。
       サーバーが起動していることを確認してください。</p>
  </div>
</div>
<div class="input-area">
  <div class="input-row">
    <textarea id="userInput" placeholder="メッセージを入力..." rows="1"
      oninput="autoResize(this)"></textarea>
    <button class="btn-send" id="sendBtn" onclick="sendMessage()">送信</button>
  </div>
  <div class="input-hint">Enter で送信 / Shift+Enter で改行</div>
</div>
<script>
const chatArea = document.getElementById('chatArea');
const userInput = document.getElementById('userInput');
const sendBtn = document.getElementById('sendBtn');
const statusDot = document.getElementById('statusDot');
const statusText = document.getElementById('statusText');
const welcome = document.getElementById('welcome');

let messages = [];
let isGenerating = false;

function autoResize(el) {
  el.style.height = 'auto';
  el.style.height = Math.min(el.scrollHeight, 160) + 'px';
}

userInput.addEventListener('keydown', (e) => {
  if (e.key === 'Enter' && !e.shiftKey) {
    e.preventDefault();
    sendMessage();
  }
});

async function checkStatus() {
  try {
    const endpoint = document.getElementById('endpoint').value;
    const model = document.getElementById('model').value;
    const res = await fetch(`${endpoint}/models/${model}`, { method: 'GET' });
    if (res.ok) {
      statusDot.className = 'status-dot connected';
      statusText.textContent = 'Connected';
    } else { throw new Error(); }
  } catch {
    statusDot.className = 'status-dot';
    statusText.textContent = 'Disconnected';
  }
}

function showError(msg) {
  const el = document.createElement('div');
  el.className = 'error-toast';
  el.textContent = msg;
  document.body.appendChild(el);
  setTimeout(() => el.remove(), 5000);
}

function escapeHtml(text) {
  const d = document.createElement('div');
  d.textContent = text;
  return d.innerHTML;
}

function addMessage(role, content, meta) {
  if (welcome) welcome.style.display = 'none';
  const div = document.createElement('div');
  div.className = `message ${role}`;
  const roleTag = role === 'user' ? 'You' : 'Assistant';
  let html = `<span class="role-tag">${roleTag}</span>`
            + `<div class="content">${escapeHtml(content)}</div>`;
  if (meta) html += `<div class="meta">${meta}</div>`;
  div.innerHTML = html;
  chatArea.appendChild(div);
  chatArea.scrollTop = chatArea.scrollHeight;
  return div;
}

function updateAssistantMessage(div, content, meta) {
  let html = `<span class="role-tag">Assistant</span>`
            + `<div class="content">${escapeHtml(content)}</div>`;
  if (meta) html += `<div class="meta">${meta}</div>`;
  div.innerHTML = html;
  chatArea.scrollTop = chatArea.scrollHeight;
}

function clearChat() {
  messages = [];
  chatArea.innerHTML = '';
  if (welcome) { welcome.style.display = 'flex'; chatArea.appendChild(welcome); }
}

async function sendMessage() {
  const text = userInput.value.trim();
  if (!text || isGenerating) return;
  isGenerating = true;
  sendBtn.disabled = true;
  userInput.value = '';
  userInput.style.height = 'auto';
  messages.push({ role: 'user', content: text });
  addMessage('user', text);

  const typing = document.createElement('div');
  typing.className = 'typing-indicator';
  typing.innerHTML = '<span>●</span><span>●</span><span>●</span>';
  chatArea.appendChild(typing);
  chatArea.scrollTop = chatArea.scrollHeight;

  const endpoint = document.getElementById('endpoint').value;
  const model = document.getElementById('model').value;
  const maxTokens = parseInt(document.getElementById('maxTokens').value) || 500;
  const startTime = performance.now();

  try {
    const res = await fetch(`${endpoint}/chat/completions`, {
      method: 'POST',
      headers: { 'Content-Type': 'application/json' },
      body: JSON.stringify({
        model, messages, max_tokens: maxTokens, stream: true
      })
    });
    if (!res.ok) throw new Error(`HTTP ${res.status}: ${await res.text()}`);
    typing.remove();

    const assistantDiv = addMessage('assistant', '');
    let fullContent = '', completionTokens = 0;
    const reader = res.body.getReader();
    const decoder = new TextDecoder();
    let buffer = '';

    while (true) {
      const { done, value } = await reader.read();
      if (done) break;
      buffer += decoder.decode(value, { stream: true });
      const lines = buffer.split('\n');
      buffer = lines.pop();
      for (const line of lines) {
        if (!line.startsWith('data: ')) continue;
        const data = line.slice(6).trim();
        if (data === '[DONE]') continue;
        try {
          const json = JSON.parse(data);
          const delta = json.choices?.[0]?.delta?.content;
          if (delta) { fullContent += delta; updateAssistantMessage(assistantDiv, fullContent); }
          if (json.usage) completionTokens = json.usage.completion_tokens || 0;
        } catch {}
      }
    }

    const elapsed = (performance.now() - startTime) / 1000;
    if (!completionTokens) completionTokens = Math.ceil(fullContent.length / 2);
    const tps = (completionTokens / elapsed).toFixed(1);
    updateAssistantMessage(assistantDiv, fullContent,
      `${completionTokens} tokens / ${elapsed.toFixed(1)}s / ${tps} tokens/sec`);
    messages.push({ role: 'assistant', content: fullContent });
  } catch (err) {
    typing.remove();
    showError(`Error: ${err.message}`);
    messages.pop();
  }
  isGenerating = false;
  sendBtn.disabled = false;
  userInput.focus();
}

checkStatus();
setInterval(checkStatus, 10000);
userInput.focus();
</script>
</body>
</html>

このチャットUIの機能

  • ストリーミング対応でリアルタイムに生成過程が見える
  • 各メッセージにTPS(tokens/sec)を表示してパフォーマンスがわかる
  • 右上にOVMSの接続ステータスを表示(/v3/models/{model_name} で確認)
  • Endpoint、モデル名、Max Tokensを画面上で変更可能

使い方は、OVMSが起動している状態でこのHTMLファイルをブラウザで開くだけです。ローカルのファイルなのでWebサーバーも不要。接続先やモデル名も画面上で変えられるので、CPU版(phi3)とNPU版(qwen3)の切り替えも簡単です。右上のステータスがConnected(緑色)になっていれば接続OKです。

もっと本格的なUIが欲しい場合は Open WebUI もいいかもしれません。pipやDockerでインストールでき、ChatGPTライクなUIで会話履歴の保存やモデル切り替えが可能です。設定画面でOVMSのエンドポイント(http://localhost:8000/v3)を登録すれば使えるようです。(未確認)

Pythonクライアントからの利用

OpenAIのPythonクライアントがそのまま使えるのは便利ですね。base_url を変えるだけです。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:8000/v3",
    api_key="unused"
)

stream = client.chat.completions.create(
    model="qwen3",
    messages=[
        {"role": "user", "content": "AIとは何ですか?"}
    ],
    max_tokens=200,
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content is not None:
        print(chunk.choices[0].delta.content, end="", flush=True)

TPS(tokens/sec)の計測

NPUのパフォーマンスが気になるので、TPSも計測してみましょう。

import time
from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v3", api_key="unused")

start = time.time()
response = client.chat.completions.create(
    model="qwen3",
    messages=[{"role": "user", "content": "AIがメディア業界にもたらす変化について説明してください。"}],
    max_tokens=500,
    stream=False
)
elapsed = time.time() - start

completion_tokens = response.usage.completion_tokens
print(f"Completion tokens: {completion_tokens}")
print(f"Elapsed time:      {elapsed:.2f}s")
print(f"Generation TPS:    {completion_tokens / elapsed:.2f} tokens/sec")

アンインストール

OVMSはレジストリやシステム環境変数を一切変更しません。不要になったら以下のフォルダを削除するだけです👍

  • C:\ovms\(OVMS本体)
  • C:\ovms-models\(モデルデータ)

今回のハマりポイントまとめ

Windows + PowerShell + 外部コマンドの組み合わせは本当にクセが強い😅

ハマりポイント 原因 解決策
curl -L がエラー PowerShellの curlInvoke-WebRequest のエイリアス curl.exe と拡張子付きで指定
.ps1の日本語が文字化け PowerShell 5.1のデフォルトがCP932 スクリプト内をASCII文字のみにする
curl.exeでJSONパースエラー PowerShellが引数を再解釈して壊す JSONファイル経由で -d "@req.json"
NPUでモデルがLLVM ERROR NPU向けに最適化されていないモデル int4-cw-ov 付きのモデルを使う
Plugin config is in wrong format cache_dirの \ がJSON内でエスケープに 相対パス(.ov_cache)を使う

おわりに

OpenVINO Model ServerをWindowsネイティブでセットアップして、Intel NPUでLLM推論を動かすことができました。

正直、llama.cppでの動作と比べるとセットアップの手間は多いのですが、NPUを直接ターゲットにできるのはOVMSならではの強みですし、OpenAI互換APIのおかげで既存ツールとの連携もしやすい。Intel AI PCを持っている人にとっては、NPUの活用方法として有力な選択肢かもしれません。CPUの動作も軽くなりますしね。あと、PCの温度上昇もそこまで高くならなかったので、GPUよりもNPUをうまく使えればバッテリーの消費もかなり抑えられるのではないかと思います。

やはり、Qwen3-8BがNPU上で日本語もちゃんと生成できたのは😊ですね。また、8Bクラスのモデルが動くのはかなり選択肢が広がると思います。

参考リンク