ASUS UGen300をminiPCに挿して「ローカルAI箱」を組めるか調べてみた【メモ】

⚠️ この記事の情報は2026.05時点のものです。購入を検討される方は一次情報を必ず再確認してください。自分はまだ実機を入手していないないので、あくまでスペックからの推測をベースにした調査・整理メモとなります。

ASUS UGen300をminiPCに挿して「ローカルAI箱」を組めるか調べてみた

CES 2026のタイミングで ASUSから「UGen300」というエッジAIアクセラレータが発表されたようです🤔

デバイスとしてはUSB接続版と、M.2接続版(8GB/2GB)の3つラインナップがあって、中身は HailoのHailo-10HというエッジAIのチップが搭載されています。40 TOPS(INT4) / 20 TOPS(INT8)を2.5Wで叩き出すという、省電力なスペックを持っています。

正直、プレスを見たときは「ようやく面白そうなのが来た🤩」と思ったんです。更によく見ると専用のLPDDR4を8GB積んでる。Edge TPUによくある「メモリは載ってませんがホストから随時送ってください」という方向性とは違いますね。

一番気になったのは、M.2版(8GB)をminiPCに挿すという構成です。最近のminiPCってM.2スロットが空いていることが多いので、これにUGen300のM.2版を挿せば、省電力でローカルAI推論を足したコンパクトな箱ができるんじゃないか?と。

しかも、Raspberry Pi 5(8GB)が現在の価格を考えると、もはやminiPCと張り合うレベルにきています😅 だとすると「miniPC + UGen300 M.2 8GB」という構成は、結構面白い選択肢になり得るんじゃないかと調べてみました。

ところが、調べていくうちに「これ、想像していたのとちょっと違うかもしれない…」と感じる場面が何度も出てきたんですよね。具体的に何に引っかかったのか、なぜそう感じたのか。今回の調査結果をメモとして残しておきます。最後まで読み終わる頃には、自分と同じ"ちょっと違うかも"感を共有できているかもしれません🙂

1. UGen300のラインナップ整理から

リリースされているデバイスを表で整理しておきます。

モデル 接続 チップ メモリ 電力 主な用途
UGen300 USB 8GB USB 3.1 Gen2 Type-C(10Gbps) Hailo-10H 8GB LPDDR4 2.5W typ. 後付けの可搬型
UGen300 M.2 8GB PCIe 3.0 x4, M.2 Key-M 2280 Hailo-10H 8GB LPDDR4 2.5W typ. miniPC・産業機器に内蔵
UGen300 M.2 2GB PCIe 3.0 x4, M.2 Key-M 2280 Hailo-10H 2GB LPDDR4X 2.5W typ. vision中心 + SLM寄り
UGen200 M.2 PCIe 3.0 x2, M.2 Key B+M Hailo-8L オンチップSRAM 1.5W typ. vision特化、別物

重要なのは以下2点です。

1) UGen300の2GB版と8GB版は別物です。ASUS自身も2GB版は「vision models and small language models (SLMs)」、8GB版は「LLM/VLM/Whisperを含む100+モデル」とされています。自分が気になっている用途は完全に8GB版の話です。

2) UGen200は名前が似ているだけで別カテゴリだということ。あちらはHailo-8Lベースで、外部メモリも持たないvision特化型なので、LLMを動かしたい用途には向かないようです。

国内メディアでは PC Watch (2026/1/14)エルミタージュ秋葉原 (2026/1/13)Mac OTAKARA (2026/1/11)が発表記事を出していますが、いずれも発表内容の整理が中心で、独自検証は今のところ確認できません。

2. 「8GBメモリなら、8Bモデルも動くよね?」…と思ったんですが

デバイスに8GBのメモリがあれば…「8GBメモリ搭載 → 7B/8B量子化モデル載るよね?」と思いますよね。自分もそう思っていました。INT4量子化なら8Bでも4〜5GBに収まるので、メモリ容量的から考えれば全然乗るはずなんですよね。

⚠️ ところが、UGen300はそういう発想の道具ではありません

Hailoの実行形式はGGUFではない

ローカルLLM界隈では、多くの場合GGUF + llama.cppが使われますが、Hailoの実行形式はHEF(Hailo Executable Format)という独自フォーマットが使われます。Hailo Dataflow CompilerでモデルをコンパイルしてHEFを作り、HailoRTで実行する、というのが基本フローとなります。

つまり、

  • llama.cpp … 公式backendとしてHailo対応は確認できず
  • LM Studio … GGUF/safetensors前提なので事実上未対応
  • stockのOllama … Hailoを直接ドライブはしない

要するに、普段のローカルLLM環境(GGUFを集めてきてOllamaで切り替えて遊ぶアレ)が、そのままは使えません

ではLLMをどう動かすのか? → Hailo-Ollama

Hailo-Ollamaという別実装のサーバが用意されています。これがOllama互換のREST APIを喋ってくれるので、Open WebUIなんか同時に実行できます。

# Hailo-Ollamaの起動とモデルpullの例
hailo-ollama
curl --silent http://localhost:8000/api/pull \
  -H 'Content-Type: application/json' \
  -d '{ "model": "qwen2.5:1.5b", "stream" : true }'

「お、これは普通のOllamaと同じノリで使えそう😊」と思いきや、ここがもう一つの罠なんですよね。

⚠️ Hailo-OllamaにはユーザーがGGUFが使用できない。

Hailoの公開ドキュメント上、Hailo-Ollamaはユーザー任意のモデルをアップロードする機能を持っていません。LoRAアダプタも非対応。同時に複数のLLM/VLMを並走させることも非対応(KV-Cacheが排他利用のため)。

つまり、使えるのはHailoが公式にprecompileして用意してくれたcuratedモデルのみということになります。

3. 現時点(2026年5月)でHailo-Ollamaから使えるLLMの全リスト

Hailo Model Zoo GenAIの最新リリース v5.2.0 (2026/1/8)を確認しました。Hailo-Ollamaからcurl /api/pullで取得できるLLMは、現状この5本だけです。

モデル パラメータ HEFサイズ TTFT TPS
Llama3.2-1B-Instruct 1B 1.79 GB 0.49s 8.48
Qwen2-1.5B-Instruct 1.5B 1.56 GB 0.32s 8.08
Qwen2.5-1.5B-Instruct 1.5B 1.64 GB 0.37s 6.82
Qwen2.5-Coder-1.5B-Instruct 1.5B 1.64 GB 0.32s 8.07
DeepSeek-R1-Distill-Qwen-1.5B 1.5B 2.37 GB 0.74s 6.98

⚠️ 公開モデルの上限は1.5B、「8GBメモリ載ってるんだから8B動くだろ」という期待値で買うと、初日に確実にズッコケるかもです😅

文脈長はすべて2048トークン中心なので、長文のreasoningや長いRAGコンテキストを食わせる用途も期待しない方が無難です。

Hailo-Ollamaでは対象外ですが、Python/C++ APIから使えるモデルとしては、Qwen2-VL-2B-Instruct(VLM)、Whisper-Base / Whisper-Small(音声認識)、Qwen2-1.5B-Instruct-Function-Calling-v1などがあります。Vision encoder単体ならQwen2-VL-7B-visionも触れますが、LLM本体7Bが乗っているわけではないので要注意そうです。

4. これ日本語ってどれくらい使えるんだろう?

これはHailoの公開モデル一覧を眺めていて気付いた話なんですが、上の5本、全部海外の汎用多言語モデルなんですよね。

  • Llama3.2-1B-Instruct(Meta、多言語)
  • Qwen2 / Qwen2.5-1.5B(Alibaba、中英中心)
  • DeepSeek-R1-Distill-Qwen-1.5B(中英中心)

ELYZA、Swallow、Sarashina、PLaMo、Karakuriといった日本語特化LLMは、現状一つも入っていません。

しかも、1〜1.5Bクラスの多言語モデルは、日本語の流暢さがかなり厳しい領域なんですよね。CPUで普段Llama 3.2 1BやQwen 2.5 1.5Bを触ったことがある方ならわかると思うんですが、日本語で対話させると、

  • 微妙に英語が混ざる
  • トークナイザの効率が悪く、日本語トークン数あたりの実効TPSが体感落ちる
  • 長めの日本語推論で破綻しやすい

…という、まあ「動くけど業務には厳しい」レベルそうなんですよね😢

⚠️ しかも、自分でJPに特化したモデルをHEFコンパイルして持ち込むためには、Hailo Developer ZoneにアクセスしてDataflow Compilerのフル機能を使う必要があって、これは個人が気軽にやる作業ではない、という温度感です(公式ドキュメントを眺めた範囲での印象で、実際に流して試したわけではないので未検証)。Hailo公式が日本語LLMをcuratedに入れてくれない限り、「日本語で気の利いた応答を返すローカルチャット箱」には今のところ向きません。

5. それでもPoCには面白いはず

ここまでネガティブな話を続けましたが、この製品完全にダメと言いたいわけではありません。

CPUで1.5BクラスのLLMを動かすと、Raspberry Pi 5あたりで1〜2 TPS、N100クラスでも2〜3 TPS程度が体感値のようです。UGen300のTPS 6〜8という数字は、それと比べたら3〜4倍程度のスピードが、しかも2.5W typ.で出るということになります。消費電力あたりのスループットは確かによさそうです。

つまり

  • 「省電力でWhisper常駐させたい」(Whisper-Smallで8.71 TPS、Baseで23.36 TPS)
  • 「軽量LLM(1.5B)でいいから24時間動くエッジボット箱が欲しい」
  • 「軽量VLM(2B)で画像→英語要約くらいまでなら回したい」
  • 「Hailoエコシステム自体を触って勉強しておきたい」

…といった用途であれば、PoCとして成立すると思います。

6. 自分なら…

ここまでの内容を踏まえての判断を書いておきます。

ここまでの調査で気になった点を整理すると

  • 動かせるLLMが1〜1.5Bクラスに限定されていて、しかも将来拡大される保証がない(3Bが消えたままで、その上のサイズ帯がまだ復活していない)
  • 日本語特化LLMが入っていない。
  • GGUF / LM Studio / stock Ollama / LoRAいずれも非対応で、エコシステム自由度が低い
  • そして決定打 → 2026年5月末時点で、日本での発売時期・価格が未だに未確定(後述)

ただし、台湾向けのASUS公式プレスリリース(2026/5/5)では明確に 「建議售價:NT$ 6,380」(希望小売価格 NT$6,380、日本円換算で約3万円前後)となっています。台湾ではすでに価格が出ているが、日本では正規流通・価格・サポート体制がまだ見えていないというのが正確な現状です。

また、Windowsドライバも公式脚注で「2026年5月中旬提供予定」とされていた状態で、台湾発の3万円前後という価格感を踏まえても、慌てて並行輸入で買って試す価値が、現状のソフトウェアラインナップに対して見合うかというと、自分はちょっと😅

しばらくは日本での販売開始のタイミングを待ちつつ、その頃にはモデルラインナップがどう進化しているか(あるいは進化していないか)を確認してから判断するというスタンスするかなといったところです。

注目する点としては

  1. 2026年内にHailo Model Zoo GenAIに3B以上のLLMが復活/追加されるか
  2. 日本語対応モデル(多言語対応の強化 or 日本語特化)が入るか
  3. 国内の代理店流通が始まって、Windowsドライバや法人向けサポート体制があるのか

この3つが見えてきたタイミングが、改めて検討する適切なタイミングかもしれません。

おわりに

エッジAI、特に「ローカルでLLMを動かす箱を組む」という方向性自体には、自分は興味津々です。ただ 「今買うべき製品」「今後を期待して見ておくべき製品」とは別です。UGen300は自分としては後者になるでしょうか🤔

参考リンク

ASUS関連(一次情報)

Hailo関連(一次情報)

国内メディアの発表記事

先行検証記事(Hailo-10H実機での動作報告)