最近、YouTubeで「予算別ローカルLLM思考実験」的な動画を見かけまして、これがなかなか面白い内容だったので、自分のこれまでの検証経験と照らし合わせながら同じことをやってみようと思っての記事となります😊
自分の環境は、RTX 4070 Ti(12GB VRAM)のデスクトップ、Ryzen 7 6850H + Radeon 680M のミニPC、M1 MacBook Air 16GB、Raspberry Pi 5など、わりと雑多に揃っているのですが、ローカルLLMのスペックからするとかなり微妙なものが多い🥲
そんな中で「予算別」というテーマは、ちょうど自分が ローカルLLM環境を予算をかけて強化していきたい と考えていたタイミングで、結構刺さりました。手持ち機材だけだと厳しい場面も増えてきたので、ここで一度「予算帯ごとに自分ならどう投資するか」を妄想しておきたい、というのが今回の動機です。動画の内容をベースに、Mac(Apple Silicon) と Ryzen AI Max+ 395 という選択肢も加えて、自分なりの予算別プランとしてまとめています。
※今回は100% 自分の妄想ですあらかじめご了承ください🙏

⚠️ 本記事の情報は2026年5月時点のものです。ローカルLLM周りはハード・ソフトともに動きが早いので、最新情報は各種公式ドキュメントも併せて確認してみてください。
- 1. なぜローカルLLMを動かしたいのか 🤔
- 2. まず押さえておきたい基礎知識
- 3. 2026年現在の注目モデル Qwenシリーズ
- 4. 予算帯別に見ていく 🎯
- 5. 🍎【補足①】Macという選択肢
- 6. 🔴【補足②】Ryzen AI Max+ 395 ─ Windowsの大容量メモリ戦略
- 7. 選択肢の全体マップ(4ルート比較)
- おわりに
1. なぜローカルLLMを動かしたいのか 🤔
ローカルLLMが注目される理由は以下の4点です。
- プライバシー … 機密データをクラウドに送れないという場面は実際あります🔐
- コスト … API課金、使いすぎると怖いやつです🙄
- オフライン動作 … ネットなしで動くのは普通に便利💻
- カスタマイズ性 … 自分のニーズに合わせてモデルを調整できるのも魅力です🛠️
自分の感覚だと、特にプライバシーのウェイトが年々大きくなっている気がしていて、業務でも「これクラウドに投げていいやつだっけ?」という確認が増えてきました。ここの安心感を自前で担保できるのは、ローカルLLMの大きな価値だと思っています。
最後に … ロマンですよね。自分のPCで巨大なLLMが動いている、というのは単純にワクワクする体験です😊
2. まず押さえておきたい基礎知識

👉 VRAMがすべてを決める
動画でも繰り返し強調されていましたが、ここはローカルLLMの話で一番最初に理解しておきたいポイントです。
LLMはVRAM(GPUの専用メモリ)にモデルを丸ごと載せて動くので、VRAMが足りない=詰むという、わりとシビアな世界です🥲。自分もGTX 1070 Mobile(8GB)で大きめのモデルを動かそうとして何度も悲しい思いをしました。
💡 かなりざっくりとした計算の目安 パラメータ数 ÷ 2 ≒ 必要VRAM(Q4量子化の場合)
例)16GB VRAM → 32Bくらいまでギリいける?
👉 量子化(Quantization)というモデルの"ダイエット"
量子化というのは、モデルの重みを低精度する変わりにモデルサイズを圧縮するという技術です。「ダイエットみたいなもの」という例えともいえます😊
- FP16(オリジナル) = 100%の品質
- Q8 ≒ 99%
- Q5 ≒ 95%
- Q4 ≒ 90〜95%
体感的にQ4でも十分実用になるケースが多いです。モデルのサイズが半分以下になるのに、日常用途ではほぼ劣化を感じないかもしれません。量子化の恩恵はVRAM節約だけでなく、推論速度の向上にもつながるので、ローカルLLMを動かすうえではぜひ活用したい技術でもあります。
👉 MoE(Mixture of Experts)という裏技
これ、最近の流れを語るうえで外せない要素です。
ざっくり言うと、「30B人の専門家を用意しておいて、毎回は3B人だけ呼び出す」みたいなしくみ。総パラメータは大きいけど、実稼働は小さいので、VRAMが控えめなマシンでも大きなモデルの恩恵を受けられます。
自分も手持ちのPCで色々試してきましたが、iGPU環境ではMoEモデルの恩恵が本当に大きいです。gpt-oss-20bあたりは、ちゃんと動くのにそこそこ使い物になるレベルで動いてくれるので、VRAMが足りないけど大きなモデルを動かしたいというときの救世主になっています。
3. 2026年現在の注目モデル Qwenシリーズ
Qwenシリーズは今のローカルLLM界隈で最も勢いのあるモデル群だと思います。
- Alibabaが開発
- 日本語の性能が高い(ここ大事)
- Qwen3 14B がChatGPT相当と張り合うレベル
- 2026年3月には Qwen3.5 シリーズ登場、9BでもGPT-4o級と言われている
半年で常識がガラッと変わる世界なので、「今動かないもの」が「半年後には普通に動く」みたいなことも起きます。この進化のスピード感を前提にハードウェア選びを考えられるのが大事だと思います。
4. 予算帯別に見ていく 🎯
ここからが本編です。実際にはすでにPCを持っていてグラボだけ追加・強化したいというケースが多いと思うので、ここでは強化するデバイス(GPU / PC一式など)の価格をベースに整理してみます。
🥇 予算帯1 GPU単体 約9万円 … 一番コスパがいいゾーン
| 項目 | 内容 |
|---|---|
| GPU | RTX 4060 Ti 16GB(約9万円前後) |
| VRAM | 16GB |
| 動くモデル | Qwen3 14B、MoEなら30Bクラスも |
| 応答速度 | 約15 tokens/s |
⚠️ 2026年5月時点では9万円前後に値上がりしています。VRAM 8GBだとLLM用途ではちょっと厳しい🥲。ローカルLLM目的なら16GBモデルを選ぶ意味は大きいです。
日常的な翻訳・要約・コード生成・軽めのRAGなら、このクラスで本当に十分だと思います。自分のRTX 4070 Ti(12GB)もほぼ同じ帯域ですが、Qwen3 14BとMoEモデルが動けば大抵のことはできるでしょうね。
🥈 予算帯2 GPU単体 約15〜20万円 … ちょっと背伸びゾーン
| 項目 | 内容 |
|---|---|
| GPU | RTX 5070 Ti(約15〜17万円)または RTX 5080(約20万円〜) |
| VRAM | 16GB |
| 動くモデル | Qwen3 32B が快適に |
⚠️RTX 50シリーズは、5090(32GB)を除くと最高でもVRAM 16GB止まりなんですよね🥲。5070 Tiも5080も16GB。ゲーミング兼用の価格帯ではこの壁が避けられません。
ここで「もっとVRAMを盛りたい!」という欲が出てくるんですが、そうなると次のゾーンに突入することになります。
🔧 予算帯3 GPU単体 約35〜45万円 … RTX PROシリーズという隠れた本命
ここは動画では触れられていなかったけど、LLM用途で考えるとめちゃくちゃ刺さるゾーンだと思っています💡
| モデル | VRAM | メモリ帯域 | TDP | 価格(2026年5月) |
|---|---|---|---|---|
| RTX PRO 4000 Blackwell | 24GB GDDR7(ECC付き) | 672 GB/s | 140W | 約35〜40万円 |
| RTX PRO 4000 SFF | 24GB GDDR7(ECC付き) | 672 GB/s | 約70W | 同程度〜やや安 |
| RTX PRO 4500 Blackwell | 32GB GDDR7 | — | — | 約45万円 |
なぜこれが刺さるかというと:
- RTX 5080(16GB)→ RTX PRO 4000(24GB)でVRAMが1.5倍に増えるのに、価格差は約15〜20万円
- RTX 5090(32GB・最安69万円)に手を出さなくても、24GBあればQ4で48Bクラスのモデルまで動作可能
- 1スロット・140Wという省電力設計なので、既存のデスクトップにほぼそのまま挿せる。電源の心配がほぼ不要になります。
- SFFモデルはなんと約70W。24時間稼働のローカルLLMサーバーとしても電気代が安い
- ECC付きメモリなのでファインチューニングなど精度が求められる場面でも安心
⚠️ ゲーミング性能で比較するとRTX 5060 Ti〜5070相当で、ゲーム目的だとコスパは悪いです。あくまでLLM・AI推論・クリエイティブ用途にVRAMを盛りたい人向けでしょう。
価格.comのレビューにも「AIもやりたいけどゲームもそこそこしたい人には選択肢としてあり」という声があり、VRAM 16GBの壁に悩んでいる人にとってのブレイクスルーになる存在だと感じています。自分もこれ、正直かなり気になっています😊
🥉 予算帯4 単体 約69〜80万円 … RTX 5090 vs DGX Spark 対決 ⚔️
このゾーンが動画のハイライトとみてもいいでしょう。選択肢が明確に2つに分かれます。

ルートA:RTX 5090(GPU単体)🟢
| 項目 | 内容 |
|---|---|
| GPU | RTX 5090(32GB GDDR7) |
| 単体価格 | 最安値でも約69万円(2026年5月時点、品薄継続中📈) |
| 動くモデル | 70Bクラスまで |
⚠️ 動画収録時は「50〜60万円台」と紹介されていましたが、2026年5月には最安値69万円、上位モデルは75万円台まで上がっています😵💫GPU単体でこの価格なので、既存PCに載せ替えるにしても相当な覚悟が要ります😱
強み … 速度がとにかく速い⚡。GDDR7の帯域はやはり別格です。しかもゲームも映像編集もできる汎用機。既存のデスクトップに挿すだけで戦力になる。
弱み … VRAM 32GBが壁。70Bを超えるモデルには手が出せません。また電源ユニットや冷却の強化が必要になるケースも。
ルートB:NVIDIA DGX Spark(本体一式)📦
| 項目 | 内容 |
|---|---|
| サイズ | 15cm × 15cm × 5cm(お弁当箱サイズ) |
| 重さ | 1.2kg |
| メモリ | 128GB 統合メモリ |
| 価格 | 約69万円(税別)= 実売70〜80万円(税込) |
| 動くモデル | FP4で最大200B |
| 出荷開始 | 2025年10月 |
⚠️ サードパーティ製(MSI EdgeXpert AI、ASUS Ascent GX10、Lenovo ThinkStation PGX等)も同等のチップ搭載で、1TBモデル約65.8万円(税込)〜という価格帯で出ています。本家DGX Sparkよりやや安い場合も。
強み … 128GBという圧倒的メモリ容量。200Bクラスも動く。追加パーツ不要でこれ1台で完結するのがGPU単体購入との大きな違い。
弱み … LPDDR5Xなので速度はRTX 5090に完敗。しかもAI専用なのでゲームはできません。
💡 結局どっち?
「速さとゲームも必要 → RTX 5090」 「巨大モデルをすぐに使用したい → DGX Spark」
という住み分けでしょうか。ただ、2026年5月の価格で見ると、RTX 5090 GPU単体(最安69万円)とDGX Spark本体一式(税別69万円)がほぼ同価格なのが面白いところ。RTX 5090はさらに電源やマザボの強化も必要になりうるので、LLM専用と割り切るならDGX Sparkの方がコスパいい、という逆転現象が起きていそうです😅
5. 🍎【補足①】Macという選択肢
これまでは、NVIDIA中心の構成だったのですが、Mac(Apple Silicon) は2026年のローカルLLMにおいて本当に大きな存在感を持っています。

ユニファイドメモリという仕組み
Apple SiliconはCPUとGPUでメモリを共有するユニファイドメモリアーキテクチャを採用していて、RAM全体がそのままVRAMとして使える。これが本当に強い💪
RTX 5090(32GB)で困っていたところが、M4 Maxの96GB構成なら余裕で動く、みたいなことが普通に起きます。
構成別の目安
| 構成 | メモリ | LLM用目安 | 動くモデル | 価格帯 |
|---|---|---|---|---|
| Mac mini M4(24GB) | 24GB | 約16GB | 8B〜14B | 約10〜13万円 |
| Mac mini M4 Pro(48GB) | 48GB | 約36GB | 32B〜70B(Q4) | 約25〜30万円 |
| MacBook Pro M4 Max(96GB) | 96GB | 約80GB | 70B(高精度)、120B(Q4) | 約55〜70万円 |
自分のM1 MacBook Air(16GB)でも、デフォルトで約11〜12GBくらいがVRAMとして使えます。意外と小さめのモデルなら普通に遊べますよ😊(M1の速度には期待しないこと)
Macのすごいところ
- 2026年3月にOllamaがMLXバックエンドを正式採用 → Apple Silicon最適化された推論が可能に
- 静音・省電力 → ファンレス〜低騒音で24時間稼働できるサーバー的使い方もあり
- 2026年4月からeGPU公式承認 → Mac mini M4 + Radeon RX 7900 XTX で Qwen 3.5 27B が約18.5 tok/sという報告も
Macの弱点
- メモリは購入時に固定。購入後に増設できないので、最初から盛るしかない(Apple税がしんどい😢)
- メモリ帯域はGDDR7より遅い。速度面ではNVIDIAに勝てない
- CUDA環境が使えない
Macのポジション
ざっくり言うとDGX Sparkと同じ「大容量メモリで勝負」路線なんだけど、普通のPCとしても使える汎用性が最大の差別化ポイントだと思います。MacはローカルLLMサーバーとしても優秀ですが、普段使いのメインマシンとしても十分な性能があるので、個人的にはこの「両刀使い」感がすごく魅力的に映っています😊
6. 🔴【補足②】Ryzen AI Max+ 395 ─ Windowsの大容量メモリ戦略
もう一つ、絶対に外せないのがAMDの Ryzen AI Max+ 395(コードネーム Strix Halo)です。これ、自分のミニPC(Ryzen 7 6850H)の正統進化版みたいな存在で、前々から気になっていました。

基本スペック
| 項目 | 内容 |
|---|---|
| CPU | 16コア32スレッド(Zen 5) |
| iGPU | Radeon 8060S(CU 40基、RTX 4060 Mobile相当) |
| メモリ | LPDDR5x-8000 最大128GB(クアッドチャネル、帯域256GB/s) |
| VRAM割り当て | 最大96GB(LinuxではTTM拡張で120GBまで) |
| NPU | 126 TOPS |
| 搭載製品 | GMKtec EVO-X2、MINISFORUM MS-S1 MAX、Framework Desktop など |
| 価格帯 | 約38〜50万円(128GB構成) |
ここが革命的な点
128GBメモリ構成で96GBをVRAMに割り当て可能。これ、RTX 5090(32GB)の3倍の容量です。しかもミニPCで。
OpenAIの gpt-oss で話題になったとおり、メモリさえあれば120Bクラスも動くようになってきたので、Ryzen AI Max+ 395はまさに"GPTキラー"になりうるチップとも言われています。
💔 弱点
- 推論速度はNVIDIA専用GPUに劣る(帯域256GB/sはGDDR7より遅い)
- ROCm環境はCUDAほど成熟していない(体感で環境構築がしんどい)
- 2026〜2027年に次世代Medusa Halo(LPDDR6対応)が控えている → 買い控えの声も
Ryzen AI Max+ 395のポジション
Apple Siliconに対するWindows側の回答、という位置づけかなと。DGX Spark(128GB・約69万円)と比べても、ゲームもできるし普通に使えるという汎用性で差別化されています。
iGPU推論を実際にミニPCで試してきた自分としては、この路線は正義かもと思っています。専用GPUを積まないぶんコンパクト・省電力・静音、そして意外にちゃんと動く。これが数年前には考えられなかった世界です😊
7. 選択肢の全体マップ(4ルート比較)
今回の内容を踏まえて、2026年のローカルLLM環境の選択肢を4ルートで整理してみました。価格はGPU・デバイス単体で揃えています。

| 単体価格帯 | NVIDIA GPU | DGX Spark | Mac(Apple Silicon) | Ryzen AI Max+ 395 |
|---|---|---|---|---|
| 〜10万円 | RTX 4060 Ti 16GB(9万円) | — | Mac mini M4 24GB(10〜13万円) | — |
| 15〜20万円 | RTX 5070Ti / 5080(15〜20万円) | — | — | — |
| 25〜30万円 | — | — | Mac mini M4 Pro 48GB(25〜30万円) | — |
| 35〜45万円 | RTX PRO 4000 24GB / PRO 4500 32GB | — | — | ミニPC 128GB(38〜50万円) |
| 55〜80万円 | RTX 5090 32GB(69万円〜) | DGX Spark 128GB(70〜80万円) | MacBook Pro M4 Max 96GB(55〜70万円) | — |
こうやって並べると、「大容量メモリで勝負」派が Mac・DGX Spark・Ryzen AI Max+ の3大勢力になっていて、NVIDIA自作PCは「速度で勝負」派として少し違うポジションにいる、というのが見えてきますね💡
おわりに
自分の妄想から考えると、こんな感じになります。
3つのポイント
- 最もコスパがいいのはGPU単体9万円のRTX 4060 Ti 16GB … 16GBの壁を越えると一気に選択肢が広がる。まずはここから始めるのが一番賢い
- VRAMがすべてを決める … GPU選びは速度より先にVRAM容量を重視すべき。16GB、24GB、32GB、96GB…と段階的にできることが増えていくイメージ
- DGX Sparkという第3の選択肢 … 「自作PCでもクラウドでもない」新カテゴリーの登場
自分なりの妄想ポイント
- RTX PROシリーズという隠れた本命 … RTX PRO 4000(24GB・約35万円)/ PRO 4500(32GB・約45万円)は、16GBの壁を越える最もリーズナブルなNVIDIA GPU。1スロット・低TDPで既存PCに挿しやすいのも強い
- Macという選択肢 … 汎用機として使いつつローカルLLMサーバーにもなる稀有な存在。ただしメモリは買い切りなので最初から盛る覚悟が必要
- Ryzen AI Max+ 395という選択肢 … WindowsでAppleのユニファイドメモリ戦略に対抗する存在。
- 半年で常識が変わる世界 ⏳ — いきなりハイエンドGPUに飛びつかず、まずはRTX 4060 Ti 16GBあたりで手触りをつかむのが一番賢い
🤨🤨🤨
自分はRTX 4070 Tiで当面しのぎつつ、何をするといいか考えている状況です🥲
…と、考えれば考えるほど「わからん」という話になってしまうのですが🤣、それくらい選択肢が豊かになったということなのかもしれません。
半年後にはまた常識がひっくり返っているかもしれないので、そのあたり含めてまた気が向いたら追記していきたいと思います😊
今回の挿絵はChatGPTのChatGPT Images 2.0を使用して作成しています🙇