月影

日々の雑感

DeepSeek V4の凄さと仕組みを徹底解説!楽天AI騒動が暴く「国産」の虚像とは?

 

DeepSeek V4:AIインフラの民主化と、揺れる「国産AI」の虚像

2026年4月24日に発表されたDeepSeek V4は、AI業界の勢力図を塗り替える破壊的な一撃となりました。その技術的本質と、日本が直面している「不都合な真実」を解説します。

1. 1.6兆パラメータがもたらす「知能の民主化」

DeepSeek V4は、前作V3を大幅に上回る1.6兆パラメータ(Pro版)を誇る超大規模モデルです。特筆すべきは、その巨大な知能を支える「究極の効率性」です。パラメータとは、AIの脳内における『神経の結びつきの強さ(重み)』を指します。1.6兆という途方もないネットワークの中から、入力された文章に応じて必要な部分だけを瞬時に呼び出して処理する仕組みになっています。

【解説】1.6兆パラメータ(Pro版)とは何が「すごい」のか?

「1.6兆(1.6 Trillion)」というパラメータ数は、2026年4月現在、公開されているオープンウェイトモデルとして世界最大級の規模を意味します [1, 2]。

1. 知能の「器」の大きさ:1.6兆個の神経結合

パラメータとは、AIにおける「神経細胞(ニューロン)同士のつながりの強さ」を数値化したものです。

  • 知識の解像度: パラメータが多いほど、AIはより膨大な事実、数学の定理、複雑なコードのパターンを詳細に記憶できます。
  • 比較: 前作のDeepSeek V3(約6710億)の約2.4倍に相当します 。これほど巨大な脳を持つことで、専門的な数学やプログラミングにおいて、人間の上位レベルに匹敵する推論が可能になりました 。

2. 巨大なのに軽い「MoE」アーキテクチャ

1.6兆ものパラメータをすべて一度に動かすと、膨大な計算コストがかかります。V4 Proの凄さは、「混合専門家(Mixture of Experts: MoE)」という仕組みでこれを解決した点にあります。

総パラメータ数: 1.6兆(知識の総量)
アクティブ・パラメータ数: 約490億(1つの質問に答える時に使う脳の量)[4, 5]

1.6兆人もの「専門家集団」を抱えながら、質問に応じて最適な「490億人の精鋭」だけを瞬時に呼び出して働かせるイメージです。これにより、世界最高峰の知能を持ちながら、推論にかかる計算負荷を劇的に抑えています。

3. なぜ衝撃的なのか(実務的な凄さ)

  • 100万トークンの記憶力: 巨大な器を活かし、本数冊分の情報を「短期記憶」として保持したまま、矛盾やエラーを精密に指摘できます。
  • コストパフォーマンス: 1.6兆の知能を、OpenAIやAnthropicの最新モデルの約1/7〜1/10の価格で利用できる点です 。
  • ハードウェアの自立: この巨大モデルを、NVIDIA以外のチップ(Huawei Ascend等)でも効率よく動かせるよう、ソフトウェアレベルで徹底的に最適化されています 。

結論として、1.6兆パラメータのPro版は「人類が蓄積した知識の大部分を1つのモデルに詰め込み、それを格安で、しかも効率よく動かすことに成功した」からこそ、世界中に衝撃を与えたのです。

MoE(混合専門家)アーキテクチャにより、1.6兆ものパラメータを持ちながら、推論時に動くのはわずか490億パラメータ(約3%)のみ。これにより、高い性能と圧倒的な低コストを両立させています。

【解説】DeepSeek V4 と Sakana AI の仕組みは同じか?

1. 共通点:効率的な「専門家」の活用

両社に共通しているのは、一つの巨大な「万能脳」をフル稼働させるのではなく、特定のタスクに長けた「専門家(Expert)」を組み合わせて効率化を図るという点です。これにより、計算コストを抑えつつ高い知能を実現しようとしています。

2. DeepSeek V4:ゼロから育てる「ネイティブ MoE」

DeepSeek V4(Pro版)は、最初から MoE モデルとして設計され、33兆トークンという膨大なデータでゼロから学習(事前学習)されています。

  • 巨大な規模: 総パラメータ数は 1.6兆 (1.6T) ですが、推論時に働くのは 490億 (49B) に絞り込まれます。
  • 動的な切り替え: 1つのモデルの中に数多くの「専門家回路」が最初から作り込まれており、入力された言葉に応じて、内部の「ルーター」が瞬時に最適な専門家を呼び出します。

3. Sakana AI:既存の知恵を合体させる「進化的モデルマージ」

一方、Sakana AI の主力技術は「進化的モデルマージ(Evolutionary Model Merge)」です。

  • 合体(マージ): ゼロから学習するのではなく、すでに完成している複数のオープンソースモデル(日本語に強いモデル、数学に強いモデルなど)を「合体」させて新しいモデルを作ります。
  • 進化アルゴリズム: どのモデルのどの部分を、どんな比率で組み合わせれば最強になるかを、生物の進化を模した計算手法で自動的に探し出します。
  • コストの低さ: 追加の GPU 学習を必要とせず、既存の「集合知」を活用するため、極めて効率的かつ低コストで新しい能力を持つモデル(EvoLLM-JPなど)を生み出せます。

結論:決定的な違い

比較項目 DeepSeek V4 (MoE) Sakana AI (進化的マージ)
作り方 ゼロから数ヶ月かけて学習 既存モデルを数時間〜数日で合体
構造 1つの巨大な「専門家集団」 異なるモデル同士の「ハイブリッド」
主な利点 単一モデルとしての極限の推論効率  学習不要で未知の能力を発見できる点

つまり、DeepSeek V4 は「一つの巨大な組織の中に、最初から専門部署を作って効率化している」のに対し、Sakana AI は「独立した別々の専門家(既存モデル)を掛け合わせて、新しい才能を合成している」という違いがあります。

革新的な新技術

  • CSA / HCA ハイブリッド・アテンション: 100万トークンという超長文を扱うため、情報を圧縮・要約して処理する新機構を採用。KVキャッシュのメモリ負荷を90%削減しました。
【解説】ハイブリッド・アテンション:100万トークンを「爆速・格安」にする魔法

従来のAI(トランスフォーマー)は、読み込ませる文章が長くなるほど計算量とメモリ消費が「雪だるま式」に増える致命的な欠陥がありました。これを解決し、本一冊分(100万トークン)を実用レベルに引き下げたのがハイブリッド・アテンションです。

1. 仕組み:2つの圧縮技を使い分ける

DeepSeek V4は、情報の扱い方が異なる2つの仕組みを層ごとに交互に配置(インターリーブ)しています。

  • CSA(圧縮疎アテンション)
    情報をトークン単位で4倍ほどに軽く圧縮し、さらにその中から重要な部分だけを「まばら(Sparse)」に拾い上げます。細かいバグ修正や特定の記述を探す際に威力を発揮します。
  • HCA(高度圧縮アテンション)
    最大128個もの単語を1つの「要約(サマリ)」に強力に凝縮します。要約された短いデータに対して計算を行うため、文章全体の流れや構造を把握するコストを最小限に抑えられます。

2. もたらされる劇的な効果

前作(DeepSeek V3.2)と比較して、100万トークン処理時のコストをここまで削減しました。

削減項目 削減率 メリット
KVキャッシュ(メモリ) 90% 削減 少ないGPU枚数で長文を扱える
計算量(FLOPs) 73% 削減 返答の待ち時間が大幅に短縮される

3. モデルごとの賢い配置パターン

DeepSeek V4は、モデルの特性に合わせてアテンションを積み重ねています。

  • V4-Pro(最強版): 最初の2層でまず「高度圧縮(HCA)」を行い、全体像を固めてから、CSAとHCAを交互に繰り返して深掘りします。
  • V4-Flash(高速版): 最初の2層は直近の単語だけを見る「スライディングウィンドウ」でスピードを稼ぎ、その後で圧縮アテンションに切り替えます。
ひとことで言うと:
「一文字ずつ全部を完璧に覚える」のをやめ、「大事なところは詳細に、他はざっくり要約して読む」という人間のような効率的な読み方を計算式にしたものです。これにより、長文読解のコストが従来の10分の1以下に下がりました。
  • mHC 多様体制約付きハイパーコネクション: 数学的制約を用いて勾配の安定性を保ち、超大規模モデル特有の学習の不安定さを解消しています。1.6兆パラメータという途方もない規模の学習を数ヶ月間にわたって一度も破綻させないようにするための仕組みです。
超巨大モデルを支える技術:多様体制約付きハイパーコネクション(mHC)の役割

mHCは、勾配の急激な変化に対して学習を止める「ブレーキ」ではなく、「信号がどれだけ深く進んでも、壊れたり消えたりしないように計算の通り道を整える」という強靭なインフラの役割を担っています。

1. なぜ「結果を飛ばすルート」が必要なのか

深層学習では、層が深くなるほど後ろの層から前の層へ「どう学習すべきか」という信号(勾配)を伝えるのが難しくなります(勾配消失)。
これを防ぐために、計算結果を足し合わせながら信号をバイパスさせる「残差接続(Residual Connection)」というショートカットが従来から使われてきました。

2. 「mHC」は何が特別なのか

1.6兆パラメータにおよぶ超巨大モデルでは、標準的なショートカットだけでは不十分です。信号が重なりすぎて「爆発」したり、逆に弱まりすぎたりして学習がクラッシュする「損失スパイク」が頻発します。
そこで導入された多様体制約付きハイパーコネクション(mHC)には以下の特徴があります:

  • 信号の安定化: ルートを通る信号の「強さ(行列のスペクトル半径)」を数学的に常に「1」以下に保つ制約(ビルコフ・ポリトープ)を適用。
  • 情報の保護: 60層を超える深い階層でも、信号を爆発させず安定して伝播させ、モデルの表現力を維持。

3. 「勾配の変化で止める」技術との違い

勾配の変化に応じて学習を調整するのは「オプティマイザ(Muonなど)」や「勾配クリッピング」の役割です。
対してmHCは、ネットワークの「骨組み」そのものを数学的に安定させる技術です。これにより、途方もない規模の学習を数ヶ月間にわたって一度も破綻させずに完走させることを可能にしています。

結論: mHCは「異常が起きたら止める」仕組みではなく、「異常が起きないようにルート自体を数学的に設計した、壊れないショートカット」と言えます。
  • Muon 新オプティマイザ: ニュートン・シュルツ反復を用いてパラメータ更新を直交化し、学習の収束を25%加速させました。
新オプティマイザ「Muon」:学習を25%加速させる「直交化」の仕組み

Muonは、従来のAdamなどのように単に「進むスピード」を調整するのではなく、「進む方向そのものを整理して無駄を省く」ことで、学習効率を劇的に向上させる次世代のオプティマイザです。

1. 「直交化」で情報の渋滞を解消する

通常、AIの膨大なパラメータは学習中に似たような動きをしてしまい、効率が落ちることがあります(冗長性)。
Muonは更新内容を「直交(お互いに干渉しない独立した方向)」に整列させます。これにより、各パラメータが重複のない独自の情報を効率よく学習できるようになり、計算の「渋滞」が解消されます。

2. ニュートン・シュルツ反復:高速な交通整理

これまで「直交化」という作業は非常に重い数学計算が必要で、実用化が困難でした。Muonは「ニュートン・シュルツ反復」という近似手法を用いることで、この問題を解決しました。

  • GPU最適化: 現代のチップが最も得意とする「単純な行列の掛け算」の繰り返しで直交化を実現。
  • 計算コストの抑制: 厳密すぎる計算を避け、「十分に整理された状態」を素早く作り出すことで、オーバーヘッドを最小限に抑えています。

3. なぜ25%も速くなるのか

パラメータ同士の干渉がなくなるため、モデルが「どの方向に進むべきか」で迷うジグザグ走行が減ります。

  • 最短ルートの走行: 常に整理された方向に更新されるため、一歩の歩幅(学習率)を大きくしても学習が壊れにくくなります。
  • 収束の加速: 同じ精度に到達するまでの時間が短縮され、DeepSeek-V4のような巨大モデルの学習コストを大幅に削減しました。
一言で言うと: Muonは「がむしゃらに走る」のではなく、「最短ルートを常にクリアに見通し、歩幅の無駄をゼロにするコンパス」のような技術です。

2. 「中国国産チップ」で動く次世代AI

米国の輸出規制によりNVIDIA製の最新チップ入手が困難な中、DeepSeek V4はファーウエイの Ascend 950PRなどの中国国産チップへ高度に最適化されています 。制約を逆手に取り、ハードウェアとソフトウェアを垂直統合で開発することで、米国のトップモデルに肉薄する性能を国産インフラで実現した点は、地政学的にも極めて大きな意味を持ちます。

3. DeepSeek V4の「光」と「影」

【光】圧倒的コスパとエージェント能力

プログラミングのコーディング能力(LiveCodeBench 93.5%)や自律的なタスク遂行能力(SWE-bench 80.6%)は、GPT-5.5やClaude 4.7に匹敵します。最大の特徴は価格で、米国の主要モデルの約1/10という安さで提供されています。

【影】事実の正確性(ファクト精度)において劣り、トップ層から「3〜6ヶ月」の遅れが存在

一方で、論理推論には強いものの、広範な「事実の正確な把握という点(SimpleQA)」ではGoogle Geminiに一歩譲ります。依然として3〜6ヶ月程度の遅れがあると評価されています。

4. 楽天AI騒動が暴いた日本の「依存」と「虚像」

DeepSeek V4の台頭は、日本のAI開発における「不都合な真実」を浮き彫りにしました。2026年3月の楽天AI 3.0を巡る騒動がその象徴です。

フルスクラッチ(ゼロからの開発)による純国産を目指すNTTやソフトバンクとは対照的に、楽天は『世界最強クラスのオープンモデルを日本市場向けに高度にチューニングする』という、スピードとコストパフォーマンスを重視した実利的な戦略に舵を切った。

浮き彫りになった3つの問題点

  • ライセンスの問題: 元モデルであるDeepSeekのMITライセンス(自己責任で自由に使っていいが、DeepSeekを使っていることは書かないといけないルール)のファイルが含まれていませんでした。この不透明な情報開示がコミュニティの指摘と猛反発を招きました。後に、楽天自体が、RakutenAI 3.0のベースはDeepSeekであると認めました。
  • 開発の「ガワ」化: 現在、日本企業が発表する上位モデルの半数以上がDeepSeekやQwen等の中国製モデルに依存しており、真の意味での「国産」技術が乏しい実態が露呈しました。
  • 公的資金の行方: 多額の国家予算を投じたプロジェクトが、他国のモデルを日本語化しただけの結果に終わっていることは、日本のAI主権とガバナンスに大きな疑問を投げかけています。ただ、補助金は、「ゼロからの開発」ではなく「計算リソース費用の一部」として活用されています。成果物はApache License2.0で公開することで公益性を保っています。

結論

DeepSeek V4は、AIを「魔法」から「安価な道具」へと変えました。私たちが享受すべきはその「効率性」ですが、同時に他国の技術基盤に完全に依存することのリスクも直視しなければなりません。真の「国産AI」とは何か、その透明性と独自性が今、改めて問われています。

© 2026 月影 All rights reserved.