NVIDIAの弱点を突く「GPDPU」の正体。CGLAアーキテクチャが描く未来
「どんなに高速なエンジンを積んでも、渋滞の中ではスピードは出せない」——。現代のAI半導体が直面している課題は、これと同じです。今回は、Lenzoが提唱する新概念「GPDPU」が、いかにして物理的な限界を突破しようとしているのか、その核心に迫ります。
1. AI半導体を阻む「エネルギーの壁」の正体
現在、AI計算の主役であるGPUは、本来画像処理のために作られた「フォン・ノイマン型」の進化系です。ここでは、演算ユニットとメモリが分離されており、計算のたびにデータが往復します。
NVIDIAはこの問題を「超広帯域メモリ(HBM)」という巨大な道路を作ることで解決してきましたが、それは同時に莫大な電力消費(エネルギーの壁)を生んでいます。
2. 逆転の発想:データフロー型「GPDPU」
Lenzoの独自アーキテクチャCGLA(Coarse-Grained Linear Array)は、この渋滞を「道路をなくす」ことで解消します。命令がデータを呼び出すのではなく、データが演算器の中を流れていく「データフロー型」の採用です。
CGLAでは、多数の演算器がパイプラインのように連結されています。一度読み出されたデータは、メモリに戻ることなく、隣の演算器へと次々に受け渡されながら処理されます。倉庫との往復をなくし、「ベルトコンベア上で加工を終える」ような仕組みです。
3. IMAXアーキテクチャ:メモリのすぐ隣で計算する
さらにLenzoをユニークにしているのがIMAX(In-Memory Array eXtension)です。これは「Near-Data Processing」という思想に基づき、演算器を可能な限りデータの保存場所の近くに配置します。
ここが凄い!IMAX3のポイント
- 超低遅延: データの移動距離が物理的に短いため、電力ロスが極限まで抑えられる。
- 高い柔軟性: 専用のASIC(特定用途向けチップ)とは異なり、ソフトウェアで演算器のつながり方を変更可能。最新のAIモデル(TransformerやMambaなど)にも対応できます。
4. 「28nmで最先端に勝つ」という革命
半導体業界では通常、「プロセスルール(nm)」が小さいほど高性能とされます。しかしLenzoは、あえて枯れた技術である28nmプロセスで、NVIDIAの最先端(4nm/8nm)に挑んでいます。
| 特徴 | 一般的なGPU | Lenzo GPDPU |
|---|---|---|
| 設計思想 | 制御重視(汎用) | データフロー重視(計算特化) |
| 電力効率の源泉 | プロセスの微細化に依存 | アーキテクチャの構造 |
| 製造コスト | 極めて高い(先端設備が必要) | 安価(既存設備で製造可能) |
「設計が圧倒的に効率的なら、古い製造プロセスでも最新チップを凌駕できる」。これは、莫大な投資が必要な微細化競争から脱却し、日本の「設計力」で勝負できることを意味しています。28nmであれば歩留まりも良く、供給も安定するため、ビジネス上のメリットは計り知れません。
CGLA:データの「一筆書き」を実現する新構造
CGLA(Coarse-Grained Linear Array)を日本語に訳すと「粗粒度リニアアレイ」。一見難解ですが、その仕組みは非常に合理的です。
1. 「粗粒度(Coarse-Grained)」
細かい「ネジ」を一つずつ組み立てるのではなく、すでに組み上がった「エンジンユニット(演算器)」を並べる方式です。
2. 「リニアアレイ(Linear Array)」
演算器を一直線、あるいは整然としたグリッド状に配置します。データは迷うことなく、次の演算器へと「流れて」いきます。
従来のGPUでは、計算のステップごとに「メモリへの書き戻し」が発生し、それが電力消費の元凶となっていました。CGLAは、データの移動距離を物理的に最小化することで、圧倒的な「ワット当たりの性能」を叩き出すのです。