Google、TPU v4 は Nvidia A100 よりも優れていると主張 - 深センコーストワイズソリューションズ株式会社

ジェイミー・ハンプトン

2023 年 4 月 6 日

Google の新しい科学論文では、同社の Cloud TPU v4 スーパーコンピューティングプラットフォームのパフォーマンスについて詳しく説明しており、効率を高めて機械学習にエクサスケールのパフォーマンスを提供すると主張しています。

研究論文の著者らは、同様のサイズのシステムの Nvidia A100 に比べ、TPU v4 は 1.2 ～ 1.7 倍高速で、消費電力は 1.3 ～ 1.9 倍少ないと主張しています。この論文では、Google が TPU v4 を新しい Nvidia H100 GPU と比較していないことを指摘しています。これは、TPU v4 の可用性が限られていることと 4nm アーキテクチャ (TPU v4 の 7nm アーキテクチャと比較) が理由です。

機械学習モデルが大規模かつ複雑になるにつれて、コンピューティングリソースのニーズも増加しています。 Google の Tensor Processing Unit (TPU) は、機械学習モデル、特にディープニューラルネットワークの構築に使用される特殊なハードウェアアクセラレータです。これらはテンソル演算用に最適化されており、大規模な ML モデルのトレーニングと推論の効率を大幅に向上させることができます。 Googleによれば、TPUスーパーコンピュータはそのパフォーマンス、スケーラビリティ、可用性により、LaMDA、MUM、PaLMといった同社の大規模言語モデルの主力となるという。

TPU v4 スーパーコンピュータには、独自の光回線スイッチ (OCS) を介して相互接続された 4,096 個のチップが含まれており、Google によれば、これは、もう 1 つの一般的な相互接続技術である InfiniBand よりも高速かつ安価で、消費電力も少ないと主張しています。 Googleは、同社のOCSテクノロジーはTPU v4のシステムコストと消費電力の5％未満であると主張し、スーパーコンピューターの相互接続トポロジを動的に再構成して、規模、可用性、利用率、モジュール性、展開、セキュリティ、消費電力、パフォーマンスを向上させると述べている。

Google のエンジニアで論文著者の Norm Jouppi 氏と David Patterson 氏は、相互接続テクノロジーとドメイン固有アクセラレータ (DSA) における主要な革新のおかげで、Google Cloud TPU v4 は TPU v3 に比べて ML システムのパフォーマンスを 10 倍近く拡張できるようになったとブログ投稿で説明しました。また、同社が一般的なオンプレミスデータセンターと呼ぶものでは、最新の ML DSA と比較してエネルギー効率が約 2 ～ 3 倍向上し、DSA と比較して CO2e が約 20 倍削減されました。

TPU v4 システムは、2020 年から Google で運用されています。TPU v4 チップは、同社の 2021 I/O 開発者カンファレンスで発表されました。 Google によると、スーパーコンピューターは、言語モデル、レコメンダーシステム、その他の生成 AI にわたる ML 研究と生産のために、主要な AI チームによって積極的に使用されています。

レコメンダーシステムに関して Google は、同社の TPU スーパーコンピュータが、広告、検索ランキング、YouTube、Google Play で使用される深層学習レコメンデーションモデル (DLRM) の主要コンポーネントである埋め込みをハードウェアでサポートする最初の製品でもあると述べています。これは、各 TPU v4 に SparseCore が搭載されているためです。SparseCore は、エンベディングに依存するモデルを 5 ～ 7 倍高速化するデータフロープロセッサですが、ダイ面積と電力のわずか 5% しか使用しません。

テキストから画像への AI スタートアップである Midjourney は、画像生成モデルの 4 番目のバージョンをトレーニングするために最近 TPU v4 を選択しました。「Google Cloud と協力して、世界中の Google の機能を活用してクリエイティブコミュニティにシームレスなエクスペリエンスを提供できることを誇りに思います」スケーラブルなインフラストラクチャです」と、Midjourney の創設者兼 CEO である David Holz 氏は Google のブログ投稿で述べています。「JAX を使用した最新の v4 TPU でのアルゴリズムの 4 番目のバージョンのトレーニングから、GPU での推論の実行まで、TPU v4 によってユーザーが活気に満ちたアイデアを実現できる速度に感銘を受けました。」

TPU v4 スーパーコンピューターは、昨年開設されたオクラホマ州の Google Cloud の ML クラスターで AI 研究者や開発者が利用できます。 Google は、このクラスターが 9 エクサフロップスのピーク総パフォーマンスで、90% のカーボンフリーエネルギーで動作する、公的に利用可能な最大の ML ハブであると考えています。ここで TPU v4 の研究論文を確認してください。