AIは非常にメモリを必要とするアプリケーションです。幸いなことに、AmbiqのApollo4 Plusには、選べるメモリの種類と構成が豊富に用意されている。どのメモリをどのように使用するかを決めるには、ちょっとした実験が必要かもしれません。そこで、いくつかの実験を行い、その結果をご覧いただきました。以下に示すように、あなたの設計要件を満たすのに役立つ多くの素晴らしい選択肢があります。
AIのメモリの使い方
ディープラーニングのAIモデルは一連の層で構成され、それぞれの層は多数のいわゆる「ニューロン」で構成されている。これらのニューロンは個々には単純で、入力値を受け取り、その特定のニューロンに関連付けられている「重み」と掛け合わせる。重みを持つニューロンは、その組み合わせに「活性化関数」を適用する。学習済みモデルでは、重みは静的である。

確かに、この説明はひどく単純化しすぎている。とはいえ、AIモデルのメモリ利用は、静的な部分と動的な部分の2つで構成されていることを示している。静的部分は重みを表す。動的部分は、その重みに基づいてニューロンを流れる値で構成され、これは「活性化」とも呼ばれる。これらの事実をもとに、Apollo4 Plusのメモリ構成にAIモデルを最適化する方法を探っていく。
マイクロコントローラ用のTensorFlow1Liteは、AIモデルを通じてデータを実行するランタイム・インタープリタであり、推論ごとに上記の操作を数百万回実行する。マイクロコントローラのメモリ・アーキテクチャは、AIモデルの実行に必要な重みと活性化のメモリ・タイプを反映している。モデルの重みは、モデルの各レイヤーで使用されるパラメータ(学習可能なものと学習不可能なものを含む)として定義され、モデル配列(保存および分析用の複数のモデル・オブジェクトのコレクション)に格納される。モデルの活性化は、いわゆる「TensorFlowアリーナ」に格納される。コンパイル・プロセスでは、コンパイラ・ディレクティブを使って、これらのメモリ・オブジェクトをどこに配置するかを制御できる。例えば、AmbiqSuite SDKでは、このように配置を制御します:

アポロ4プラス・メモリーズ
Apollo4 Plus SoCは、AIに使用できる3種類のメモリ(MRAM、密結合メモリ(TCM)、SSRAM)を提供する。MRAMは高効率の不揮発性メモリーで、主に静的な値の保存に使われる。TCMは、その名の通りCPUに密結合された高性能の読み書きメモリである。SSRAMは、CPUから「さらに」離れた汎用読み書きメモリである。これらの各メモリへのアクセスは、電力と性能にさまざまな影響を与える。
実験
TensorFlowの性能を予測するのは非常に難しいことが知られている。そのため、実験を行う方が簡単なアプローチです。我々の実験では、MLPerf2 Tiny Inferenceのキーワードスポッティング(KWS)ベンチマークを実行しました。同ベンチマークの性能と消費電力を計測する洗練されたシステムを活用し、様々なメモリ割り当てアプローチの影響を実証的に判断しました。具体的には、以下の構成を試した:

注意すべき点がいくつかある:
- アクティベーションはダイナミックであり、MRAMはスタティックであることを好むからだ。
- 使っていないメモリはすべてオフにする
結果
次のグラフは、各実験の測定結果を、TCMで実行されるすべての実験に対する相対値で示したものである。実験間の違いを誇張するために軸の目盛りを使っている。実際には、これらの組み合わせのいずれかが、IoTエッジデバイスでキーワードスポッティングを実行するのに適している。

MRAMは、TCMやSSRAMと組み合わせることで、卓越した性能とエネルギー効率を発揮することがわかる。
結論
AIは、静的にも動的にも大量のメモリを必要とする。しかし、実際のアプリケーションでは、AIは他のアプリケーションとメモリを共有しなければならない。Apollo4 Plusは、メモリの種類とメモリ構成の両方において、AI開発者に多くの選択肢を提供します。前述の経験では、最も最適化された性能とエネルギー効率を提供したい開発者は、Apollo4の大容量2MB MRAMにウェイトを配置し、TCMにアクティベーションを配置しても、ほとんど影響はない。しかし、開発者がどのような構成を選んでも、当社のSPOT対応プラットフォーム3は、優れた電力効率で一貫して高い性能を確実に実現します。
1TensorFlow、TensorFlowのロゴ、および関連するマークは、Google Inc.の商標です。
2MLPerfは、学術界、研究所、産業界のAIリーダーからなるコンソーシアムで、その使命は、ハードウェア、ソフトウェア、サービスのトレーニングおよび推論のパフォーマンスを公平に評価する「公平で有用なベンチマークの構築」である。https://mlcommons.org/en/policies/。
3 SPOT®(Sub-threshold Power Optimized Technology)は、Ambiq®が独自に開発した技術プラットフォームです。世界で最もエネルギー効率の高いソリューションを市場に提供することで、エッジAIの可能性に革命をもたらします。