
736: Socket774 2023/03/29(水) 09:31:59.63 ID:tAQFLWi4
インテルの第4世代Xeon CPU(コードネーム:Sapphire Rapids)は、AMXの採用により、AI Stable Diffusionで最大10倍のパフォーマンスアップを達成しました。
インテル、第4世代Xeon Sapphire Rapids CPUのAMXアクセラレーションでAI Stable Diffusionの性能を向上させる
最近発売されたIntel第4世代Xeon「Sapphire Rapids」CPUは、クラウドやデータセンター分野での採用が加速しています。Intelが特に力を入れている分野の1つは、新しいAMX(Advanced Matrix Extension)アクセラレータによって強化された深層学習アクセラレーションのためのハードウェア機能セットです。
Intelはまず、現行世代のSapphire Rapidsと、前世代のIce Lake CPUの平均レイテンシを紹介する。第3世代Xeon CPUでは、コードを実行するのに約45秒かかるのに対し、第4世代CPUでは32.3秒かかる。これは、コードに変更を加えることなく、28%低いレイテンシーを実現したことになります。では、IntelがOpenVINOのような高性能推論用の最適化されたオープンソースのツールキットを使用するとしたらどうでしょうか。
答えは、パフォーマンスのさらなる高速化です!Optimum IntelとOpenVinoを使用すると、Intel Xeon CPUはレイテンシーを16.7秒まで落とし、2倍以上のスピードアップを実現します。さらに、コードを固定解像度に最適化すると、レイテンシはわずか4.7秒になり、そのままのコードに比べて3.5~3.8倍のスピードアップを実現しています。
静的形状の場合、平均レイテンシは4.7秒に短縮され、さらに3.5倍高速化されました。
このように、OpenVINOは安定拡散推論を高速化するシンプルで効率的な方法です。Sapphire Rapids CPUと組み合わせることで、Ice Lake Xeonのバニラ推論と比較して、ほぼ10倍のスピードアップを実現しています。
OpenVINOを使用できない、または使用したくない場合、この記事の残りの部分では、他の一連の最適化テクニックを紹介します。シートベルトを締めてください!
また、Sapphire Rapids CPUに搭載されているAMXタイルマトリックス乗算ユニット(TMMU)アクセラレータを活用するため、Bloat16データフォーマットを有効にしました。
このアップデートにより、推論レイテンシは11.9秒から5.4秒へとさらに短縮されました。これは、IPEXとAMXによる2倍以上の高速化です。
この最終バージョンでは、推論レイテンシは5.05秒に短縮されています。最初のSapphire Rapidsのベースライン(32.3秒)と比較すると、約6.5倍高速化されています!
via Intel
さらにシステムレベルの最適化、IPEX、BF16によってさらに性能が向上し、その結果はインテル自身が提供する素晴らしいチャートで確認することができます
(続きはこちら)
GPUでAI処理は諦めたんか?
737: Socket774 2023/03/29(水) 09:58:41.99 ID:wqnXvKa5
>>736
>AMX(Advanced Matrix Extension)
>インテルが2020年にAVX512_VNNIの拡張として発表した複数の行列をまとめて計算するために設計された拡張命令。
ベクトル計算をCPUにやらせるって事か
コア数が多けりゃ
GPUでやってる事をCPUでも出来るだろって発想かな?
>AMX(Advanced Matrix Extension)
>インテルが2020年にAVX512_VNNIの拡張として発表した複数の行列をまとめて計算するために設計された拡張命令。
ベクトル計算をCPUにやらせるって事か
コア数が多けりゃ
GPUでやってる事をCPUでも出来るだろって発想かな?