Intel-3rd-Gen-Xeon-Scalable_l_06

736: Socket774 2023/03/29(水) 09:31:59.63 ID:tAQFLWi4
インテルの第4世代Xeon CPU(コードネーム:Sapphire Rapids)は、AMXの採用により、AI Stable Diffusionで最大10倍のパフォーマンスアップを達成しました。

インテル、第4世代Xeon Sapphire Rapids CPUのAMXアクセラレーションでAI Stable Diffusionの性能を向上させる

最近発売されたIntel第4世代Xeon「Sapphire Rapids」CPUは、クラウドやデータセンター分野での採用が加速しています。Intelが特に力を入れている分野の1つは、新しいAMX(Advanced Matrix Extension)アクセラレータによって強化された深層学習アクセラレーションのためのハードウェア機能セットです。

Intelはまず、現行世代のSapphire Rapidsと、前世代のIce Lake CPUの平均レイテンシを紹介する。第3世代Xeon CPUでは、コードを実行するのに約45秒かかるのに対し、第4世代CPUでは32.3秒かかる。これは、コードに変更を加えることなく、28%低いレイテンシーを実現したことになります。では、IntelがOpenVINOのような高性能推論用の最適化されたオープンソースのツールキットを使用するとしたらどうでしょうか。

答えは、パフォーマンスのさらなる高速化です!Optimum IntelとOpenVinoを使用すると、Intel Xeon CPUはレイテンシーを16.7秒まで落とし、2倍以上のスピードアップを実現します。さらに、コードを固定解像度に最適化すると、レイテンシはわずか4.7秒になり、そのままのコードに比べて3.5~3.8倍のスピードアップを実現しています。

静的形状の場合、平均レイテンシは4.7秒に短縮され、さらに3.5倍高速化されました。

このように、OpenVINOは安定拡散推論を高速化するシンプルで効率的な方法です。Sapphire Rapids CPUと組み合わせることで、Ice Lake Xeonのバニラ推論と比較して、ほぼ10倍のスピードアップを実現しています。
OpenVINOを使用できない、または使用したくない場合、この記事の残りの部分では、他の一連の最適化テクニックを紹介します。シートベルトを締めてください!
また、Sapphire Rapids CPUに搭載されているAMXタイルマトリックス乗算ユニット(TMMU)アクセラレータを活用するため、Bloat16データフォーマットを有効にしました。
このアップデートにより、推論レイテンシは11.9秒から5.4秒へとさらに短縮されました。これは、IPEXとAMXによる2倍以上の高速化です。
この最終バージョンでは、推論レイテンシは5.05秒に短縮されています。最初のSapphire Rapidsのベースライン(32.3秒)と比較すると、約6.5倍高速化されています!
via Intel

さらにシステムレベルの最適化、IPEX、BF16によってさらに性能が向上し、その結果はインテル自身が提供する素晴らしいチャートで確認することができます

01

(続きはこちら)
GPUでAI処理は諦めたんか?

737: Socket774 2023/03/29(水) 09:58:41.99 ID:wqnXvKa5
>>736
>AMX(Advanced Matrix Extension)
>インテルが2020年にAVX512_VNNIの拡張として発表した複数の行列をまとめて計算するために設計された拡張命令。

ベクトル計算をCPUにやらせるって事か
コア数が多けりゃ
GPUでやってる事をCPUでも出来るだろって発想かな?


738: Socket774 2023/03/29(水) 10:17:28.70 ID:5IESAuGu
演算性能的にGPUのそれと戦える代物じゃないから、用途が違うんじゃないかな。ちょっと機械学習利用するくらいならCPUでもできますよとか、データのクレンジングの方が重いとか

739: Socket774 2023/03/29(水) 12:46:12.57 ID:xcsGqatd
GPUでガッツリ食い込んでるAMDや王者NVは気にもしてなさそう

740: Socket774 2023/03/29(水) 12:53:39.27 ID:k5ENFH5H
よく分からんがAIアクセラレータを
CPU側に実装 Intel のAMX
GPU側に実装 NVIDIAのTensor Core
SoCに実装  AppleのNeural Engine
みたいな違いか

741: Socket774 2023/03/29(水) 14:48:33.29 ID:tAQFLWi4
GPUのスケーラビリティと電力効率相手にCPUでどうやって勝つんだろう…

742: Socket774 2023/03/29(水) 15:22:11.39 ID:gpsUixwG
性能じゃなく搭載機の数で勝負だろ
Intelは年間2億個以上出荷してる
Nvidiaは年間数千万個程度

743: Socket774 2023/03/29(水) 15:40:02.05 ID:MOZ1hCfx
どっちが落ち目か言うまでもないわな

744: Socket774 2023/03/29(水) 15:55:34.81 ID:xrPgi02v
エッジで推論に使うなら数は要るけど性能はそんなに要らんし
学習に使うならインストール数はどうでもよくて性能が重要だけどGPUに負けるしで
どうも中途半端な印象があるんだよなあ。

エッジ必要な性能にマッチした規模なの?
真面目に学習やらせてるところで、GPUじゃなくてCPUってニーズあるの?
ってあたり誰か教えてくれないかしら

745: Socket774 2023/03/29(水) 16:30:48.65 ID:lLVfyIf6
AMDの人の話だけど
https://www.4gamer.net/games/660/G066019/20230213083/

「推論処理については,最新世代のCPUであれば十分な速さで行える。世に出回っているAI技術活用の推論処理は,約95%がCPUで行われているのが実情だ。データセンターなどにおけるAI処理も同様で,我々のサーバー向けCPU「EPYC」も,さまざまな現場で多くのAI処理を行っている」

95%がどっから出てきた数字かは分からん

751: Socket774 2023/03/29(水) 18:57:32.28 ID:PdQNECbb
>>745
これ安物CPUの演算器でも性能的には十分って意味になるよね。
省電力のためにショボい演算能力のAI向けアクセラレータを積むのはアリかもしれない。
でも強力なAIアクセラレータをCPU側に積むのは無意味そうだなあ

756: Socket774 2023/03/29(水) 20:20:02.76 ID:8yA82RQb
>>751
むしろ独立したビデオメモリは遅くて遠いからアクセラレータをCPUと近付けるのが最近のトレンド

753: Socket774 2023/03/29(水) 19:46:03.99 ID:v8D5odLt
>>745
一企業の言い分なんて、情勢によって変わるんだから話半分に聞いておかないと
AMDの仕様が標準化されなかったから悪、
AMDの仕様が標準になったらそれを採用ない側は悪、とか勿体無い生き方だよ

Microsoftの逆ギレMPEG4(Windows独自形式)を思い出す

754: Socket774 2023/03/29(水) 20:06:00.19 ID:8ptNfPuF
>>753
事実上の標準が重要なんだよ
つまり、シェア

利益が少なくてもシェアを取ると、あらゆるソフトウェアがそこに最適化される

752: Socket774 2023/03/29(水) 19:24:18.95 ID:UPArhHYX
とするとNvidiaがあれだけ成長できた理由が分からんな

747: Socket774 2023/03/29(水) 16:58:07.11 ID:l9tdnpua
x86で稼げるのならIntelが率先してるはずなんだよな

748: Socket774 2023/03/29(水) 16:58:09.31 ID:r8CUGXTA
Xeon Phi2やろうぜ

749: Socket774 2023/03/29(水) 17:58:35.59 ID:5IESAuGu
推論はまぁCPUでええけど、一番高く売れそうな学習用ハードが……

755: Socket774 2023/03/29(水) 20:10:53.42 ID:3w1J6v+Y
推論と学習で演算量が桁違いだから……

758: Socket774 2023/03/29(水) 20:44:44.62 ID:UPArhHYX
AI学習で高帯域メモリが必要になってきてより効果的に性能伸ばそうとすると
Grace HopperみたいなCPUとGPUを近づけるほうが性能伸ばしやすいって判断かね

引用元: https://egg.5ch.net/test/read.cgi/jisaku/1677651067/


amazon_sale_20230331_l_03