展會信息港展會大全

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做
來源:互聯(lián)網(wǎng)   發(fā)布日期:2024-11-20 08:07:39   瀏覽:0次  

導讀:機器之心報道機器之心編輯部終于,面對近年來對自家自動 AI 芯片設計研究的質疑,谷歌坐不住了,發(fā)文回應!論文作者中包括了谷歌首席科學家 Jeff Dean。論文地址:https://arxiv.org/pdf/2411.10053論文標題:That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design我們先來回顧一下事情的來龍去脈:2020 年,谷歌發(fā)表了預印本論文《Chip Placem ......

機器之心報道

機器之心編輯部

終于,面對近年來對自家自動 AI 芯片設計研究的質疑,谷歌坐不住了,發(fā)文回應!論文作者中包括了谷歌首席科學家 Jeff Dean。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

論文地址:https://arxiv.org/pdf/2411.10053

論文標題:That Chip Has Sailed: A Critique of Unfounded Skepticism Around AI for Chip Design

我們先來回顧一下事情的來龍去脈:

2020 年,谷歌發(fā)表了預印本論文《Chip Placement with Deep Reinforcement Learning》,介紹了其設計芯片布局的新型強化學習方法 AlphaChip。在 2021 年,這項研究發(fā)表在 Nature 上并開源了出來。

此后,AlphaChip 激發(fā)了 AI 芯片設計方面的大量工作,并在谷歌母公司 Alphabet 三代 TPU、數(shù)據(jù)中心 CPU 和其他芯片中部署,并由外部芯片制造商擴展。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

然而,ISPD 2023 上的一篇論文對谷歌 AlphaChip 的性能提出了質疑(Cheng 等人),論文指出,盡管谷歌承諾會提供數(shù)據(jù)和代碼,但實際上這些資源并不完全可用。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

論文地址:https://arxiv.org/pdf/2302.11014

Cheng 等人還認為基于谷歌的 Circuit Training(CT)框架的 AlphaChip 和《Nature》論文存在幾項不一致:如輸入網(wǎng)表的預放置信息、代理成本函數(shù)的權重設置、宏觀和標準單元群集的放置規(guī)則等。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

根據(jù)他們的評估,相比模擬退火算法(SA),在大多數(shù)情況下,AlphaChip 的代理成本更高、HPWL 也不如 SA 方法。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

但谷歌方稱:「他們并沒有按照我們 Nature 論文中描述的方法運行!

例如 Cheng 等人的論文中沒有預訓練 RL 方法(消除了從先驗中學習的能力)、使用的計算資源少得多(RL 經(jīng)驗收集器減少 20 倍,GPU 數(shù)量減少一半)、沒有訓練到收斂(機器學習標準做法),并且用于評估的測試用例也是過時的。

在最近一期 CACM 上,Synopsys 的杰出架構師 Igor Markov 也發(fā)表了對三篇論文的元分析,包括登上《Nature》的 AlphaChip 原論文、Cheng 等人投稿到 ISPD 的論文以及 Markov 未發(fā)表的論文,總結了人們對 AlphaChip 的各種質疑。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

文章地址:https://cacm.acm.org/research/reevaluating-googles-reinforcement-learning-for-ic-macro-placement/

谷歌還拉了一張時間線:

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

因此,面對以上質疑,谷歌通過本文進行了回應,確保沒有人因為錯誤的原因而放棄在這個有影響力的領域繼續(xù)創(chuàng)新。

Jeff Dean 發(fā)推表示,Cheng 等人的論文很大程度上并沒有遵循谷歌的方法,尤其是沒有進行預訓練,在算力、訓練收斂方面也都存在缺陷。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

Jeff Dean 還認為,Igor Markov 的文章提出了含蓄的指控,完全沒有根據(jù)。他很驚訝 Synopsys 竟然想與此事扯上關系,也很驚訝 CACMmag 竟然認為發(fā)表這些指控是恰當?shù)。除了兩篇有缺陷、未?jīng)同行評議的文章之外,沒有任何證據(jù)或技術數(shù)據(jù)。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

Cheng 等人在復現(xiàn)谷歌方法時的錯誤

Cheng 等人并未按照谷歌在《Nature》中的描述復刻論文中方法,因此他們的結果不好,并不意外。

以下是谷歌指出的主要錯誤:

未對強化學習方法進行預訓練

AlphaChip 的核心優(yōu)勢在于能夠從先驗中學習,即在正式測試前通過「練習」模塊中進行預訓練。去除這一點,相當于評估一個完全不同且效果變差的方法。

下圖 2 中展示了:訓練數(shù)據(jù)集越大,AlphaChip 在新模塊上的布局效果越好。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

AlphaChip 的原論文中也通過下表展示了對 20 個模塊進行預訓練,模型可以掌握更有效的布局策略的效果。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

此外,AlphaChip 的原論文中多次強調預訓練的重要性。例如下圖所示,在開源的 Ariane RISC-V CPU 上,未預訓練的強化學習策略需要 48 小時才能接近預訓練模型 6 小時的效果。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

AlphaChip 在主數(shù)據(jù)表中的實驗結果正是基于 48 小時的預訓練,但 Cheng 等人沒有進行任何預訓練。這意味著強化學習模型從未接觸過芯片,需要從零開始在每個測試案例上學習布局。

這就像對未見過圍棋對局的 AlphaGo,卻得出了 AlphaGo 不擅長下圍棋的結論。

為此,Cheng 等人在論文中指出,谷歌開源的內容不支持復現(xiàn)預訓練。但預訓練僅需運行多個案例的訓練過程,開源的數(shù)據(jù)一直支持預訓練。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

在 Cheng 等人的論文中稱,截至目前,對 AlphaChip《Nature》論文和 CT 框架的數(shù)據(jù)和代碼都未完全公開,因此,評估遇到了阻礙。

用的計算資源少了一個數(shù)量級

強化學習經(jīng)驗收集器比 Nature 論文中少 20 倍 (26 個 VS 512 個),GPU 數(shù)量也少一半 (8 個 VS 16 個)。計算資源變少往往需要更長的訓練時間才能達到相同的效果。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

根據(jù)另一篇復現(xiàn) AlphaChip 的論文《Scalability and Generalization of Circuit Training for Chip Floorplanning》,使用更多 GPU 進行訓練可以加速收斂。

如果 Cheng 等人能夠按照 AlphaChip 原論文中的描述配置實驗,其結果可能會有所改善。

沒有訓練到收斂

眾所周知,沒訓練到收斂會顯著影響模型性能。

從 Cheng 等人的項目網(wǎng)站,可以找到四個模塊的收斂曲線(Ariane-GF12、MemPool-NG45、BlackParrot-GF12 和 MemPool-GF12),但在這些模塊的訓練中均未達到收斂狀態(tài)(他們還沒提供 BlackParrot-NG45 或 Ariane-NG45 的曲線)。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

對于這四個模塊,訓練均在相對較少的步數(shù)下被中斷。

在不具代表性且無法復現(xiàn)的基準上進行評估

Cheng 等人使用的基準 (45nm 和 12nm 的節(jié)點)與 AlphaChip(7nm 以下的節(jié)點)所用的相比,更老更舊,在物理設計上差異顯著。

對于 10nm 的技術節(jié)點,多重圖形化技術容易引發(fā)布線擁塞問題。

因此,對于沒那么先進的技術節(jié)點,可能需要調整 AlphaChip 的獎勵函數(shù)中的相關組件。

AlphaChip 的研究團隊稱:「我們主要為 7nm、5nm 以及更先進的工藝節(jié)點設計,對于前幾代節(jié)點,尚未深入研究。但我們歡迎社區(qū)在這方面的貢獻!」

此外,Cheng 等人未能或不愿提供用于復現(xiàn)其主要數(shù)據(jù)表中結果的綜合網(wǎng)表。

對此,AlphaChip 的研究團隊稱:「Cheng 等人雖說對我們的方法進行了大規(guī)模重現(xiàn),但是不是復現(xiàn)錯了?我們建議直接使用我們的開源代碼!

除了在復現(xiàn)谷歌方法時存在錯誤,Cheng 等人還存在一些其他問題,包括如下:

將 AlphaChip 與閉源商業(yè)自動布局器做對比;

在調整標準單元設計時,對初始布局進行了人為「消融」;

有缺陷的相關性研究;

對谷歌工程師驗證的錯誤聲明。

Cheng 等人聲稱,谷歌的代理成本與最終指標沒有很好的相關性,但他們自己的相關性研究實際上表明,總體代理成本與除標準單元面積之外的所有最終指標之間存在微弱但正相關的相關性。具體如下圖 6 所示。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

最后,谷歌表示 AlphaChip 完全開源,他們開源了一個軟件存儲庫,以完全復現(xiàn)《Nature》論文中描述的方法。RL 方法的每一行都可以免費檢查、執(zhí)行或修改,并且提供源代碼或二進制文件來執(zhí)行所有預處理和后處理步驟。

登上Nature的AI芯片設計屢遭質疑,谷歌發(fā)文反擊,Jeff Dean:質疑者連預訓練都沒做

GitHub 地址:https://github.com/google-research/circuit_training

更多回應細節(jié)請參閱原論文。

贊助本站

相關內容
AiLab云推薦
推薦內容
展開

熱門欄目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯(lián)系我們 | 廣告服務 | 公司動態(tài) | 免責聲明 | 隱私條款 | 工作機會 | 展會港