人民網
人民網>>山東頻道>>長波短訊

浪潮信息彭震:加速智算系統創新,切實解決大模型算力難題

2023年11月07日17:07 | 來源:人民網-山東頻道
小字號

2023年,生成式人工智能的爆發帶來了歷史性產業機遇,正在逐步改造重塑社會、經濟、文化等各個領域。GPT-4、LLaMA2、文心、源等大模型在寫文章、對話、企劃、繪畫、寫代碼等很多領域已經表現出了讓人驚艷的創作能力。未來,AIGC與數字經濟、實體經濟的深度融合,還將創造出更多顛覆性的社會價值、經濟價值。

生成式AI蓬勃發展的背后,算力,尤其是AI算力已經成為驅動大模型進化的核心引擎。計算力就是生產力,智算力就是創新力,已經成為產業共識。大模型時代的算力供給,與雲計算時代的算力供給,存在很大的差異性。大模型訓練是以並行計算技術將多台服務器形成一個算力集群,在一個較長的時間,完成單一且海量的計算任務。這與雲計算,把一台機器拆分成很多容器的需求,存在很大的技術差異。

目前大模型研發已經進入萬卡時代,從事大模型研發的公司和團隊,普遍面臨“買不起、建不了、算不好”的困局。為解決這一困局,需要以算力基建化改善算力供給,促進算力普惠,以算力工程化指導完善算力系統最佳實踐,提升算力效率,以模型訓練工具化手段,降低模型訓練門檻,推動全棧智算系統創新,通過“三化”融合互補,促進產業鏈條各環節協同配合,加速釋放大模型生產力,打造人工智能產業良好發展環境。

算力供給基建化,緩解“買不起”困境

大模型,特別是千億參數級別具備涌現能力和泛化能力的大模型是通用人工智能的核心。但大模型對海量算力資源的消耗,急劇抬高了准入門檻。以ChatGPT的總算力消耗 3640PF-days計算,這對於自建、自研大模型,往往需要少則幾億,多則數十億的IT基礎設施投資,這就導致大模型不僅是一個技術密集型產業,同時也是資金密集型產業,資本的力量在大模型產業發展中扮演越來越重要的角色,高昂的資金門檻使得具備技術能力的初創公司和團隊面臨“買不起”的難題,難以開展創新。

為解決這一困境,除通過政策引導、政策補貼等方式降低企業融資成本外,還應大力發展普適普惠的智算中心,通過算力基建化使得智算力成為城市的公共基礎資源,供用戶按需使用,發揮公共基礎設施的普惠價值。用戶可以選擇自建算力集群,或者是採用智算中心提供的算力服務來完成大模型的開發。

通過大力發展智算中心新基建,中國和美國大模型產業的發展已經呈現出完全不同的發展路徑。在美國,算力的私有化決定了大模型產業技術隻能掌握在少數企業手中,而中國大力推動的算力供給基建化,為大模型創新發展提供了一片沃土,將使得整個產業呈現“百模爭秀”的全新格局。

算力效率工程化,化解大模型算力系統“建不了”難題

即使解決了算力供應的問題,通用大模型開發仍然是一項極其復雜的系統工程,如同F1賽車的調校一樣。F1賽車的性能非常高,但如何調校好這部賽車,讓它在比賽中不僅能跑出最快圈速,而且能確保完賽,對整個車隊的能力要求是非常高的。

大模型訓練需要依靠規模龐大的AI算力系統,在較長時間內完成海量的計算任務,算力效率十分重要。算力效率越高,大模型的訓練耗時越少,就能贏得更多時間窗口,也能降低更多成本。目前,大模型的訓練集群效率普遍較低,像GPT3的集群訓練效率隻有23%,相當於有超過四分之三的算力資源被浪費了。

大模型不應是簡單粗暴的“暴力計算”,算力系統構建也不是算力的簡單堆積,而是一項復雜的系統工程,需要從多個方面進行系統化的設計架構。

一是要解決如何實現算力的高效率,它涉及到系統的底層驅動、系統層優化,與大模型相適配的優化﹔

二是要解決算力系統如何保持線性可擴展,在單機上獲得較高算力效率之后,還需要能讓幾百個服務器節點、幾千塊卡的大規模集群環境的算力系統運行效率,保持相對線性的性能擴展比,這是在整個算力集群系統設計和並行策略設計時,需要考慮的重要因素;

三是算力系統長效穩定訓練問題,大模型的訓練周期長達數周甚至數月,普遍存在硬件故障導致訓練中斷、梯度爆炸等小規模訓練不會遇到的問題,工程實踐方面的缺乏導致企業難以在模型質量上實現快速提升。

因此,化解大模型“建不了”難題,根源在於提升算力效率。但目前業界開源項目主要集中在框架、數據、神經網絡乃至模型等軟件及算法層面,硬件優化的方法由於集群配置的差異,難以復用而普遍處於封閉狀態。這就需要具備大模型實踐的公司將集群優化經驗予以工程化,以硬件開源項目、技術服務等多種方式,幫助更多公司解決算力效率低下的難題。

模型訓練工具化,解決“算不好”難題

系統建成后,大模型在訓練過程中,由於開發鏈條冗長,還面臨“算不好”的挑戰。從PB級數據的爬取、清洗、過濾,到大規模預訓練的算法設計、性能優化和失效管理﹔從指令微調數據集的設計到人類反饋強化學習訓練的優化……大模型訓練不僅依賴高質量數據,同時也要解決算法收斂、斷點續訓、參數優化、模型微調等問題,數據質量、代碼調優、執行效率等關乎訓練質量的因素至關重要。這些問題解決不好,很難產生一個可商用的、高質量的大模型產品。

解決“算不好”難題,根本上要保障大模型訓練的長時、高效、穩定訓練的問題。例如大模型訓練過程的失效故障,大模型訓練會因此中斷,不得不從最新的檢查點重新載入以繼續訓練,這個問題在當前是不可避免的。提高算力系統的可持續性,不僅需要更多機制上的設計,更依賴於大量自動化、智能化的模型工具支撐。模型訓練工具化保障手段,能夠有效降低斷點續訓過程中所耗費的資源,這意味著大大降低訓練成本並提升訓練任務的成功率,會讓更多公司和團隊參與到大模型創新之中。

早在大模型熱潮到來之前,浪潮信息在2021年已經開始研發參數量達到2457億的源1.0,通過親身實踐洞察大模型發展和演進的需求和技術挑戰。目前,浪潮信息已經建立了面向大模型應用場景的整體解決方案,尤其是從當前大模型算力建設、模型開發和應用落地的實際需求出發,開發出全棧全流程的智算軟件棧OGAI,提供完善的工程化、自動化工具軟件堆棧,幫助更多企業順利跨越大模型研發應用門檻,充分釋放大模型創新生產力。

快速進化的人工智能正在呈現越來越強的泛化能力,但技術進步的不可預測性也在隨之增強。為此,我們能夠依賴的隻有不斷的創新,通過政策驅動、應用導向、產業構建等多重手段相結合,不斷夯實大模型基礎能力和原始創新能力,積極適應人工智能的快速迭代與產業變革,切實有效的解決好大模型算力“買不起、建不了、算不好”的難題。(王麗宏)

(責編:劉穎婕、邢曼華)

分享讓更多人看到

返回頂部