浪潮信息發布源2.0基礎大模型,千億參數全面開源

11月27日,浪潮信息發布“源2.0”基礎大模型,並宣布全面開源。源2.0基礎大模型包括1026億、518億、21億等三種參數規模的模型,在編程、推理、邏輯等方面展示出了先進的能力。
當前,大模型技術正在推動生成式人工智能產業迅猛發展,而基礎大模型的關鍵能力則是大模型在行業和應用落地能力表現的核心支撐,但基礎大模型的發展也面臨著在算法、數據和算力等方面的諸多挑戰。源2.0基礎大模型則針對性地提出了新的改進方法並獲得了能力的提升。
在算法方面,源2.0提出並採用了一種新型的注意力算法結構:局部注意力過濾增強機制(LFA:Localized Filtering-based Attention)。LFA通過先學習相鄰詞之間的關聯性,然后再計算全局關聯性的方法,能夠更好地學習到自然語言的局部和全局的語言特征,對於自然語言的關聯語義理解更准確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。
在數據方面,源2.0通過使用中英文書籍、百科、論文等高質量中英文資料,降低了互聯網語料內容佔比,結合高效的數據清洗流程,為大模型訓練提供了高質量的專業數據集和邏輯推理數據集。為了獲取中文數學數據,我們清洗了從2018年至今約10PB的互聯網數據,但僅獲取到了約10GB的數學數據,投入巨大,收益較小。為了更高效地獲得相對匱乏的高質量中文數學及代碼數據集,源2.0採用了基於大模型的數據生產及過濾方法,在保証數據的多樣性的同時也在每一個類別上提升數據質量,獲取了一批高質量的數學與代碼預訓練數據。
在算力方面,源2.0採用了非均勻流水並行的方法,綜合運用流水線並行+優化器參數並行+數據並行的策略,讓模型在流水並行各階段的顯存佔用量分布更均衡,避免出現顯存瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對芯片間P2P帶寬的需求,為硬件差異較大訓練環境提供了一種高性能的訓練方法。
源2.0作為千億級基礎大模型,在業界公開的評測上進行了代碼生成、數學問題求解、事實問答方面的能力測試,測試結果顯示,源2.0在多項模型評測中,展示出了較為先進的能力表現。
當前,源2.0採用全面開源策略,全系列模型參數和代碼均可免費下載使用。(王麗宏)
分享讓更多人看到
推薦閱讀
- 充分發揮主流媒體輿論引導作用 為現代化強省建設營造良好氛圍
- 今天(11月6日),山東省委書記林武到中央駐魯新聞單位調研,強調要深入學習貫徹習近平文化思想和習近平總書記關於新聞輿論工作的重要論述,圍繞黨中央決策部署及省委中心工作,充分發揮主流媒體輿論引導作用,全面展示中國式現代化山東實踐,為新時代社會主義現代化強省建設營造良好氛圍。記者節臨近,林武向中央駐魯新聞單位工作人員、向全省新聞工作者表示問候和感謝。…
- 山東省委書記林武:深入學習貫徹習近平文化思想 奮力開創全省宣傳思想文化工作新局面
- 林武在全省宣傳思想文化工作會議上強調 深入學習貫徹習近平文化思想 奮力開創全省宣傳思想文化工作新局面 11月2日至3日,全省宣傳思想文化工作會議在濟南召開。山東省委書記林武在會議上強調,要堅持以習近平新時代中國特色社會主義思想為指導,全面貫徹黨的二十大精神,深入學習貫徹習近平文化思想,落實全國宣傳思想文化工作會議精神,守正創新、真抓實干,更好擔負起新的文化使命,奮力開創全省宣傳思想文化工作新局面,為新時代社會主義現代化強省建設作出新的更大貢獻。…
- 山東省委召開省級黨員領導干部會議
- 今天(11月1日) 下午,省委召開省級黨員領導干部會議,傳達學習習近平總書記在中央金融工作會議上的重要講話和中央金融工作會議精神,研究貫徹落實意見。 省委書記林武主持會議並講話,省委副書記、省長周乃翔,省人大常委會副主任、黨組書記楊東奇和省級黨員領導干部出席。…
- 評論
- 關注