TA已推薦 73 款游戲
TA已推薦 10 款游戲
中國工程院院士鄭緯民曾做過這樣的計算,在大模型訓練過程中,70%開銷要花在算力上;推理過程中95%的花費也是在算力上。
“現(xiàn)實的算力是有限的,我們一再反復強調(diào)模算效率,試圖針對當前算力情況闖出一條自己覺得比較好的路子。在固定每個Token算力不變的情況下,通過擴展專家數(shù)量可以獲得更大參數(shù)量的模型,進而獲得更高精度。”吳韶華說。
MoE大模型的盛行,實際上對應的正是模型能力和算力開銷兩大問題的解決。這也是為何眾多大模型廠商如OpenAI、谷歌、Mistral AI、浪潮信息等陸續(xù)基于MoE架構升級自家大模型產(chǎn)品的原因。
鄭緯民表示,現(xiàn)有14個國家掛牌的超算系統(tǒng),每臺機器的建設成本都很高,成本在10億元至20億元,甚至更高。這些超算系統(tǒng)已經(jīng)為中國的國民經(jīng)濟發(fā)展作出巨大貢獻,但有些系統(tǒng)還有空余算力,這些空余算力也可被用來做大模型訓練,且經(jīng)過優(yōu)化甚至可降低大模型訓練成本。
浪潮信息人工智能首席科學家吳韶華在接受中新網(wǎng)記者采訪時說,我們一直在想如何以更低的算力消耗,提高整個大模型的應用效果,能讓企業(yè)、機構以更小的算力代價去獲得更高的模型能力。“這可能是中國發(fā)展自己的AI大模型比較行之有效的路徑?!?/p>
從浪潮信息發(fā)布的“源2.0-M32”開源大模型來看,其基于“源2.0”系列大模型已有工作基礎,創(chuàng)新提出和采用了“基于注意力機制的門控網(wǎng)絡”技術,構建包含32個專家(Expert)的混合專家模型(MoE),并大幅提升了模型算力效率,模型運行時激活參數(shù)為37億,在業(yè)界主流基準評測中性能全面對標700億參數(shù)的LLaMA3開源大模型。
對大模型推理成本的優(yōu)化,可通過很多技術手段實現(xiàn)。首先是模型本身,模型結構、訓練方法都可以持續(xù)改進,包括業(yè)界很關注的MoE(混合專家模型),就是優(yōu)化推理成本很好的解決方案。其次是工程上的優(yōu)化。大模型的調(diào)用量越大,優(yōu)化推理成本的空間也越大。以前的模型都是單機推理,大模型用的是分布式推理。所以如果能把各種各樣底層算力用得更好,推理成本就會大大降低。
365体育亚洲官网有業(yè)界技術團隊測算,若要對一個5000億參數(shù)規(guī)模的單體大模型進行充分訓練,所需算力基礎設施約在10億美元規(guī)模,每年消耗的電費在5.3億元人民幣。無論對于哪個機構、企業(yè),這都是天文數(shù)字和巨大代價,中國也不例外。
他直言,大模型推進速度越來越快,必須強調(diào)模型算力效率?!按蠹铱梢韵胂螅试礁呔鸵馕吨趩挝凰懔ν度胂嗟鹊那闆r下獲得的精度回報越高,它對于訓練和應用都非常有利?!?/p>
他進一步稱,整體來看,盡管當前模型的能力提升非常之快,但之前大家更多關注單個維度問題,即平均精度的提升。但大模型進入快速落地時代,就不得不考慮更多維度的問題,包括模算效率、精度、算力開銷等。
知名科學雜志《Nature》此前發(fā)表了一篇關于大模型未來發(fā)展之路的文章,《In Al, is bigger always better?》(人工智能,越大型越好?)。爭議的出現(xiàn),意味著AI發(fā)展方向出現(xiàn)了分歧。
...TA已推薦 358 款游戲
游戲版本 V3.3.7 | 大小 55.32M |
系統(tǒng)要求 安卓6.8 | 更新時間 2024-09-23 12:59:01 |
語言 中文 | 開發(fā)商 |
適齡范圍 12+ |
修復bug
本公司產(chǎn)品適合10周歲以上玩家使用未成年人家長監(jiān)護
抵制不良游戲 拒絕盜版游戲 注意自我保護 謹防受騙上當
適度游戲益腦 沉迷游戲傷身 合理安排時間 享受健康生活
ICP證:ICP備73779562號-1網(wǎng)站地圖
? 2009 - 2024 http://pbpjfwe.cn All Rights Reserved.
3.13W人評價