評測結果顯示,在中文語境下,國內(nèi)頭部語言模型的綜合表現(xiàn)已接近國際一流水平,但存在能力發(fā)展不均衡的情況。在多模態(tài)理解圖文問答任務上,開閉源模型平分秋色,國產(chǎn)模型表現(xiàn)突出。國產(chǎn)多模態(tài)模型在中文語境下的文生圖能力與國際一流水平差距較小。多模態(tài)模型的文生視頻能力上,對比各家公布的演示視頻長度和質(zhì)量,Sora有明顯優(yōu)勢,其他開放評測的文生視頻模型中,國產(chǎn)模型PixVerse表現(xiàn)優(yōu)異。
北京市海淀區(qū)教師進修學校校長姚守梅解讀大模型K12學科測試結果時指出,在語文、歷史等人文學科的考試中,模型欠缺對文字背后的文化內(nèi)涵以及家國情懷的理解。面對歷史地理綜合題時,模型并不能像人類考生一樣有效識別學科屬性。相較于簡單的英語題,模型反而更擅長復雜的英語題。解理科題目時,模型會出現(xiàn)以超出年級知識范圍外的方法解題的情況。當出現(xiàn)無法理解的考題時,模型依然存在明顯的“幻覺”。
據(jù)介紹,本次用于評測的評測體系依托科技部“人工智能基礎模型支撐平臺與評測技術”和工信部“大模型公共服務平臺”項目,智源研究院與10余家高校和機構聯(lián)合開展大模型評測方法與工具研發(fā)。
JN江南体育APP評測發(fā)現(xiàn),模型在綜合學科能力上與海淀學生平均水平仍有差距,普遍存在文強理弱的情況,并且對圖表的理解能力不足,大模型未來有很大的提升空間。
800.82MB
查看198.89MB
查看60.4MB
查看823.89MB
查看
網(wǎng)友評論更多
52山南e
藍色預警!大降溫強降雪襲陜北!🍥🍦
2024-09-21 20:21:06 推薦
187****2269 回復 184****6805:10年7億美元 棒球手大谷翔平破體育史上最大合同🍧來自那曲
187****2454 回復 184****1684:沖突以來首現(xiàn) 哈馬斯人員赤裸上身繳械投降?🍨來自銀川
157****7753:按最下面的歷史版本🍩🍪來自石嘴山
81吳忠491
越多人打卡越悲涼!絕美“地球之心”面臨沙漠化🍫🍬
2024-09-22 15:32:28 推薦
永久VIP:小孩騎馬戲團老虎背上合影20元一張!回應來了🍭來自中衛(wèi)
158****3407:“急救AED掃碼才能開箱”事件背后:仍需優(yōu)化的設計與規(guī)范🍮來自固原
158****4789 回復 666🍯:來體驗養(yǎng)生機器人“望聞問切”,服貿(mào)會中醫(yī)藥展區(qū)亮相首鋼園🍰來自靈武
49青銅峽rg
高校領導為新生試住“新居”,?彰顯大學溫度 | 新京報快評🍱🍲
2024-09-22 22:13:06 不推薦
呼和浩特vc:信通院何寶宏:生成式AI計算市場規(guī)模將在2026年破百億美元🍳
186****4342 回復 159****7947:國家數(shù)據(jù)局:將城市全域數(shù)字化轉型納入經(jīng)濟社會發(fā)展全局🍴