(資料圖)
藍鯨教育5月10日訊,日前,中文通用大模型綜合性評測基準 SuperCLUE 正式發(fā)布。該基準測試可通過多個維度,考驗目前市面上主流的中文 GPT 大模型的能力。
利用 SuperCLUE 測試基準,該機構對市面上主流的支持中文的通用大模型進行了評測與排名。結果顯示,GPT-4 排名第一,已經(jīng)非常接近人類的能力。國產(chǎn)大模型中,訊飛科技研發(fā)的星火認知大模型總排名第三,國內(nèi)排名第一。由于大模型不斷迭代,該排行榜會定期更新,并于CLUEbenchmarks官方網(wǎng)站公示。
據(jù)介紹,該基準測試關注的問題包括:中文大模型在不同任務上的表現(xiàn)如何?與國際代表性模型相比,中文大模型的表現(xiàn)達到了何種程度?中文大模型與人類表現(xiàn)相比如何?SuperCLUE 測試基準可以考驗目前市面上主流的中文 GPT 大模型的能力,評測維度涵蓋基礎能力、專業(yè)能力、中文特性。
責任編輯:
關鍵詞: