AI模型訓練使用的中文數據 內地多數佔比已超六成

 【新華社北京八月二十一日電】(記者高亢)中文數據在中國國內AI大模型的訓練性能提升方面發揮著重要作用。國家數據局近日發佈的數據顯示,目前中國國內多數AI模型訓練使用的中文數據佔比已經超過百分之六十,有的模型達到百分之八十。中文高質量數據的開發和供給能力持續增強,推動中國人工智能模型性能快速提升。

 國家數據局局長劉烈宏表示,中國人工智能的快速發展,與中國高度重視數據工作是密不可分的。作為人工智能發展的核心要素之一,數據在推動「人工智能+」過程中發揮著關鍵作用,高質量數據集的建設至關重要。

 「在人工智能時代,Token,也就是大家通常所說的詞元,是處理文本的最小數據單元,如同互聯網時代大家所說的『流量』。」劉烈宏介紹,二0二四年初,中國日均Token的消耗量為一千億,到今年六月底,日均Token消耗量已經突破三十萬億,一年半時間增長了三百多倍,反映了中國人工智能應用規模的快速增長。

 據介紹,截至今年六月底,中國已經建設高質量數據集超過三點五萬個,總體量超過了400PB(1PB可存儲約五億張2MB大小的高清照片),400PB的總量相當於中國國家圖書館數字資源總量的一百四十倍左右。◇