華僑報

AI模型訓練使用的中文數據內地多數佔比已超六成

2025-08-22 03:30:00

　【新華社北京八月二十一日電】（記者高亢）中文數據在中國國內AI大模型的訓練性能提升方面發揮著重要作用。國家數據局近日發佈的數據顯示，目前中國國內多數AI模型訓練使用的中文數據佔比已經超過百分之六十，有的模型達到百分之八十。中文高質量數據的開發和供給能力持續增強，推動中國人工智能模型性能快速提升。

　國家數據局局長劉烈宏表示，中國人工智能的快速發展，與中國高度重視數據工作是密不可分的。作為人工智能發展的核心要素之一，數據在推動「人工智能+」過程中發揮著關鍵作用，高質量數據集的建設至關重要。

　「在人工智能時代，Token，也就是大家通常所說的詞元，是處理文本的最小數據單元，如同互聯網時代大家所說的『流量』。」劉烈宏介紹，二０二四年初，中國日均Token的消耗量為一千億，到今年六月底，日均Token消耗量已經突破三十萬億，一年半時間增長了三百多倍，反映了中國人工智能應用規模的快速增長。

　據介紹，截至今年六月底，中國已經建設高質量數據集超過三點五萬個，總體量超過了400PB（1PB可存儲約五億張2MB大小的高清照片），400PB的總量相當於中國國家圖書館數字資源總量的一百四十倍左右。◇