數(shù)字中文建設在行動
為落實《教育強國建設規(guī)劃綱要(2024—2035年)》,教育部、國家語委、中央網(wǎng)信辦近日共同印發(fā)《關于加強數(shù)字中文建設 推進語言文字信息化發(fā)展的意見》(以下簡稱《意見》),部署應用關鍵新技術,構建資源數(shù)據(jù)新體系,實施賦能全局新行動,全力服務教育強國、科技強國和文化強國建設。
3月31日,教育部召開新聞發(fā)布會,介紹推進語言文字信息化發(fā)展情況。
明確兩步發(fā)展階段
《意見》提出,加強數(shù)字中文建設的理念、政策、行動和項目,將數(shù)字中文建設作為服務數(shù)字中國建設的重要任務和全面推進語言文字信息化發(fā)展的突出重點,全方位釋放語言文字在經(jīng)濟社會發(fā)展中的數(shù)據(jù)要素價值,著力推進中文數(shù)字化與數(shù)據(jù)中文化,著力推進創(chuàng)新應用與規(guī)范安全,著力推進新型中文服務體系構建與語言文字治理體系完善。
《意見》明確兩步發(fā)展階段:第一步到2027年,是以數(shù)字中文建設為重點的強基示范階段,形成語言文字信息化推進機制,推動語言文字信息化規(guī)范標準、前沿語言技術、優(yōu)質語言資源、新型語言服務等基礎支撐能力顯著增強;第二步面向2035年,是全面推進語言文字信息化發(fā)展的深化賦能階段,推動承載中華文化的中文在全球數(shù)字空間、網(wǎng)絡空間以及生成式人工智能等關鍵場景中的使用占比和價值引領作用顯著提高,實現(xiàn)我國語言文字信息化整體水平位居世界前列。
教育部語言文字信息管理司司長劉培俊介紹,重點加強數(shù)字中文建設主要有以下考慮:一是中文使命任務重大——今后一個時期,中文服務數(shù)字中國建設,加大國家通用語言文字推廣力度,深化中華優(yōu)秀語言文化傳承,增進語言文明國際交流互鑒等多項重大任務,更加需要中文數(shù)字化賦能。二是中文文化內涵豐富——中文承載著中華民族數(shù)千年的文明智慧,是中國貢獻給世界的重要公共文化產(chǎn)品,更加需要中文數(shù)字化傳播。三是中文使用范圍廣泛——中文是世界上使用人數(shù)最多的語言,是聯(lián)合國六種工作語言之一,190多個國家和地區(qū)開展中文教學,85個國家將中文納入國家的教育體系,更加需要中文數(shù)字化學習。四是中文數(shù)據(jù)價值突出——大規(guī)模、高質量的中文數(shù)據(jù)有利于推動中國特色大語言模型創(chuàng)新發(fā)展,更加需要中文數(shù)字化支撐。
從“信息載體”向“生產(chǎn)要素”轉型
當前,大語言模型技術對大規(guī)模高質量語料提出前所未有的需求,賦予了數(shù)據(jù)中文化新的歷史內涵和使命任務。北京大學王選計算機研究所所長湯幟認為,加強數(shù)字中文建設將從三個維度推動中文信息處理技術發(fā)展進入新階段。
一是從重要資源轉化為數(shù)據(jù)要素價值。語言文字將從“靜態(tài)符號”向“動態(tài)數(shù)字資產(chǎn)”、從“信息載體”向“生產(chǎn)要素”轉型,要重點推動語料庫、數(shù)據(jù)標注與評價等標準的研制,支持文本生成與理解、語言翻譯、情感分析等。
二是從廣泛存在聚焦到關鍵領域應用。語言文字“日學而不察、日用而不覺”,廣泛存在于社會生產(chǎn)各個方面。新形勢下,語言文字將實現(xiàn)從符號存儲到智能建模的質變,要聚焦關鍵垂直領域建設語料基礎設施,構建支持大模型訓練的高質量中文數(shù)據(jù)集。
三是從基礎支撐提高到賦能全局發(fā)展。語言文字信息處理技術創(chuàng)新應用正經(jīng)歷從“GB2312字符集”到“萬億參數(shù)大語言模型”的范式變革。語言文字將實現(xiàn)與信息技術的深度融合,要形成“技術突破—場景落地—生態(tài)繁榮”的良性循環(huán),打造數(shù)字化引領品牌,有力服務教育發(fā)展、助力科技創(chuàng)新、賦能文化傳承、推動產(chǎn)業(yè)升級、促進社會進步。
建設高質量的語言文化語料資源
語料庫是加強數(shù)字中文建設、推進語言文字信息化發(fā)展、推動語言文字高質量發(fā)展的基礎支撐,也是經(jīng)濟社會信息化建設、數(shù)字化賦能和智能化發(fā)展的基礎要素。
然而當前,在語言的教育教學和研究領域,雖然有多個語料庫,但很多語料庫還處于單一文本模式和領域應用階段,在建設的理念、技術和方法、規(guī)模,以及數(shù)據(jù)多樣性、時效性尤其是與人工智能相結合的大規(guī)模應用方面還存在不足,難以滿足多元化、動態(tài)化尤其是智能化的語言數(shù)據(jù)需求。
對此,《意見》提出,到2027年初步建成國家關鍵語料庫。劉培俊介紹,啟動實施國家關鍵領域語料庫建設計劃,在關鍵學科、重點行業(yè)、戰(zhàn)略區(qū)域、民生期待和社會急需領域,分批建設規(guī)范、安全、優(yōu)質的國家關鍵語料庫。目前,教育部、國家語委已經(jīng)支持建設了30余項關鍵領域的語料庫。
據(jù)介紹,國家關鍵領域語料庫建設立足人工智能時代大背景,突破傳統(tǒng)語料庫單一文本模式和領域應用壁壘,以大模型訓練及性能評測、智能計算為核心,以新質態(tài)、多模態(tài)、多語言、大規(guī)模、全域性為突出特性,為通用領域和細分領域多場景應用及創(chuàng)新發(fā)展提供規(guī)范、可信、高質量的語言文化語料資源。