人工智能助力《儒藏》數(shù)字化整理
動動鼠標(biāo),即可隨時瀏覽查閱古代儒家思想的“大百科全書”。新中國成立以來最大規(guī)模的儒學(xué)典籍整理項目《儒藏》近日啟動數(shù)字化。北京大學(xué)表示,《儒藏》“精華編”編纂工作已收官,在全本編纂工作開展同時,專業(yè)人員將利用人工智能技術(shù),通過“識典古籍”智能整理平臺,開展古籍?dāng)?shù)字化整理工作。目前,《永樂大典》等超1萬部古籍已在平臺上線。
因為人工智能的加入,此次古籍?dāng)?shù)字化的速度將提升。整理者把相關(guān)文獻的影像上傳至平臺,人工智能會先進行初步整理,標(biāo)注出不確定的部分,專業(yè)人員再進行校對。北京大學(xué)數(shù)字人文研究中心副主任楊浩說:“專家不再需要花費大量時間用于機械枯燥的校勘異同,更多的精力可以集中在關(guān)鍵環(huán)節(jié)上,比如對重點或存在爭議的標(biāo)點、詞句等做出更有深度的學(xué)術(shù)判斷?!?/p>
“識典古籍”平臺還開發(fā)了協(xié)作整理功能,支持以團隊的形式開展工作,節(jié)省了溝通成本。目前,該平臺部分功能已開放,《永樂大典》等超1萬部古籍上線,提供圖文對照、分詞檢索、實體百科等服務(wù)。
根據(jù)規(guī)劃,《儒藏》工程先編“精華編”,再編全本?!熬A編”收錄了中、日、韓、越四國歷史上最具影響力和代表性的儒學(xué)文獻,有將近半數(shù)是首次校點整理,填補了學(xué)術(shù)空白。為確保整理文本的可靠性,專家廣泛參考各種古籍目錄,走訪各大圖書館搜集海內(nèi)外館藏善本,于2022年整理完成并出版了《儒藏》“精華編”中國部分510種、282冊,總字數(shù)近2億字。《儒藏》全本編纂工作已啟動。包括“精華編”在內(nèi),中國部分計劃收書3000余種,約10億字,將基本囊括我國歷史上有價值的儒學(xué)文獻。
“識典古籍”平臺是北大于2022年牽頭推出的古籍?dāng)?shù)字化平臺,已具備版式識別、自動標(biāo)點、結(jié)構(gòu)整理、??钡壬婕肮偶淼娜鞒坦δ埽苤<液蜋C構(gòu)提高古籍整理效率。