日日躁夜夜躁狠狠躁夜夜躁,国产精品亚洲一区二区,国产在线精品欧美日韩电影,8x8×拨牐拨牐永久免费视频

用戶登錄投稿

中國作家協(xié)會主管

喚醒古籍
來源:北京日報(bào) |  何蕊  2024年12月26日09:17

中華古籍浩如煙海,凝結(jié)著先人智慧,記錄著綿延不絕的中華文明。

隨著歲月流逝,古籍正在慢慢“老去”,蟲蛀、絮化、粘連、缺損、霉蝕……稍不留神,極易受到損害。對珍貴古籍進(jìn)行保護(hù)、修復(fù)和活用,關(guān)乎中華文脈的延續(xù)和傳承。我國從2007年起實(shí)施“中華古籍保護(hù)計(jì)劃”,對全國古籍開展普查、登記入庫,保住了一大批珍貴的古籍。但由于總量多、各地能力參差不齊,古籍保護(hù)依然面臨很大壓力。古籍不能束之高閣,卻又太過嬌貴,很難滿足公眾查閱的需要。隨著科技快速發(fā)展,這些困擾人們已久的難題有了突破性進(jìn)展。

由北京大學(xué)數(shù)字人文研究中心主任、北京大學(xué)人工智能研究院副院長王軍帶領(lǐng)的古籍?dāng)?shù)字化團(tuán)隊(duì)聯(lián)合企業(yè)開發(fā)的“識典古籍”平臺,將古籍從紙頁“搬”到了網(wǎng)頁。目前已經(jīng)匯集1萬多部古籍,面向海內(nèi)外讀者免費(fèi)開放。

在科技的加持下,古籍不再遙遠(yuǎn)。先人智慧與現(xiàn)代科技交融碰撞于泛黃的書頁,一冊冊古書典籍“活”起來。

北京大學(xué)數(shù)字人文研究中心主任王軍

從紙到指端

登錄“識典古籍”平臺,在網(wǎng)頁上點(diǎn)擊“進(jìn)入大典”按鈕,《永樂大典》的前世今生、編纂方法、歷史價值等信息,伴隨著書頁翻開的動畫特效,緩緩地呈現(xiàn)在讀者眼前。

《永樂大典》被譽(yù)為世界有史以來最大的百科全書,匯集了先秦至明初各類典籍。但隨著時間的流逝,典籍幾經(jīng)散佚,副本存世不及原書的4%。對學(xué)者而言,它是學(xué)術(shù)研究的重要資料;對普通讀者來說,很難有機(jī)會閱讀到古籍文本。

如今,《永樂大典》高清影像數(shù)據(jù)庫(第一輯)已經(jīng)在“識典古籍”平臺上線,免費(fèi)向公眾開放。借助現(xiàn)代數(shù)字技術(shù),經(jīng)典古籍濃縮在方寸之間,只需動動手指,塵封已久的歷史畫卷就會徐徐展開,成為觸手可及的文化資源。

一本古籍,是如何從紙頁“搬”到網(wǎng)頁的?

走進(jìn)北京大學(xué)數(shù)字人文研究中心的古籍?dāng)?shù)字化實(shí)驗(yàn)室,王軍師生團(tuán)隊(duì)正在忙碌著——

平臺設(shè)計(jì)者、北京大學(xué)人工智能研究院副研究員楊浩正通過“識典古籍”平臺,在線整理書庫資源。他面前電腦的屏幕左側(cè),顯示的是古籍書頁的高清圖片,右側(cè)為對照文字,“與平臺資源呈現(xiàn)形式相同,古籍的數(shù)字化也分圖像化和文本化兩步走?!彼?xì)細(xì)解讀,古籍影像掃描是古籍?dāng)?shù)字化的基礎(chǔ),但影像無法檢索,只有將圖像轉(zhuǎn)化成可以檢索的文字,才便于研究、閱讀和傳播。

首先就要對古籍進(jìn)行圖像化處理,這一步類似日常工作中的掃描文件,不過為了保護(hù)脆弱的古籍,細(xì)節(jié)需要格外考究。比如,古籍掃描要使用專用的非接觸式掃描儀,通過高像素照相機(jī),在盡量不按壓古籍頁面的前提下拍照;采用的光源也得是防紫外線的LED冷光源,減少對古籍的損害。

緊接著就是文本化階段——對古籍文字、排序、結(jié)構(gòu)等內(nèi)容進(jìn)行精細(xì)化處理,這需要十足的專業(yè)功底。

人才領(lǐng)域有個“1萬小時定律”,說的是要成為某個領(lǐng)域的專家,需要累計(jì)達(dá)到1萬小時的學(xué)習(xí)和實(shí)踐,但是在古文字人才培養(yǎng)領(lǐng)域,這個定律不太靈。“1萬個小時恐怕都培養(yǎng)不出來一個熟手,兩萬個小時也未必能造就一個大師啊?!蓖踯娭毖裕瑩?jù)統(tǒng)計(jì),全國各高校以及社會層面研究古典文獻(xiàn)專業(yè)的學(xué)者,一共也不到1萬人。

王軍給記者算了筆賬:我國現(xiàn)存古籍約有20萬種,從1949年到2019年,共修復(fù)整理出版了近3.8萬種。按照這個速度修復(fù)整理現(xiàn)存的全部古籍,可能需要300多年,“古籍修復(fù)速度趕不上老化速度?!?/p>

僅靠專業(yè)人才一字一句地翻譯、校對,難以完成如此重任。古籍的數(shù)字化亟須一場生產(chǎn)效率的變革。團(tuán)隊(duì)請來了人工智能助手——

楊浩在平臺上演示:他上傳了一頁古籍圖像,由于時間久遠(yuǎn),有些文字已經(jīng)模糊不清。大約10秒后,每個文字周圍都出現(xiàn)了一個不同顏色的小方框,并顯示出系統(tǒng)認(rèn)為“可能的文字”。“黑色代表算法識別的可信度比較高的字,一般不需要人工再去核對;藍(lán)色代表疑難字,需要工作人員重點(diǎn)關(guān)注;粉色方框代表已經(jīng)經(jīng)過人工校對,審核者可以核對是否正確?!睏詈普f。

話音剛落,古籍圖像中的全文清晰呈現(xiàn),句與句之間已經(jīng)加注了標(biāo)點(diǎn),單擊文字即可修改調(diào)整。

“系統(tǒng)內(nèi)剛剛經(jīng)歷了一次飛速的運(yùn)算,主要使用了文字識別、自動標(biāo)點(diǎn)和命名實(shí)體識別等人工智能技術(shù)?!睏詈埔来谓忉?,文字識別技術(shù),是對古籍?dāng)?shù)字圖像中的文字進(jìn)行單個切分,再進(jìn)行文字識別和順序讀出;自動標(biāo)點(diǎn)技術(shù),是通過序列標(biāo)注的方式對古籍進(jìn)行自動斷句,標(biāo)出標(biāo)點(diǎn);命名實(shí)體識別技術(shù),則是通過序列標(biāo)注方法識別出文本中的人名、地名、書名、時間、官職等信息。

僅僅幾秒過后,一個個文字就“飛”出了古籍圖像,變成了可以檢索的文本內(nèi)容。讀者不僅可以了解古籍的前世今生、編纂方法、歷史價值等信息,還可以實(shí)現(xiàn)繁簡體文字隨時切換。此外,閱讀時如果遇到生僻詞句,讀者也可選中文本,點(diǎn)擊“查看引用”,出處清晰可考。

工作人員只需復(fù)查部分結(jié)果,就能進(jìn)一步提升準(zhǔn)確率。

目前,“識典古籍”平臺文字識別的準(zhǔn)確率達(dá)到96%以上,自動句讀的準(zhǔn)確率達(dá)到94%,命名實(shí)體識別在中古史料上的準(zhǔn)確率接近98%。

“識典古籍”平臺已匯集1萬多部古籍

再“聰明”一點(diǎn)

“天將降大任于是人”還是“天將降大任于斯人”?類似的對古文原文的討論,近年來頻頻受到關(guān)注。有網(wǎng)友說,記憶中,語文教材里是“斯人”,卻發(fā)現(xiàn)現(xiàn)在課本改成了“是人”。

到底是“斯人”還是“是人”?可以在“識典古籍”平臺直接搜索查看古籍原文。在平臺首頁搜索框中輸入該句出處《孟子》和相關(guān)字句,系統(tǒng)立即關(guān)聯(lián)出了孟子卷第十二“告子章句下”冊的原文和對應(yīng)書頁圖像,正確答案——“是人”,一目了然。

目前,全國累計(jì)發(fā)布古籍及特藏文獻(xiàn)影像資源已達(dá)13.9萬部(件),其中由國家圖書館建設(shè)的“中華古籍資源庫”是全國古籍資源類型和品種最多、體量最大的綜合性資源共享發(fā)布平臺,發(fā)布的古籍影像資源超過了10.5萬部(件)。

隨著越來越多的古籍收藏單位對外開放古籍?dāng)?shù)字資源,古籍?dāng)?shù)字化不斷提速。

2020年5月,北京大學(xué)數(shù)字人文研究中心成立,計(jì)算機(jī)技術(shù)、歷史、古典文學(xué)、算法開發(fā)等多領(lǐng)域的人才聚集在一起,目標(biāo)只有一個,為古籍保護(hù)和傳承做點(diǎn)力所能及的事情。

2022年4月,中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時代古籍工作的意見》,明確提出“推進(jìn)古籍?dāng)?shù)字化”,強(qiáng)調(diào)“支持古籍?dāng)?shù)字化重點(diǎn)單位做強(qiáng)做優(yōu),加強(qiáng)古籍?dāng)?shù)字化資源管理和開放共享”。

王軍說,重磅文件推出后,團(tuán)隊(duì)建設(shè)“識典古籍”平臺就此提速。

不過,平臺研發(fā)并非一帆風(fēng)順??焖侔l(fā)展的同時,古籍?dāng)?shù)字化還存在薄弱之處,一些“壁壘”亟待打破。

以“搜索”功能為例,一次簡單的搜索動作,背后就有分詞、召回、排序3大步驟。

“讓AI(人工智能)去閱讀古文,需要有足夠多的語料去訓(xùn)練算法?!蓖踯娬f,就像教小孩說話一樣,算法也需要從易到難的成長過程。

對于白話文,團(tuán)隊(duì)可以依據(jù)積累的充足數(shù)據(jù)做分詞模型,然而涉及古文語料的內(nèi)容,所有平臺的數(shù)據(jù)都十分匱乏。最終,大家通過已經(jīng)公開的、少量的古籍分詞語料,利用半監(jiān)督學(xué)習(xí)和預(yù)訓(xùn)練的技術(shù),形成了現(xiàn)在的古籍分詞模型,以提高搜索精確率。

為了幫助讀者讀懂古籍,平臺上線了一個“古籍智能助手”的選項(xiàng)——選中讀不懂的古文原文點(diǎn)擊“問AI”,就可以看到這句話的解釋。讀者還可以和智能助手對話,讓它總結(jié)文本內(nèi)容,提出可供參考的研究問題。

然而,“古籍智能助手”并非一直聰明,有時候可能還會說“胡話”。比如,古籍中常出現(xiàn)的“鹿鳴”一詞,在不同語境中有不同含義,有的就指鹿鳴叫,有的則代表古代宴群臣嘉賓所用的樂歌,還有的借指科舉考試。

“古籍智能助手”偶爾會生成張冠李戴的錯誤結(jié)果。

楊浩解釋,這是人工智能產(chǎn)生的“幻覺”。這個問題幾乎是大語言模型的“通病”。簡單來說,“幻覺”是指人工智能會生成貌似合理連貫,但同輸入問題意圖不一致、同人類知識不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無法驗(yàn)證的內(nèi)容。

“一本正經(jīng)地說胡話?!彼f,在古籍領(lǐng)域,基于文言文本身就可能出現(xiàn)的閱讀障礙,由大模型產(chǎn)生的錯誤和“幻覺”會讓讀者更加難以分辨真假。

為了讓人工智能再“聰明”一點(diǎn),團(tuán)隊(duì)對“古籍智能助手”開展了一系列升級工作。例如,開發(fā)檢索增強(qiáng)生成技術(shù),要求大模型根據(jù)從數(shù)據(jù)庫和字典中檢索到的、有一定可靠性的資料作答,在一定程度上限制了“幻覺”的產(chǎn)生。他們還嘗試在生成的答案后附加原文鏈接,讀者可以方便地去查證原文,并做出自己的判斷。

“‘古籍智能助手’的作用是提升查閱古籍的效率。它代替不了專業(yè)的學(xué)術(shù)判斷和閱讀積累,但我們希望它能為使用古籍的人節(jié)約時間、開拓新的思路?!蓖踯娬f。

在團(tuán)隊(duì)的共同努力下,人工智能正在變得越來越“聰明”,對眉批、行間批注、表格等不規(guī)則的古籍版面,不僅能準(zhǔn)確識別文字,還能通過針對性訓(xùn)練優(yōu)化分區(qū)效果,從而避免出現(xiàn)單字識別正確但閱讀順序顛倒錯亂的情況。

“如果人工智能不介入,完全依靠人力,古籍?dāng)?shù)字化全部完成可能還需要上百年的時間。有了人工智能,完成全部古籍的數(shù)字化也許只要二三十年?!蓖踯娦判氖恪?/p>

“識典古籍”平臺的古籍文字校對頁面

涓流匯江海

集納和展示古籍?dāng)?shù)字版本,并非“識典古籍”平臺的全部功能。團(tuán)隊(duì)師生還有個宏偉的目標(biāo)——在平臺上匯集識別、排序、校對、結(jié)構(gòu)整理、標(biāo)點(diǎn)、實(shí)體識別等功能,實(shí)現(xiàn)古籍整理全流程的智能化處理。

“平臺由兩部分組成,前端是閱讀平臺,后端是古籍整理平臺?!蓖踯姵3_@樣比喻,“就像是餐廳的前廳和后廚。團(tuán)隊(duì)師生作為后廚,整理上線古籍資源,把數(shù)字化資源端上閱讀平臺,與全世界的讀者共享饕餮盛宴?!?/p>

目前,作為“后廚”的古籍整理平臺,已經(jīng)設(shè)定了團(tuán)隊(duì)管理員、書目管理員、審訂員、整理員等各種用戶角色,以推進(jìn)古籍整理項(xiàng)目和數(shù)據(jù)庫建設(shè)。平臺不僅面向?qū)I(yè)人員開放權(quán)限,來自各行各業(yè)的古籍愛好者、歷史研究者也可以化身編校人員,參與古籍整理。

今年7月,北京大學(xué)數(shù)字人文研究中心以“識典古籍”平臺為依托,發(fā)起了“我是校書官”——古籍大眾智能整理計(jì)劃,邀請全國近千所高校的上萬名師生志愿者,在智能手段的輔助下,將傳統(tǒng)古籍加工成易于理解的文本。

這種“眾包模式”,在古籍保護(hù)和整理領(lǐng)域是首次嘗試。王軍說,目的是打造一個集合“古籍圖像上傳—文本校對整理—高質(zhì)量標(biāo)記—文本輸出”功能的全流程系統(tǒng),讓古籍與中華優(yōu)秀傳統(tǒng)文化潛移默化地走入更多人心中。

團(tuán)隊(duì)先將經(jīng)過人工智能處理的古籍文本,通過互聯(lián)網(wǎng)分發(fā)給在線編校人員。志愿者在電腦上對照古籍底本高清圖像逐字逐句審閱,并在古籍整理平臺上修改。管理員借助平臺的版本比對功能審閱修改記錄,判斷是否合格。

一群人,一條心,身體力行讓古典文獻(xiàn)重獲新生。

該中心工作人員傘紅雷一直參與“識典古籍”平臺的建設(shè)工作,在“我是校書官”項(xiàng)目中負(fù)責(zé)古籍選目、課程策劃、審核等工作?!拔覀冎靥暨x了一些海外館藏的珍貴善本,所選古籍內(nèi)容都與大眾生活緊密相關(guān),期待大家能挖掘出古籍與現(xiàn)代生活相契合的內(nèi)涵。”他說,團(tuán)隊(duì)還精心設(shè)計(jì)了古籍通識課程,邀請領(lǐng)域資深學(xué)者擔(dān)任主講嘉賓,廣泛普及古典文獻(xiàn)的基礎(chǔ)專業(yè)知識和古籍智能整理實(shí)操方法。

“我是校書官”項(xiàng)目一經(jīng)啟動,便如同一顆文化磁石,迅速吸引了大批高校師生的踴躍參與?!拔覀?yōu)橹驹刚叽罱艘粋€交流互動的聊天群,隨著參與的人越來越多,又新建了二群、三群……點(diǎn)開群聊,仿佛置身于一場場學(xué)術(shù)研討會中,大家不斷圍繞各種異體字以及古籍內(nèi)容等展開熱烈討論,相互協(xié)作攻克‘認(rèn)字’難關(guān)?!?/p>

年輕人與古老的典籍相遇,激發(fā)出了更多的火花。

志愿者袁玲來自四川師范大學(xué),從老師轉(zhuǎn)發(fā)的活動推送中看到大眾古籍整理計(jì)劃,抱著豐富實(shí)習(xí)實(shí)踐經(jīng)驗(yàn)的心態(tài),加入了參與古籍整理的隊(duì)伍?!拔乙娮C了志愿者從幾百人壯大到幾千人的過程,發(fā)現(xiàn)自己在古典文獻(xiàn)專業(yè)學(xué)習(xí)上并不孤單。大家互相請教、討論古籍整理中的疑難,素未謀面的人在一次次文字的推敲中相互溫暖?!彼f,不同于以往科研中“孤軍奮戰(zhàn)”的體驗(yàn),與這么多對古籍領(lǐng)域感興趣的愛好者相聚,讓她找到了歸屬感。

來自天津師范大學(xué)的志愿者鄧嘉儀是“古籍整理之星”,曾在一個月內(nèi)累計(jì)完成了66項(xiàng)整理任務(wù),成為當(dāng)月完成任務(wù)最多的志愿者。在參與項(xiàng)目的那段日子里,她白天在博物館做志愿者,守護(hù)著陳列在展柜里的古籍,晚上坐在電腦前,在一字一句地識別、校對中,喚醒沉睡的古籍?!爱?dāng)看到我整理的古籍上架,名字被列在古籍整理人的名單里時,我特別有成就感。”

文脈綿延,歷史接續(xù)。項(xiàng)目啟動5個月內(nèi),大家就整理了近2億字、超1500種古籍。

“希望通過‘識典古籍’平臺和‘我是校書官’等活動,推動中華文明傳承發(fā)展,向世界展示和傳播我們的文化之美?!迸R近年末,王軍許下新年愿望:2025年,希望能收集更多古籍、提升整理質(zhì)量,更好守護(hù)古籍這個文明之根。

古籍?dāng)?shù)字化只是開始。

王軍暢想,未來可以利用人工智能進(jìn)行古籍的輯佚、匯編、注解、翻譯、檢索、索引甚至考證和摘要工作。更重要的是,利用人工智能開發(fā)古籍,用古籍蘊(yùn)含的浩瀚素材創(chuàng)作生成內(nèi)容,“我們離這個目標(biāo)越來越近了?!?/p>