一女多男同时进6根同时进行,精品国产黑色丝袜高跟鞋,天堂√在线中文最新版

喚醒古籍

來源：北京日報(bào)　|　何蕊　　2024年12月26日09:17

中華古籍浩如煙海，凝結(jié)著先人智慧，記錄著綿延不絕的中華文明。

隨著歲月流逝，古籍正在慢慢“老去”，蟲蛀、絮化、粘連、缺損、霉蝕……稍不留神，極易受到損害。對珍貴古籍進(jìn)行保護(hù)、修復(fù)和活用，關(guān)乎中華文脈的延續(xù)和傳承。我國從2007年起實(shí)施“中華古籍保護(hù)計(jì)劃”，對全國古籍開展普查、登記入庫，保住了一大批珍貴的古籍。但由于總量多、各地能力參差不齊，古籍保護(hù)依然面臨很大壓力。古籍不能束之高閣，卻又太過嬌貴，很難滿足公眾查閱的需要。隨著科技快速發(fā)展，這些困擾人們已久的難題有了突破性進(jìn)展。

由北京大學(xué)數(shù)字人文研究中心主任、北京大學(xué)人工智能研究院副院長王軍帶領(lǐng)的古籍?dāng)?shù)字化團(tuán)隊(duì)聯(lián)合企業(yè)開發(fā)的“識典古籍”平臺，將古籍從紙頁“搬”到了網(wǎng)頁。目前已經(jīng)匯集1萬多部古籍，面向海內(nèi)外讀者免費(fèi)開放。

在科技的加持下，古籍不再遙遠(yuǎn)。先人智慧與現(xiàn)代科技交融碰撞于泛黃的書頁，一冊冊古書典籍“活”起來。

北京大學(xué)數(shù)字人文研究中心主任王軍

從紙到指端

登錄“識典古籍”平臺，在網(wǎng)頁上點(diǎn)擊“進(jìn)入大典”按鈕，《永樂大典》的前世今生、編纂方法、歷史價值等信息，伴隨著書頁翻開的動畫特效，緩緩地呈現(xiàn)在讀者眼前。

《永樂大典》被譽(yù)為世界有史以來最大的百科全書，匯集了先秦至明初各類典籍。但隨著時間的流逝，典籍幾經(jīng)散佚，副本存世不及原書的4%。對學(xué)者而言，它是學(xué)術(shù)研究的重要資料；對普通讀者來說，很難有機(jī)會閱讀到古籍文本。

如今，《永樂大典》高清影像數(shù)據(jù)庫（第一輯）已經(jīng)在“識典古籍”平臺上線，免費(fèi)向公眾開放。借助現(xiàn)代數(shù)字技術(shù)，經(jīng)典古籍濃縮在方寸之間，只需動動手指，塵封已久的歷史畫卷就會徐徐展開，成為觸手可及的文化資源。

一本古籍，是如何從紙頁“搬”到網(wǎng)頁的？

走進(jìn)北京大學(xué)數(shù)字人文研究中心的古籍?dāng)?shù)字化實(shí)驗(yàn)室，王軍師生團(tuán)隊(duì)正在忙碌著——

平臺設(shè)計(jì)者、北京大學(xué)人工智能研究院副研究員楊浩正通過“識典古籍”平臺，在線整理書庫資源。他面前電腦的屏幕左側(cè)，顯示的是古籍書頁的高清圖片，右側(cè)為對照文字，“與平臺資源呈現(xiàn)形式相同，古籍的數(shù)字化也分圖像化和文本化兩步走?！彼?xì)細(xì)解讀，古籍影像掃描是古籍?dāng)?shù)字化的基礎(chǔ)，但影像無法檢索，只有將圖像轉(zhuǎn)化成可以檢索的文字，才便于研究、閱讀和傳播。

首先就要對古籍進(jìn)行圖像化處理，這一步類似日常工作中的掃描文件，不過為了保護(hù)脆弱的古籍，細(xì)節(jié)需要格外考究。比如，古籍掃描要使用專用的非接觸式掃描儀，通過高像素照相機(jī)，在盡量不按壓古籍頁面的前提下拍照；采用的光源也得是防紫外線的LED冷光源，減少對古籍的損害。

緊接著就是文本化階段——對古籍文字、排序、結(jié)構(gòu)等內(nèi)容進(jìn)行精細(xì)化處理，這需要十足的專業(yè)功底。

人才領(lǐng)域有個“1萬小時定律”，說的是要成為某個領(lǐng)域的專家，需要累計(jì)達(dá)到1萬小時的學(xué)習(xí)和實(shí)踐，但是在古文字人才培養(yǎng)領(lǐng)域，這個定律不太靈。“1萬個小時恐怕都培養(yǎng)不出來一個熟手，兩萬個小時也未必能造就一個大師啊?！蓖踯娭毖裕瑩?jù)統(tǒng)計(jì)，全國各高校以及社會層面研究古典文獻(xiàn)專業(yè)的學(xué)者，一共也不到1萬人。

王軍給記者算了筆賬：我國現(xiàn)存古籍約有20萬種，從1949年到2019年，共修復(fù)整理出版了近3.8萬種。按照這個速度修復(fù)整理現(xiàn)存的全部古籍，可能需要300多年，“古籍修復(fù)速度趕不上老化速度?！?/p>

僅靠專業(yè)人才一字一句地翻譯、校對，難以完成如此重任。古籍的數(shù)字化亟須一場生產(chǎn)效率的變革。團(tuán)隊(duì)請來了人工智能助手——

楊浩在平臺上演示：他上傳了一頁古籍圖像，由于時間久遠(yuǎn)，有些文字已經(jīng)模糊不清。大約10秒后，每個文字周圍都出現(xiàn)了一個不同顏色的小方框，并顯示出系統(tǒng)認(rèn)為“可能的文字”。“黑色代表算法識別的可信度比較高的字，一般不需要人工再去核對；藍(lán)色代表疑難字，需要工作人員重點(diǎn)關(guān)注；粉色方框代表已經(jīng)經(jīng)過人工校對，審核者可以核對是否正確?！睏詈普f。

話音剛落，古籍圖像中的全文清晰呈現(xiàn)，句與句之間已經(jīng)加注了標(biāo)點(diǎn)，單擊文字即可修改調(diào)整。

“系統(tǒng)內(nèi)剛剛經(jīng)歷了一次飛速的運(yùn)算，主要使用了文字識別、自動標(biāo)點(diǎn)和命名實(shí)體識別等人工智能技術(shù)?！睏詈埔来谓忉?，文字識別技術(shù)，是對古籍?dāng)?shù)字圖像中的文字進(jìn)行單個切分，再進(jìn)行文字識別和順序讀出；自動標(biāo)點(diǎn)技術(shù)，是通過序列標(biāo)注的方式對古籍進(jìn)行自動斷句，標(biāo)出標(biāo)點(diǎn)；命名實(shí)體識別技術(shù)，則是通過序列標(biāo)注方法識別出文本中的人名、地名、書名、時間、官職等信息。

僅僅幾秒過后，一個個文字就“飛”出了古籍圖像，變成了可以檢索的文本內(nèi)容。讀者不僅可以了解古籍的前世今生、編纂方法、歷史價值等信息，還可以實(shí)現(xiàn)繁簡體文字隨時切換。此外，閱讀時如果遇到生僻詞句，讀者也可選中文本，點(diǎn)擊“查看引用”，出處清晰可考。

工作人員只需復(fù)查部分結(jié)果，就能進(jìn)一步提升準(zhǔn)確率。

目前，“識典古籍”平臺文字識別的準(zhǔn)確率達(dá)到96%以上，自動句讀的準(zhǔn)確率達(dá)到94%，命名實(shí)體識別在中古史料上的準(zhǔn)確率接近98%。

“識典古籍”平臺已匯集1萬多部古籍

再“聰明”一點(diǎn)

“天將降大任于是人”還是“天將降大任于斯人”？類似的對古文原文的討論，近年來頻頻受到關(guān)注。有網(wǎng)友說，記憶中，語文教材里是“斯人”，卻發(fā)現(xiàn)現(xiàn)在課本改成了“是人”。

到底是“斯人”還是“是人”？可以在“識典古籍”平臺直接搜索查看古籍原文。在平臺首頁搜索框中輸入該句出處《孟子》和相關(guān)字句，系統(tǒng)立即關(guān)聯(lián)出了孟子卷第十二“告子章句下”冊的原文和對應(yīng)書頁圖像，正確答案——“是人”，一目了然。

目前，全國累計(jì)發(fā)布古籍及特藏文獻(xiàn)影像資源已達(dá)13.9萬部（件），其中由國家圖書館建設(shè)的“中華古籍資源庫”是全國古籍資源類型和品種最多、體量最大的綜合性資源共享發(fā)布平臺，發(fā)布的古籍影像資源超過了10.5萬部（件）。

隨著越來越多的古籍收藏單位對外開放古籍?dāng)?shù)字資源，古籍?dāng)?shù)字化不斷提速。

2020年5月，北京大學(xué)數(shù)字人文研究中心成立，計(jì)算機(jī)技術(shù)、歷史、古典文學(xué)、算法開發(fā)等多領(lǐng)域的人才聚集在一起，目標(biāo)只有一個，為古籍保護(hù)和傳承做點(diǎn)力所能及的事情。

2022年4月，中共中央辦公廳、國務(wù)院辦公廳印發(fā)《關(guān)于推進(jìn)新時代古籍工作的意見》，明確提出“推進(jìn)古籍?dāng)?shù)字化”，強(qiáng)調(diào)“支持古籍?dāng)?shù)字化重點(diǎn)單位做強(qiáng)做優(yōu)，加強(qiáng)古籍?dāng)?shù)字化資源管理和開放共享”。

王軍說，重磅文件推出后，團(tuán)隊(duì)建設(shè)“識典古籍”平臺就此提速。

不過，平臺研發(fā)并非一帆風(fēng)順?？焖侔l(fā)展的同時，古籍?dāng)?shù)字化還存在薄弱之處，一些“壁壘”亟待打破。

以“搜索”功能為例，一次簡單的搜索動作，背后就有分詞、召回、排序3大步驟。

“讓AI（人工智能）去閱讀古文，需要有足夠多的語料去訓(xùn)練算法?！蓖踯娬f，就像教小孩說話一樣，算法也需要從易到難的成長過程。

對于白話文，團(tuán)隊(duì)可以依據(jù)積累的充足數(shù)據(jù)做分詞模型，然而涉及古文語料的內(nèi)容，所有平臺的數(shù)據(jù)都十分匱乏。最終，大家通過已經(jīng)公開的、少量的古籍分詞語料，利用半監(jiān)督學(xué)習(xí)和預(yù)訓(xùn)練的技術(shù)，形成了現(xiàn)在的古籍分詞模型，以提高搜索精確率。

為了幫助讀者讀懂古籍，平臺上線了一個“古籍智能助手”的選項(xiàng)——選中讀不懂的古文原文點(diǎn)擊“問AI”，就可以看到這句話的解釋。讀者還可以和智能助手對話，讓它總結(jié)文本內(nèi)容，提出可供參考的研究問題。

然而，“古籍智能助手”并非一直聰明，有時候可能還會說“胡話”。比如，古籍中常出現(xiàn)的“鹿鳴”一詞，在不同語境中有不同含義，有的就指鹿鳴叫，有的則代表古代宴群臣嘉賓所用的樂歌，還有的借指科舉考試。

“古籍智能助手”偶爾會生成張冠李戴的錯誤結(jié)果。

楊浩解釋，這是人工智能產(chǎn)生的“幻覺”。這個問題幾乎是大語言模型的“通病”。簡單來說，“幻覺”是指人工智能會生成貌似合理連貫，但同輸入問題意圖不一致、同人類知識不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無法驗(yàn)證的內(nèi)容。

“一本正經(jīng)地說胡話?！彼f，在古籍領(lǐng)域，基于文言文本身就可能出現(xiàn)的閱讀障礙，由大模型產(chǎn)生的錯誤和“幻覺”會讓讀者更加難以分辨真假。

為了讓人工智能再“聰明”一點(diǎn)，團(tuán)隊(duì)對“古籍智能助手”開展了一系列升級工作。例如，開發(fā)檢索增強(qiáng)生成技術(shù)，要求大模型根據(jù)從數(shù)據(jù)庫和字典中檢索到的、有一定可靠性的資料作答，在一定程度上限制了“幻覺”的產(chǎn)生。他們還嘗試在生成的答案后附加原文鏈接，讀者可以方便地去查證原文，并做出自己的判斷。

“‘古籍智能助手’的作用是提升查閱古籍的效率。它代替不了專業(yè)的學(xué)術(shù)判斷和閱讀積累，但我們希望它能為使用古籍的人節(jié)約時間、開拓新的思路?！蓖踯娬f。

在團(tuán)隊(duì)的共同努力下，人工智能正在變得越來越“聰明”，對眉批、行間批注、表格等不規(guī)則的古籍版面，不僅能準(zhǔn)確識別文字，還能通過針對性訓(xùn)練優(yōu)化分區(qū)效果，從而避免出現(xiàn)單字識別正確但閱讀順序顛倒錯亂的情況。

“如果人工智能不介入，完全依靠人力，古籍?dāng)?shù)字化全部完成可能還需要上百年的時間。有了人工智能，完成全部古籍的數(shù)字化也許只要二三十年?！蓖踯娦判氖恪?/p>

“識典古籍”平臺的古籍文字校對頁面

涓流匯江海

集納和展示古籍?dāng)?shù)字版本，并非“識典古籍”平臺的全部功能。團(tuán)隊(duì)師生還有個宏偉的目標(biāo)——在平臺上匯集識別、排序、校對、結(jié)構(gòu)整理、標(biāo)點(diǎn)、實(shí)體識別等功能，實(shí)現(xiàn)古籍整理全流程的智能化處理。

“平臺由兩部分組成，前端是閱讀平臺，后端是古籍整理平臺?！蓖踯姵３＿@樣比喻，“就像是餐廳的前廳和后廚。團(tuán)隊(duì)師生作為后廚，整理上線古籍資源，把數(shù)字化資源端上閱讀平臺，與全世界的讀者共享饕餮盛宴?！?/p>

目前，作為“后廚”的古籍整理平臺，已經(jīng)設(shè)定了團(tuán)隊(duì)管理員、書目管理員、審訂員、整理員等各種用戶角色，以推進(jìn)古籍整理項(xiàng)目和數(shù)據(jù)庫建設(shè)。平臺不僅面向?qū)I(yè)人員開放權(quán)限，來自各行各業(yè)的古籍愛好者、歷史研究者也可以化身編校人員，參與古籍整理。

今年7月，北京大學(xué)數(shù)字人文研究中心以“識典古籍”平臺為依托，發(fā)起了“我是校書官”——古籍大眾智能整理計(jì)劃，邀請全國近千所高校的上萬名師生志愿者，在智能手段的輔助下，將傳統(tǒng)古籍加工成易于理解的文本。

這種“眾包模式”，在古籍保護(hù)和整理領(lǐng)域是首次嘗試。王軍說，目的是打造一個集合“古籍圖像上傳—文本校對整理—高質(zhì)量標(biāo)記—文本輸出”功能的全流程系統(tǒng)，讓古籍與中華優(yōu)秀傳統(tǒng)文化潛移默化地走入更多人心中。

團(tuán)隊(duì)先將經(jīng)過人工智能處理的古籍文本，通過互聯(lián)網(wǎng)分發(fā)給在線編校人員。志愿者在電腦上對照古籍底本高清圖像逐字逐句審閱，并在古籍整理平臺上修改。管理員借助平臺的版本比對功能審閱修改記錄，判斷是否合格。

一群人，一條心，身體力行讓古典文獻(xiàn)重獲新生。

該中心工作人員傘紅雷一直參與“識典古籍”平臺的建設(shè)工作，在“我是校書官”項(xiàng)目中負(fù)責(zé)古籍選目、課程策劃、審核等工作?！拔覀冎靥暨x了一些海外館藏的珍貴善本，所選古籍內(nèi)容都與大眾生活緊密相關(guān)，期待大家能挖掘出古籍與現(xiàn)代生活相契合的內(nèi)涵。”他說，團(tuán)隊(duì)還精心設(shè)計(jì)了古籍通識課程，邀請領(lǐng)域資深學(xué)者擔(dān)任主講嘉賓，廣泛普及古典文獻(xiàn)的基礎(chǔ)專業(yè)知識和古籍智能整理實(shí)操方法。

“我是校書官”項(xiàng)目一經(jīng)啟動，便如同一顆文化磁石，迅速吸引了大批高校師生的踴躍參與?！拔覀?yōu)橹驹刚叽罱艘粋€交流互動的聊天群，隨著參與的人越來越多，又新建了二群、三群……點(diǎn)開群聊，仿佛置身于一場場學(xué)術(shù)研討會中，大家不斷圍繞各種異體字以及古籍內(nèi)容等展開熱烈討論，相互協(xié)作攻克‘認(rèn)字’難關(guān)?！?/p>

年輕人與古老的典籍相遇，激發(fā)出了更多的火花。

志愿者袁玲來自四川師范大學(xué)，從老師轉(zhuǎn)發(fā)的活動推送中看到大眾古籍整理計(jì)劃，抱著豐富實(shí)習(xí)實(shí)踐經(jīng)驗(yàn)的心態(tài)，加入了參與古籍整理的隊(duì)伍?！拔乙娮C了志愿者從幾百人壯大到幾千人的過程，發(fā)現(xiàn)自己在古典文獻(xiàn)專業(yè)學(xué)習(xí)上并不孤單。大家互相請教、討論古籍整理中的疑難，素未謀面的人在一次次文字的推敲中相互溫暖?！彼f，不同于以往科研中“孤軍奮戰(zhàn)”的體驗(yàn)，與這么多對古籍領(lǐng)域感興趣的愛好者相聚，讓她找到了歸屬感。

來自天津師范大學(xué)的志愿者鄧嘉儀是“古籍整理之星”，曾在一個月內(nèi)累計(jì)完成了66項(xiàng)整理任務(wù)，成為當(dāng)月完成任務(wù)最多的志愿者。在參與項(xiàng)目的那段日子里，她白天在博物館做志愿者，守護(hù)著陳列在展柜里的古籍，晚上坐在電腦前，在一字一句地識別、校對中，喚醒沉睡的古籍?！爱?dāng)看到我整理的古籍上架，名字被列在古籍整理人的名單里時，我特別有成就感。”

文脈綿延，歷史接續(xù)。項(xiàng)目啟動5個月內(nèi)，大家就整理了近2億字、超1500種古籍。

“希望通過‘識典古籍’平臺和‘我是校書官’等活動，推動中華文明傳承發(fā)展，向世界展示和傳播我們的文化之美?！迸R近年末，王軍許下新年愿望：2025年，希望能收集更多古籍、提升整理質(zhì)量，更好守護(hù)古籍這個文明之根。

古籍?dāng)?shù)字化只是開始。

王軍暢想，未來可以利用人工智能進(jìn)行古籍的輯佚、匯編、注解、翻譯、檢索、索引甚至考證和摘要工作。更重要的是，利用人工智能開發(fā)古籍，用古籍蘊(yùn)含的浩瀚素材創(chuàng)作生成內(nèi)容，“我們離這個目標(biāo)越來越近了?！?/p>

日日躁夜夜躁狠狠躁夜夜躁,国产精品亚洲一区二区,国产在线精品欧美日韩电影,8x8×拨牐拨牐永久免费视频

中國作家協(xié)會主管

喚醒古籍