日日躁夜夜躁狠狠躁夜夜躁,国产精品亚洲一区二区,国产在线精品欧美日韩电影,8x8×拨牐拨牐永久免费视频

用戶登錄投稿

中國作家協(xié)會主管

“識典古籍”邂逅人工智能 古籍走入“尋常百姓家”
來源:北京日報(bào)  | 李濛  2024年03月15日07:56

應(yīng)該如何閱讀古籍?人們通常認(rèn)為,閱讀古籍要選擇合適的版本,了解歷史背景知識,借助注釋和工具書,對照其他相關(guān)文獻(xiàn),才能更好地體會古籍的獨(dú)特之處。然而,事實(shí)上,“找不到、不會用、讀不懂”是人們閱讀古籍時(shí)面臨的常見情況。

隨著人工智能技術(shù)的發(fā)展,這些問題正在慢慢解決。近日,在字節(jié)跳動研發(fā)的“識典古籍”數(shù)字化平臺上,讀者多了“古籍智能助手”的選項(xiàng)——選中讀不懂的古文原文點(diǎn)擊“問AI”,就可以看到這句話的翻譯,并可以用日常說話的方式,讓智能助手總結(jié)文本內(nèi)容,提出可供參考的研究問題。

可以看到,古籍智能助手降低了古籍的閱讀門檻,讓流傳千百年的寶貴文獻(xiàn)走入尋常百姓家。事實(shí)上,以古籍智能助手為代表的人工智能工具還有更長遠(yuǎn)的價(jià)值——在讓更多讀者親近古籍的同時(shí),為古籍?dāng)?shù)字化工作帶來了機(jī)遇,“我們所處的新時(shí)代,有可能實(shí)現(xiàn)文化典籍永久保護(hù)和傳承?!睒I(yè)內(nèi)人士表示。

識典古籍相關(guān)海報(bào)

讓大模型更會檢索

在字節(jié)跳動看來,古籍智慧助手上線有賴于近年來人工智能技術(shù)的爆發(fā)式發(fā)展。

2022年3月,字節(jié)跳動向北大教育基金會提供捐贈,全面支持“北京大學(xué)-字節(jié)跳動數(shù)字人文開放實(shí)驗(yàn)室”的工作。彼時(shí),字節(jié)跳動計(jì)劃研發(fā)古籍?dāng)?shù)字化平臺,利用智能技術(shù)加速中華古籍資源的數(shù)字化建設(shè),向全社會提供公益化服務(wù)。如今,“識典古籍”數(shù)字化平臺已上線,免費(fèi)開放古籍超過2900部。目前“識典古籍”平臺為方便用戶的檢索和閱讀,已上線了全文和分類檢索、字典、古籍譯文、命名實(shí)體查閱百科等功能。

然而,“識典古籍”數(shù)字化平臺研發(fā)團(tuán)隊(duì)發(fā)現(xiàn),雖然平臺內(nèi)輔助工具繁多,但是用戶的需求依然沒有被精準(zhǔn)滿足——“找不到、不會用”成為用戶使用古籍閱讀工具時(shí)的一大難關(guān)。

“大模型技術(shù)發(fā)展以后,我們開始自然而然地思考,對于用戶來說,利用人工智能,以對答的方式和數(shù)字化平臺進(jìn)行交互,會不會是更好的體驗(yàn)?”“識典古籍”數(shù)字化平臺產(chǎn)品經(jīng)理汪晴表示,“我們希望為研究和檢索古籍提供便利?!?/p>

基于在OCR(文字識別技術(shù))、自然語言處理、知識圖譜等技術(shù)領(lǐng)域的積累,以及互聯(lián)網(wǎng)產(chǎn)品設(shè)計(jì)與研發(fā)優(yōu)勢,研發(fā)團(tuán)隊(duì)很快對古籍智能助手有了初步的設(shè)想:打造一款能夠幫助用戶檢索、閱讀,甚至深入挖掘古籍知識的工具。

然而,古籍智能助手只是一個具有實(shí)驗(yàn)性的新事物,當(dāng)初的期待想要落地還需要長久地摸索。研發(fā)團(tuán)隊(duì)首先想到的是利用大模型為用戶帶來額外的驚喜。于是,經(jīng)過了多輪的磨合和探索,字節(jié)跳動研發(fā)團(tuán)隊(duì)決定將研發(fā)的重點(diǎn)放在檢索增強(qiáng)生成技術(shù)上。

“識典古籍”數(shù)字化平臺產(chǎn)品負(fù)責(zé)人王宇介紹,檢索增強(qiáng)生成技術(shù)是通過檢索不同資料來源,獲得所需上下文,來“增強(qiáng)”大模型生成答案的質(zhì)量。比如從古籍?dāng)?shù)據(jù)庫里檢索古籍資料,讓獲得的上下文更加相關(guān)。在關(guān)鍵詞檢索之外,研發(fā)團(tuán)隊(duì)還開發(fā)了語義檢索,讓智能助手在回答時(shí)能參考到雖然文字不一樣、但含義相關(guān)的相關(guān)古籍段落。

這也讓古籍智能助手和市場中已有的通用大模型形成了差異。“古籍智能助手并不是靠前期訓(xùn)練時(shí)使用的數(shù)據(jù)和知識進(jìn)行解答,而是實(shí)時(shí)調(diào)動較新的專業(yè)數(shù)據(jù)庫,這是通用大模型難以做到的?!蓖羟缯f,“我們希望古籍智能助手是具備專業(yè)度的?!?/p>

增強(qiáng)問答準(zhǔn)確性

古籍智能助手的研發(fā)也并非一帆風(fēng)順。對于字節(jié)跳動研發(fā)團(tuán)隊(duì)來說,最大的難點(diǎn)莫過于大模型會產(chǎn)生錯誤和“幻覺”。

產(chǎn)生“幻覺”幾乎是大語言模型的“通病”。有學(xué)者曾指出,這種“幻覺”是指人工智能會生成貌似合理連貫,但同輸入問題意圖不一致、同世界知識不一致、與現(xiàn)實(shí)或已知數(shù)據(jù)不符合或無法驗(yàn)證的內(nèi)容。

有專家認(rèn)為,從技術(shù)原理上看,人工智能“幻覺”多由于人工智能對知識的記憶不足、理解能力不足、訓(xùn)練方式固有的弊端及模型本身技術(shù)的局限性導(dǎo)致。而現(xiàn)階段,大模型產(chǎn)生錯誤“幻覺”的情況難以完全消除。

然而,在古籍領(lǐng)域,基于文言文可能出現(xiàn)的閱讀障礙,由大模型產(chǎn)生的錯誤和“幻覺”讓用戶更加難以分辨。但是即便如此,字節(jié)跳動研發(fā)團(tuán)隊(duì)依然希望能盡可能減少“幻覺”,并讓用戶在希望追求準(zhǔn)確性的時(shí)候,能夠進(jìn)行查證。

相關(guān)負(fù)責(zé)人表示,為了減少大模型產(chǎn)生的“幻覺”,團(tuán)隊(duì)付出了巨大的努力:一方面,古籍智能助手使用了檢索增強(qiáng)生成技術(shù),這樣就要求大模型根據(jù)從數(shù)據(jù)庫和字典中檢索到的、有一定可靠性的資料作答,在一定程度上限制了大模型產(chǎn)生“幻覺”;另一方面,研發(fā)團(tuán)隊(duì)正在嘗試在生成的答案后附加原文鏈接,這樣對于寫作等場合,用戶就可以方便地去原文查證并且做出自己的判斷。不僅如此,在古籍智能助手的界面,研發(fā)團(tuán)隊(duì)還設(shè)置了“回答由人工智能生成,請注意查證”的提示詞。

“古籍智能助手的作用是提升查閱古籍的效率。它代替不了專業(yè)的學(xué)術(shù)判斷和閱讀積累,但我們希望它能為使用古籍的人節(jié)約時(shí)間、開拓新的思路?!蓖跤畋硎?。

在減少大模型“幻覺”的基礎(chǔ)上,古籍智能助手最終還是上線與用戶見面。在“識典古籍”數(shù)字化平臺,當(dāng)用戶選中古籍中的文字并點(diǎn)擊“問AI”,或者輸入問題時(shí),古籍智能助手首先會對用戶提出的問題進(jìn)行意圖判斷,如果回答這個問題需要利用字典中的條目或者古籍?dāng)?shù)據(jù)庫搜索結(jié)果作為上下文,智能助手會獲取相關(guān)的上下文,然后通過大語言模型綜合總結(jié)并給出回復(fù)。

汪晴稱,古籍智能助手上線幾周后得到了較好的反饋。“很多用戶通過智能助手去理解句子含義,幫助用戶實(shí)現(xiàn)了從‘不懂’到‘懂’的跨越。不僅如此,展示參考引用的功能也受到了用戶的好評。雖然目前古籍智能助手還無法將參考引用完全展示,但依然有用戶表示對發(fā)現(xiàn)之前忽略的知識有幫助。”

讓古老經(jīng)典“活”起來、傳下去

雖然古籍智能助手已經(jīng)上線運(yùn)行,但是研發(fā)團(tuán)隊(duì)并沒有停下探索的腳步。汪晴表示,在功能方面,正在計(jì)劃逐步為古籍助手提供更多的工具,比如是否能從百科資料中檢索答案,是否能和一些更加專業(yè)的數(shù)據(jù)庫進(jìn)行合作。“我們也希望用戶能夠多使用和反饋,為后續(xù)優(yōu)化提供建議,通過實(shí)踐和應(yīng)用來打磨出好的產(chǎn)品?!?/p>

在汪晴看來,這種探索為閱讀古籍的用戶提供了便利,也拉近了公眾和古籍之間的距離,讓經(jīng)典更加觸手可及。“這也是古籍智能助手給‘識典古籍’數(shù)字化平臺帶來的較為突出的價(jià)值。”

業(yè)內(nèi)普遍認(rèn)為,將大模型和人工智能引入古籍保護(hù)領(lǐng)域是時(shí)代帶來的便利。今年全國兩會期間,有委員表示,中國是全球擁有古籍最多的國家,國內(nèi)現(xiàn)存漢文古籍300萬部,散落在海外的古籍超過40萬部,已完成數(shù)字化的古籍7.4萬部。

可以看到,還有大量的古籍被束之高閣。不僅如此,對于古籍來說,修復(fù)的速度遠(yuǎn)遠(yuǎn)趕不上老化的速度,古籍?dāng)?shù)字化迫在眉睫。

對此,王宇認(rèn)為,大規(guī)模解決古籍?dāng)?shù)字化的問題只能等待技術(shù)進(jìn)步,而近十年,大模型和人工智能的飛速發(fā)展剛好為加速實(shí)現(xiàn)全部古籍?dāng)?shù)字化帶來了技術(shù)條件。

“如果現(xiàn)存古籍全部數(shù)字化,那么我國古籍保護(hù)就邁上了一個新臺階,古籍滅失的可能性就大幅降低了。這對于賡續(xù)中華文脈,將是一個了不起的貢獻(xiàn)。”有學(xué)者表示。