AI賦能千行百業(yè),傳統(tǒng)文科也不例外
2023年是人工智能(AI)大模型元年。2024年,AI技術(shù)持續(xù)高速發(fā)展,在腦機(jī)接口、醫(yī)療、自動駕駛、機(jī)器人、量子計(jì)算等領(lǐng)域取得突破性創(chuàng)新。
向外看世界,2024年諾貝爾物理學(xué)獎和化學(xué)獎都授予了AI大咖,其中,化學(xué)獎得主利用阿爾法折疊預(yù)測了2億多個(gè)蛋白質(zhì)的可能結(jié)構(gòu),解決了“太陽底下最難的科學(xué)問題”之一,而且還預(yù)測,10年之內(nèi)AI會協(xié)助人類攻克各種疾病。
向內(nèi)看中國,AI賦能下的科技創(chuàng)新正全面爆發(fā),尤其是DeepSeek的橫空出世,極大地提升了中國科技創(chuàng)新的信心和動力,使得AI完成了一次全民科普。當(dāng)AI重塑千行百業(yè)之時(shí),人文社會科學(xué)自然不能例外。
數(shù)字人文拓展諸多新概念
說到AI,先要提到數(shù)字人文。計(jì)算機(jī)技術(shù)應(yīng)用于人文社科研究,可以追溯到1949年。當(dāng)時(shí),意大利耶穌會神父羅伯特·布薩率團(tuán)隊(duì)用IBM計(jì)算機(jī)花費(fèi)了30年左右,到1980年編成了56卷百科全書式的托馬斯著作索引。20世紀(jì)末,美國的一些研究機(jī)構(gòu)開始使用數(shù)字人文,到2024年《數(shù)字人文指南》一書誕生,這個(gè)名稱正式確定。
目前,國際上的數(shù)字人文機(jī)構(gòu)已有200多家,中國有70多家數(shù)字人文專門研究機(jī)構(gòu),另有30多家高校機(jī)構(gòu)也積極開展數(shù)字人文交叉研究。
從研究角度看,近年來,數(shù)字人文拓展出很多新概念,如數(shù)字文化、數(shù)字史學(xué)、數(shù)字考古學(xué)、計(jì)算哲學(xué)等,此外還包括計(jì)算語言學(xué)和自然語言處理。計(jì)算語言學(xué)和自然語言處理萌芽于1940至1950年代,核心問題是語言的自動理解和生成。基礎(chǔ)研究包括算法框架、知識圖譜;應(yīng)用研究也涵蓋很多種類,其中就包含有古文字信息處理。
谷歌公司2017年推出的Transformer深度學(xué)習(xí)架構(gòu)是算法框架上的突破;2018年推出的預(yù)訓(xùn)練語言模型BERT,在語言理解指標(biāo)上超越人類。另一AI巨頭OpenAI則從2018年起推出GPT系列模型。
在這樣的影響下,中文語言大模型也層出不窮,例如通義千問、文心一言、智譜清言、百川等。同時(shí),在垂類領(lǐng)域,還出現(xiàn)了很多古漢語語言模型、民族語言模型及古籍智能平臺。
技術(shù)影響下的傳統(tǒng)文科
談到數(shù)字人文,也不得不說說AI與人文社科的關(guān)系。
其實(shí),文學(xué)對AI的沖擊更為敏感,文學(xué)家在AI面前越來越顯得無奈。中文逍遙大模型基于創(chuàng)作者的想法靈感,能夠一鍵生成萬字、一張圖寫出一部小說,它能大幅提升創(chuàng)作者的效率,也具備一次讀懂100萬字小說的功能。雖然對文學(xué)創(chuàng)作來說,作者的個(gè)性思維是機(jī)器永遠(yuǎn)無法替代的,但是AI寫作的《機(jī)憶之地》已在第五屆江蘇省青年科普科幻作品大賽評選中獲得二等獎——這是人類作家用3個(gè)小時(shí),與AI平臺前后對話66次、形成4萬多字的稿件后,從中復(fù)制5900多字形成的作品。
再以哲學(xué)為例。中國工程院院士李德毅2023年在《人工智能看哲學(xué)》一文中提出:“人工智能的飛速發(fā)展正深刻地改變著人類的生產(chǎn)方式、生活方式以及思維方式,沒有哪門學(xué)科比人工智能更需要和哲學(xué)打交道?!?024年,日本名古屋大學(xué)團(tuán)隊(duì)利用生成式AI開發(fā)了一款可以與古希臘哲學(xué)家們進(jìn)行對話的系統(tǒng)。
在歷史學(xué)研究中,AI也有廣泛應(yīng)用。比如,通過綜合運(yùn)用數(shù)據(jù)挖掘、指標(biāo)評價(jià)、可視化分析等技術(shù),研究人員可基于歷代《食貨志》文本研究古代中國農(nóng)作物的空間分布與集聚性特征;此外,通過AI制作復(fù)原的數(shù)字人,諸多歷史人物得以“復(fù)活”,從教材中走出來,穿越到現(xiàn)實(shí)之中。
考古學(xué)對科技進(jìn)展最為敏感,有兩個(gè)案例令人印象深刻。其一是地質(zhì)學(xué)家朱利安·湯普森團(tuán)隊(duì)2016年在學(xué)術(shù)期刊《科學(xué)》上發(fā)表的《公元前1920年的洪水爆發(fā)為中國傳說中的大洪水和夏朝的存在提供依據(jù)》。他通過建立黃河流域數(shù)字高程模型,在鄭州至開封段發(fā)現(xiàn)寬達(dá)30公里的古河道遺跡,證明在公元前1920年的前后20年間存在一場持續(xù)20年以上的超級洪災(zāi),這正是大禹治水的現(xiàn)實(shí)背景。它不僅印證了《尚書》中“湯湯洪水方割”的記載,更意外觸發(fā)了關(guān)于大禹治水技術(shù)體系的全球大辯論。另一個(gè)案例是2024年2月,谷歌旗下的DeepMind發(fā)布了一個(gè)根據(jù)互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型——Genie(精靈),可從合成圖像、照片、草圖生成多種動作可控的環(huán)境。2024年底推出的新一代世界模型Genie2,則可根據(jù)一張圖生成可供人類或AI智能體游玩的無限3D世界。這在考古發(fā)掘、歷史場景復(fù)原方面,有極為可觀的應(yīng)用前景。
此外,AI在繪畫、音樂、詩歌、電影、舞蹈、雕塑等藝術(shù)領(lǐng)域也展現(xiàn)出強(qiáng)大能力。2018年,首件AI生成作品《埃德蒙·貝拉米肖像》就被佳士得以43.25萬美元拍出。
AI賦能古文字研究
再看筆者所熟悉的古文字研究領(lǐng)域,雖然我們是傳統(tǒng)得不能再傳統(tǒng)的人文學(xué)科,但近年來同樣可以看到明顯的AI賦能的進(jìn)展。
近幾年,國外在古典文字AI破譯方面有很多新的突破。比如,DeepMind與威尼斯大學(xué)人文系、哈佛大學(xué)希臘研究中心、牛津大學(xué)古典學(xué)院和雅典經(jīng)濟(jì)與商業(yè)大學(xué)信息學(xué)系合作,共同推出名為“伊薩卡(Ithaca)”的深度學(xué)習(xí)模型,并將其用于修復(fù)古希臘受損的石碑銘文。另一個(gè)轟動學(xué)界的案例是,美國21歲的年輕科學(xué)家盧克·法里托將AI與超過陽光亮度數(shù)億倍的X射線結(jié)合,由此成功解讀出意大利赫庫蘭尼姆古城中被火山灰掩埋燒焦的莎草紙卷軸中的第一個(gè)完整單詞“ΟΡΦΥΡΑ□”(意為“紫色”)。隨后,盧克還與其他人合作分析出超過兩千個(gè)字符,并認(rèn)為這些內(nèi)容與伊壁鳩魯哲學(xué)有關(guān)。
這些案例都給古文字研究者帶來啟示。1973年河北省定縣(今定州市)八角廊40號西漢墓中出土的竹簡,由于墓葬被燒,導(dǎo)致竹簡嚴(yán)重碳化、變形。以往,研究者采取的是通過紅外照相和物理拉直的辦法來整理資料并辨別竹簡上的文字?,F(xiàn)在,我們完全可以借用上述案例中辨別莎草紙的方式來提高整理質(zhì)量。
據(jù)筆者所知,目前全國范圍內(nèi),已有十個(gè)院校團(tuán)隊(duì)在從事古文字AI研究與開發(fā)工作,除復(fù)旦大學(xué)、清華大學(xué)、南京大學(xué)、華東師范大學(xué)等學(xué)校外,還包括三家河南的高校,因?yàn)楹幽鲜羌坠俏牡墓枢l(xiāng)。
目前已知現(xiàn)存的甲骨片的總數(shù)大約是有16萬片,這16萬片當(dāng)中有很多都是殘片、碎片。那么,如何把這些碎片拼合到原來牛骨和龜甲上?必須借助于AI。
清華大學(xué)的李霜潔研發(fā)了人工智能文物拼綴系統(tǒng)“知微綴”,其與復(fù)旦大學(xué)教授蔣玉斌、博士生楊熠等人合作,以AI引導(dǎo)人類直覺的交互方式,帶動研究者高效發(fā)現(xiàn)甲骨新綴,目前已發(fā)現(xiàn)超過50組甲骨新綴成果。蔣玉斌承擔(dān)的國家社科基金重大項(xiàng)目“人機(jī)協(xié)同的甲骨分類綴合研究”,目前甲骨綴合成果已超7000組,其中蔣玉斌綴合了500多組,楊熠綴合了400多組,兩人綴合加起來共900多組,占學(xué)術(shù)界綴合總數(shù)的近七分之一。
古文字與AI的結(jié)合還包括圖像校重、古文字單字識別、古文字圖像文字識別、知識圖譜、多模態(tài)數(shù)據(jù)集等。
當(dāng)然,AI與人文學(xué)科的融合,目前尚處于初步階段,AI生成內(nèi)容在可信度、規(guī)范性上距離高質(zhì)量的人文研究、教育和推廣的需求還有很大差距。另一方面,由于人文學(xué)科專業(yè)領(lǐng)域知識庫尚未形成規(guī)模,數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,共享、整合的難度較大。加之跨學(xué)科人才培養(yǎng),更是涉及招生、教學(xué)、就業(yè)以及評價(jià)機(jī)制各方面問題,這也帶來人文研究“AI鴻溝”的凸顯和加劇。
不過,即便如此,我們還是期待更多人文學(xué)者與AI雙向奔赴,共同迎接AI賦能的人文學(xué)科研究的騰飛。
(作者為復(fù)旦大學(xué)文科資深教授,古文字研究中心主任)