數(shù)字時代文學研究的轉型 ——網(wǎng)絡文學研究中的“數(shù)據(jù)”管理
網(wǎng)絡文學始于數(shù)字,風行于數(shù)字,可以說是數(shù)字讓文學在互聯(lián)網(wǎng)世界中穿越飛揚、一路馳騁,同樣也是數(shù)字讓網(wǎng)絡文學成為一種文化工業(yè)。由于數(shù)字的復制性強,也方便存儲,使得網(wǎng)絡文學的數(shù)字化開一代之風——數(shù)字閱讀。我們在看到數(shù)字化具有超越前代的無比優(yōu)越性的同時,往往也容易忽略它的另一面——網(wǎng)絡文學的數(shù)據(jù)容易形成數(shù)字的疊加和交叉,特別是由于信息來源廣泛,不同管理單位在數(shù)據(jù)的管理無法做到統(tǒng)一管理,容易形成數(shù)據(jù)的“壓沉”。如果不重視網(wǎng)絡文學的數(shù)據(jù)管理,那么就很容易造成“壓沉”數(shù)據(jù)的丟失,造成不可挽回的損失。因此,重視網(wǎng)絡文學的“數(shù)據(jù)”管理,既體現(xiàn)數(shù)字時代文學研究的轉型,也是尊重媒介文化特征和客觀規(guī)律的科學實證手段之一。
“數(shù)據(jù)”采集和保存的原則
網(wǎng)絡文學的“數(shù)據(jù)”采集和保存不但能夠獲取到第一手的原始資料,還能夠有效防止冗余和龐雜資料的不良誤導,因此重視“數(shù)據(jù)”的保存顯得尤為重要?!皵?shù)據(jù)”保存應遵循以下原則:
—是區(qū)分有限權限和無限權限。網(wǎng)絡文學數(shù)據(jù)除了各大平臺的內部系統(tǒng)之外,還有外部的公共空間。雖然平臺的內部系統(tǒng)因為受到版權的規(guī)約,但有一些評論區(qū)的“副文本”和大眾評論散落在互聯(lián)網(wǎng)的縫隙中。研究者可以將這些散落的資料進行歸納,按照專題的方式進行整理、儲存。并將相關IP地址截圖或復制下來,以便后期的查詢和校對。在引用時一定要把相關IP地址作為參考文獻或者注釋標注出來,否則就會形成一定的侵權行為。
二是能夠對數(shù)據(jù)進行確權甄別。由于網(wǎng)民的知識產(chǎn)權意識薄弱,在評論區(qū)有很多評論是復制或者摘抄他人的信息,如果不加甄別,研究者直接引用,就容易出現(xiàn)混亂,由于誤用信息,產(chǎn)生不自覺的侵權行為。很多抄襲和洗稿往往就是采用這種所謂的博采眾長的手段來實施的。因此,這也是對原創(chuàng)作者知識產(chǎn)權保護的重要保證。
三是杜絕碎片化信息的干擾?;ヂ?lián)網(wǎng)相對自由的空間,信息與知識的界限有時分得不是太細,很多信息是以口水式或是碎片化形式存在的。研究者一方面需要甄別來源,同時形成信息渠道的可追溯性。最主要的是要能分辨出在何種語境中出現(xiàn)的信息。其次要能對同類信息進行對比,獨立思考,這樣對其價值進行綜合評估。只有這樣才能去偽存真,披沙瀝金,尋求到有價值的文獻資源。
四是及時糾錯,動態(tài)管理。網(wǎng)絡文學的“數(shù)據(jù)”由于來源多,復制性強。同一信源由于不同層次的使用者的多次騰挪,“數(shù)據(jù)”的真實性和原創(chuàng)性都難以保證。因此,需要及時與信源比對,還需要與原創(chuàng)作者進行核對。筆者在研究網(wǎng)絡歷史類型小說時,采信了互聯(lián)網(wǎng)上《明》(酒徒著)的創(chuàng)作時間是2004年,后經(jīng)作者本人提供的確鑿證據(jù)證實2004年是錯的,實際時間創(chuàng)作于2003年。因此,互聯(lián)網(wǎng)信息的誤差確實比較大,而且如果聯(lián)系不到作者或者當事人,有些信息的準確性就很難保證,這是互聯(lián)網(wǎng)信息的一個弊端。
五是多方比較,采集范圍擴大。由于互聯(lián)網(wǎng)上的“數(shù)據(jù)”既龐雜也無序,有時就是一個帖子,連作者都無從知曉。需要充分利用互聯(lián)網(wǎng)搜索引擎的作用,同時與傳統(tǒng)出版物、其他數(shù)據(jù)庫進行比對,確保信息的一致性和準確性,能夠明確“數(shù)據(jù)”的真實性以及來源渠道的合法性。
只有采集到真實、有效的數(shù)據(jù)才能稱得上是有價值的信息,并且還要啟動對“數(shù)據(jù)”的真實性的管理。以確保數(shù)據(jù)的純粹性和對原創(chuàng)作者的知識產(chǎn)權的保護。
“數(shù)據(jù)”保存及使用方法
網(wǎng)絡文學研究中的“數(shù)據(jù)”起到重要的佐證作用。因為互聯(lián)網(wǎng)作為一種實踐科學,遵循科學實證主義的哲學原理。因此,“數(shù)據(jù)”能夠起到客觀的證實作用。當然也有人會對“數(shù)據(jù)”的真實性提出質疑,因此,“數(shù)據(jù)”的來源以及保存就顯得特別重要。
一是采取截屏的方式保留信息。由于互聯(lián)網(wǎng)信息承載量大,大量信息的疊加使得信息層級頻次加大,信息的檢索成本大;其次互聯(lián)網(wǎng)系統(tǒng)的不穩(wěn)定性會使得“數(shù)據(jù)”有丟失的可能性,每一次系統(tǒng)更新都有可能使得信息出現(xiàn)丟失的可能,尤其對于人文社科“數(shù)據(jù)”而言,極易混同于一般性信息,其重要性未必獲得必要的重視;再次互聯(lián)網(wǎng)“數(shù)據(jù)”受外界的干擾大,“數(shù)據(jù)”與一般信息在監(jiān)管時受到同等的物理技術環(huán)境影響,客觀上也會作為普通信息被“格式化”掉,因此,對于有價值的“數(shù)據(jù)”必須提前備份或者截屏保存。
二是將中國知網(wǎng)、萬方數(shù)據(jù)、超星、維普等數(shù)據(jù)庫內容進行定期采擷比對,綜合運用。這些知名的知識型數(shù)據(jù)庫首先經(jīng)過了編輯的篩選,其次也經(jīng)過了使用并正在使用中,有具體的下載量,也起到使用市場頻次的檢驗。筆者在使用中國知網(wǎng)數(shù)據(jù)時發(fā)現(xiàn),因為有重名以及部分期刊和報紙沒有進入中國知網(wǎng)系統(tǒng),有些信息無法進入互聯(lián)網(wǎng)的知識系統(tǒng)的檢索,因此,需要擴大搜索的半徑,同時結合百度、360、搜狗等門戶網(wǎng)站的搜索引擎,綜合比對和運用,確保數(shù)據(jù)的全面和完整。
三是同一渠道的數(shù)據(jù)庫,檢索有年限的要求。比如某家大報,如果檢索近兩年的報紙可以在線上看到,但是兩年以上的內容就無法檢索。因此,研究者需要有意識定期去下載相關內容,個人及時做備份保存。
四是充分使用“數(shù)據(jù)”資源,因為使用本身就是保存。只有通過不斷的使用,提高“數(shù)據(jù)”的曝光度,讓“數(shù)據(jù)”參與經(jīng)驗世界的建構,在建構的過程中檢驗“數(shù)據(jù)”的有效性和準確率。同時,也才有可能不斷校正其中有可能出現(xiàn)的錯誤,降低錯誤率,否則相互引用,以訛傳訛。在使用過程中,盡量采用第一資料,迫不得已采用“數(shù)據(jù)”二手資料,須注明來源、出處,并提供精確的IP地址。筆者在使用“數(shù)據(jù)”時撰寫研究論文第一稿時互聯(lián)網(wǎng)上可以采集到相關信息,等到第二稿修改時,第一稿的IP地址的信息已經(jīng)無法查到。此時只能忍痛割愛刪除第一稿相關內容。
互聯(lián)網(wǎng)界面上的“數(shù)據(jù)”可取舍性強,復制和刪除都很方便。這種特點帶來了互聯(lián)網(wǎng)“數(shù)據(jù)”的脆弱性和不安全性。需要對互聯(lián)網(wǎng)“數(shù)據(jù)”進行強化和“加密”措施。在充分利用數(shù)據(jù)庫和搜索引擎的同時,可以結合私人的數(shù)據(jù)收藏手段作為輔助。
建立網(wǎng)絡文學研究專業(yè)“數(shù)據(jù)庫”
網(wǎng)絡文學研究除了作家作品之外,網(wǎng)民評論的大量“副文本”、媒體批評、各類機構的研究數(shù)據(jù)、行業(yè)信息、國家職能部門的管理政策以及社會的反饋等等均構成了網(wǎng)絡文學研究的“數(shù)據(jù)庫”。因此,網(wǎng)絡文學研究遠遠超出了傳統(tǒng)文學研究的范疇和理論邊界。需要重視對網(wǎng)絡文學研究“數(shù)據(jù)庫”的建設。
一是在《中國網(wǎng)絡文學年鑒》的基礎上,建立《中國網(wǎng)絡文學年鑒》數(shù)字版,便于檢索和使用。并將其中相關內容授權相關數(shù)據(jù)庫或者單獨運營,作為中國網(wǎng)絡文學專業(yè)數(shù)據(jù)庫進入全國各大圖書館系統(tǒng)。
二是加強非學術類網(wǎng)絡文學數(shù)據(jù)庫建設,與學術類的數(shù)據(jù)庫不同的是,非學術類的數(shù)據(jù)庫主要針對互聯(lián)網(wǎng)界面中網(wǎng)絡文學的社會化田野采集方式,通過建立一種采集標準,通過建模的方式,鎖定相關信息,進行數(shù)據(jù)下載保存。
三是打破機構之間的區(qū)隔,建立網(wǎng)絡文學數(shù)據(jù)的共享。在監(jiān)管層,各種數(shù)據(jù)的保密之外,有一些公共信息可以對相關高校和研究機構開放。在各大平臺可將資源數(shù)據(jù)及時推送到專業(yè)數(shù)據(jù)庫,形成一個共建的系統(tǒng)平臺。例如中國作家網(wǎng)目前的數(shù)據(jù)庫建設相對完善,無差別地采集網(wǎng)絡文學專業(yè)咨詢和學術成果,未來可以與各省網(wǎng)絡作協(xié)建立共建共享機制。
四是平臺信息共建共享相對滯后。由于平臺信息涉及到各自的商業(yè)利益,因此,網(wǎng)絡文學網(wǎng)站共建資源平臺需要強化,建設一個共建共享的資源平臺有利于網(wǎng)絡文學的發(fā)展。
五是研究機構之間的信息互換與交流機制還沒有形成。之所以出現(xiàn)網(wǎng)絡文學數(shù)據(jù)出入大,引發(fā)社會對機構的數(shù)據(jù)真實性的懷疑,某種意義上來自各機構的信息不通暢,機構自話自語,機構與機構之間沒有形成一定的交流機制,因此,數(shù)據(jù)的差異顯露出行業(yè)發(fā)展的透明度差。不準確的數(shù)據(jù)有可能誤導監(jiān)管層和行業(yè)的決策。
六是圖書館系統(tǒng)對網(wǎng)絡文學行業(yè)標準沒有建立起來。筆者在安徽大學圖書館系統(tǒng)檢索就有過一次遭遇,圖書館系統(tǒng)中居然將流行讀物誤收入網(wǎng)絡文學關鍵詞搜索系統(tǒng)內。這種錯誤的出現(xiàn),表面上是圖書館搜索編碼出了差錯,其實質是網(wǎng)絡文學編碼數(shù)字系統(tǒng)的不完善。
網(wǎng)絡文學研究專業(yè)“數(shù)據(jù)庫”可以由專業(yè)團隊建設,也可由相關高校與機構聯(lián)合組建,實行共建共享機制。同時,將作家作品進行授權,以第三方的形式付費使用或者采用公益性質的專供研究之用。
目前,作家作品在檢索之后都需要通過平臺的授權,否則容易產(chǎn)生版權糾紛。因此,建立作家作品研究的專業(yè)數(shù)據(jù)庫,也是提高研究質量、保護知識產(chǎn)權的重要舉措。
總之,我們注重網(wǎng)絡文學數(shù)字化形態(tài)的便捷性和及時性的同時,萬萬不可忽略網(wǎng)絡文學“數(shù)據(jù)”的脆弱性和欠安全性。因此,加強網(wǎng)絡文學數(shù)據(jù)管理和保存顯得尤為重要。在想方設法確保數(shù)據(jù)的準確性的同時,還要對網(wǎng)絡文學數(shù)據(jù)進行安全保護。加快網(wǎng)絡文學研究的專業(yè)數(shù)據(jù)庫建設,需要研究機構與高校以及相關平臺多方聯(lián)合,實行共建共享的原則,切實落實數(shù)據(jù)庫的建設工作,使得版權保護與研究質量提升的雙維目標得以實現(xiàn)。實行在使用中提高保護意識,在強化安全性的基礎上提高數(shù)據(jù)使用的質量和頻次,在運用中提高數(shù)據(jù)的準確率。讓數(shù)據(jù)為網(wǎng)絡文學研究真正起到助力作用。