大數據時代的古籍進化論研討會紀要


三十年來,台灣已有數十所大學院校,研究機構與公共圖書館引進多樣化古籍資料庫提供師生、讀者上線使用。在數位學習與參考資源領域,相較於理工醫農商學科的師生、人文社會科學類的數位應用仍屬應強化及重視的一方。

本研討會希望藉由學術界的菁英講者就『大數據時代的古籍進化論』議題,分享他們寶貴的經驗與建議方向。經過一天五場次演講及綜合討論,包括許多老師、碩博士研究生及圖書館先進,有八十多位來賓來到中央研究院學術活動中心參與本次盛會。

中華文化五千年流傳下來的智慧與結晶大多載記於古籍書堆之中。科技進步,古籍數位化的進程也緊隨而至。國立清華大學為豐富學校人文研究環境,陸續引進逾100億字的各類古籍主題資料庫。中央研究院、台大也是相當具規模的代表,均邁向大數據之林,浩瀚之量。與會講者除了分享使用古籍資料庫的優點外,亦客觀指出需要改善的地方,諸如內容文字的校對(古書繁體字台灣具優勢;大陸使用簡體字,繁體字校對人才相對較缺,遑論日本)、本地版與在線版本的差異(在線版可及時更新)、限制下載頁次的不便(出版方為防止大量下載避免不當應用的辦法)等,但相信一方面科技持續進步,一方面在大家要求觀注下,缺點將逐漸改善減少。

「工欲善其事,必先利其器」,優質資料庫的主要功能是節省研究者的寶貴時間並增進研究內容的深度與廣度。也期望數位人文、跨界研究的學術前景不斷茁壯進步。本場演講讓與會來賓了解研究者如何漫步在數位雲端古籍文本,以更進步的方式協助研究進展,讓大家獲益良多。

 


“隱藏版”的史實: 資料庫的使用與侷限

一襲粉梅色旗袍的衣若蘭老師,在講台前熱情且生動和大家分享長期研究中國婦女史的成果,並將演講主軸放在研究者該如何找出「隱藏版的關鍵字」,讓研究能透過更多細微文獻佐證出其看法獨到之處。

首先以「旌表」單一個關鍵詞破題,秀出在日本線上古籍資源、歷代別集以及中國基本古籍庫等三種資料庫的檢索表現,其中收錄超過一萬種文本的中國基本古籍庫中,即可找出三萬筆相關資料,是其他兩種資源的三倍之多。這樣大量的資料讓研究者能透過瀏覽歸納分析文獻之間的關聯性,或可進一步利用資料庫的多個關鍵字檢索功能,以快速縮小檢索範圍,更精準挑出重點相關資源,來提供研究者更多線索去發掘那些隱藏字句之間的關鍵字。例如從瀏覽檢索結果的例句中,即發現有些文獻採用「旌表其門」或是「昭表其門」來陳述,便挖掘出另一個協尋文獻的重要關鍵字「表其門」。

接著衣老師強調研究者在閱讀主題相關文獻並建構其知識涵養厚度的重要性。「旌表」是古時一種重要揚善立標的制度,研究者應特別選讀官書、地方志等重點相關史料內容,深入了解制度、曾經表揚的事蹟等,才能發現文獻底層的特別關鍵字。在衣老師的分享中,除了需要查看《明會典》與《大清會典事例》等文獻,還要配合地方志與檔案文獻,才能區別出明清旌表婦女的細微差異。明代特別重視婦女貞節,若於喪夫之後潔愛自身者,多年後地方官便會為其請旌;但清代除了婦女的節操之外,又對於婦女的持家、養育孩童等重要家庭貢獻也相當肯定,衣老師發現原本命婦在明代不得受旌,到了清代,母憑子貴,婦女若先節後貴者,可得旌表,進一步確認「賢母」也可應該作為研究清代旌表時的深層「隱藏版關鍵字」。

大量閱讀是研究最重要的一個步驟,然而如何找出相關文獻進而分析探討,則是一門重要學問,衣老師從博士論文主題-列女傳研究開始至今,除了透過數位資源進行文獻檢索之外,多年來更實際到各地搜尋不同史料細細研讀,並建構出對於明清時期關於「節婦烈女」相關的深厚知識根基,本次分享更讓與會來賓了解研究者如何漫步在數位雲端與古籍文本,以更進步的方式協助研究進展,讓大家獲益良多。

 

e 考據與文史研究的新機遇

黃一農教授於十多年前在資料庫日趨普及之際,於古籍研究領域首揭 e 考據時代的來臨,引發海內外漢學界的重視。近年來,除文史哲學界外,包含資訊領域在內的跨學門學者,對大數據或數位人文的討論更是方興未艾。e 考據是以傳統的知識與研究方法做基礎的前提下,輔以對大數據的充分運用,儘可能耙梳材料並深化考據的一個現代化手段。

黃教授的演講以透過追尋古詩中「蜍志」與「呂袋」兩詞的用典為例,示範該如何融通傳統治學方式與數位研究工具,進而歸納出幾種有效且快速的作業程序,以便在面對類似問題時,佐以善用數位版佩文韻府中逾百萬條的詞藻典故找出解方。另外也透過對「李四兄」其人其事的核實,展現了 e 考據在探析古時人際交遊網絡與社會運作方式的特殊威力。

黃教授以自身不斷嘗試的經驗為例,善用資料庫可更有效率地找到解答,但為了避免盲搜,需有充足的知識背景,才能如虎添翼。例如黃教授常用的「中國基本古籍庫」,他推薦除了豐富內容外,也要深入瞭解平台上 + 、 – 及 ? 的操作功能,方能事半功倍。黃教授也分享常使用的谷歌、百度、佩文韻府電子版、搜韻網站,這些都是很實用的網路資源。

e 考據帶給我們很多的反思,老師也提醒新進的研究者,在做 e 考據前,應培養自身的實力、閱讀大量原典文獻,加強對資料力的掌握避免盲搜,也學習如何透過對各資料庫特質的掌握,增加研究效率。 e 考據的主要精神並非只重視搜尋,而是幫助研究學習者直接且迅速的與大量原典對話,善用大數據的優勢充實自我。

最後黃教授告訴我們,目前是做文史研究的黃金時代,不論是大數據或 e 考據都要學習,才能提升研究能量。 e 考據是大數據時代融通數位與傳統的一種新研究方法, e 考據的核心不只是一種以尋找資料為目的的瀏覽檢索,它包含搜尋技巧,但更重視研究思維與學習態度。文史研究在大數據時代缺乏的不是資料而是對資料的敏感度、解析力與整合力。而 e 考據最難的是構思可行性較高之解決問題的邏輯論辯過程,接著透過適當的搜尋工具與方法,從大數據中把原本可能零碎甚至無用的材料,利用專業知識來進行類似古陶器復原的工作。

當新世代的學者在積累到足夠的傳統知識後,以 e 考據之法所能解決的議題將超乎前人的想像。即使至今大數據所提供的學術環境與工具仍較理想有相當距離,但文史領域的學習曲線與方法,以及研究的深度與格局,正遭逢前所未見的機遇與挑戰,而挑在研究者肩膀上的擔子將比上一代更重,也更值得大家去探索與發現!

 

「漢達文庫」之構建與應用

來自香港中文大學「劉殿爵中國古籍研究中心」的王利博士向與會來賓分享,說明了『漢達文庫』的建置起源以及中心宗旨。該中心致力於全面整理中國古代傳世及出土文獻,建立電子資料庫並進行多項研究工作,其中『漢達文庫』是最重要的研究成果。該文庫現今共有七個子庫,分為傳世文獻與出土文獻兩類。傳世類有先秦兩漢、魏晉南北朝、類書、詞彙四個資料庫,出土類有甲骨文、金文、竹簡帛書(分Ⅰ、Ⅱ兩期)三個資料庫。傳世文獻提供典籍版本說明,出土文獻則附有圖文對照,各資料庫均有多種進階檢索功能。

漢達文庫最早是於1988年由香港中文大學劉殿爵教授與陳方正博士創建,隸屬於中國文化研究所研究中心。先後接受「香港資助研究局」多年期及「臺灣蔣經國國際學術交流基金會」專案資助,延聘專家學者分期分年建置各重點古籍文獻之專題資料庫。方便學界們的師生作為學術參考研究,也對外出版發行,台灣亦有學術單位引進使用。是香港學術界自主研發的漢學古籍數字化產品。

此外,王博士本身也很常使用其他的數位資料庫,例如『中國基本古籍庫』,他認為中基庫有某些書目收錄兩個版本的原版影像對照、收書種類豐富的優勢,也建議原廠可以補充一些未收之書、以及未來最好能比照愛如生出品的其他數字庫一樣,做成原文文本和原文影像的同步換頁功能。(編按:關於同步換頁功能,原廠表示明年即將同步)

 

古籍資料庫應用經驗分享

目前在台灣大學中文系博士班研讀的劉俐君小姐,以其求學階段使用經驗分享古籍資料庫之應用以及建議,一開始劉小姐針對古籍資料庫之類型及種類做說明,如建置者分別有(1)政府機關;(2)學校、學術研究機構;(3)商業公司;(4)非盈利組織;(5)個人。提供讀者查詢的方式則有公開取用及商業收費兩種型態。她羅列出古籍資源常見的檢索目的,包含查找地名、人名、職官等訊息;釐清典故;探索字詞涵義的發展與變化;追查原文、引用文獻;確認已蒐集的資料有無遺漏等。除此之外,劉小姐也談到研究者運用資料庫下關鍵詞時遇到空格、斷行,或是正體字、簡體字檢索,都會造成結果筆數及內容上的差異,這些問題都是研究者在使用資料庫時需要特別注意的。

她認真上網統計及條列出台灣各大學院校可供師生使用古籍資料庫之種類及數量,並作分析。劉小姐以『清人仕履』為例,查找出愛如生版『中國譜牒庫』仕譜中,有105種;另日本廠商之古籍資料庫版本中有84種;後者有的,前者資料庫均涵蓋。最後劉小姐亦分享個人使用『中國基本古籍庫』」(以下簡稱『中基庫』)的經驗並提出寶貴的建議,例如中基庫沒有納入序跋、文字複製限制字數、希望有更理想的底本等問題。

「編按:『中基庫』沒有序跋的部分,原出版者已告知將於未來進行改版推出。而文字複製限制字數,出版者表示因某些地區發現有其他廠商,利用各種方法複製或大量下載『中基庫』出版者逐字建置的資料庫文字內容,號稱從網路上取得,再轉製成同質性資料庫販售,使得耗資巨大長期投入之廠商不得不提防。古籍最佳底本也因藏本單位的諸多限制與取得成本而需逐步解決。」

 

城市商號研究的新工具: 廣告資料庫的介紹與應用

中央研究院近代史研究所連玲玲副研究員長期從事婦女史、城市文化史、廣告史等主題之研究,日常工作需要經常使用資料庫,也親自參與近史所所內多個資料庫的建置。在資訊科技持續發展的趨勢下,如何開發數位資源與研究工具,成為各學術研究機構致力長期觀注的重點項目。

連老師分享多年來的資料庫使用經驗,她認為現有文史資料庫建置的進程中仍存在著極大的數位落差,從紙本史料保存到資料數位化的知識載體轉型過程中,一方面仍然還有許多報刊、檔案、照片、影音等史料尚待數位化,這些需耗費龐大的資金與人力的基礎數位化工作仍任重道遠;另一方面,則已有學者開始提倡思考如何以數位研究工具進行人文研究。文史資料與資訊技術的融合是跨科際的體驗,需要不同學科領域學者的共同合作。

連老師以「新都飯店」在早期報紙上的廣告研究為例,使用不同版本的申報資料庫,再以紙本人工比對做比較發現有趣而不同的結果。不同版本資料庫檢索結果數有極大的差異,而直接人工作紙本比對雖然可得到較精確的結果; 但若先從資料庫檢索可以快速獲得一個較小的資料群體,再搭配人工逐筆挑選,証明將會更有效率。

此外,連老師分享了三種各自支援不同研究目的及可能性的資料庫,分別為德國海德堡大學建置的『WOMEN資料庫』;中國南京大學、美國萊斯大學合作的『中國商業廣告資料庫』以及中研院近史所自製的『社會日報廣告資料庫』。她認為市面上諸多資料庫存在著不同目的性,唯有親自瞭解其建置架構,才能找到適合自己研究所需的資料庫。

 


研討會集錦(感謝所有與會來賓)

漢珍公司 羅志承總經理 致詞

衣若蘭副教授 演講場景

04

衣若蘭副教授與黃一農教授

3

與會者與黃一農教授交流

05

與會講者貴賓合影

06

與會講者貴賓合影

07

會場報到

08

會場場景

10

漢珍公司 楊學斌經理 介紹古籍庫

09

綜合座談

(422)