今年(2023年)為DDC第 20 屆年會,由國立陽明交通大學圖書館主辦,並訂會議主題為「創新科技與圖書館應用」,邀請到四位講師:香港中文大學圖書館李智恒 數碼創新主管、國立陽明交通大學資訊工程學系 謝秉均教授、國立陽明交通大學資訊工程學系 顏安孜教授、國立臺灣大學圖書館 劉韻涵館員,探討主題分別為:Building a Culture of Innovation: Nurturing Digital Talent and Collaboration: experience from Digital Initiatives, CUHK library;使用 ChatGPT 提升研究效率;AI 於圖書館之應用;NTU Topics 學術合作探索服務及今年盟主國立陽明交通大學圖書館對於聯盟營運報告暨提案討論,期待能透過本次年會多方面共同研討創新科技與圖書館應用之實務經驗分享。
Building a Culture of Innovation: Nurturing Digital Talent and Collaboration: experience from Digital Initiatives
首場演講非常榮幸能邀請到香港中文大學圖書館數碼創新部 李智恒主管分享「Building a Culture of Innovation: Nurturing Digital Talent and Collaboration: experience from Digital Initiatives」。一開始李先生為我們簡單介紹數位創新團隊的工作,主要是支援數位及數據密集的學術研究。數位學術研究作為跨學科領域,當中參與者包括訊息研究專業,程式及研究學者共同合作解決學術研究問題,以及數位學術服務的數位化與視覺化、文字及網路分析、地理資訊系统(GIS)以及支援數位研究基建等工作。
在發展迅速的數位時代之下,為什麼創新文化至關重要?李先生分享,培養創新能夠開啟新的機會或發現新的見解,解決營運中的複雜挑戰或問題。數位轉型可透過提供必要的技術基礎設備、工具和平台,使創新文化成為可能,讓教職員工能夠進行實驗、協作,並將他們的創新想法付諸實踐,提升營運效率、增強用戶體驗及促進創新是他們數位轉型的關鍵目標。
香港中大亦致力提升及營造正向的工作環境、改善職位發展升遷的制度等吸引和挽留數位人才。由於數位學術領域正經歷顯著的發展趨勢,對數位技術的依賴和創新研究方法的需求與日俱增,因此數位創新團隊會納入研究助理(RA)作為人才,但一般只工作一到兩年就轉職或升學,高流失率亦是對數位創新團隊產生相當的影響,因此我們需擁有多元的學術背景、方能跨學科合作為團隊的專案帶來更多新的idea,不過在現有人才中,對數位技能和學科專業知識的能力仍存在著明顯差距。
數位創新團隊提供同仁持續學習的機會,另外還有培訓計畫、研討會和認證課程,讓同仁瞭解新興技術的最新動態等項目來培養數位人才。接著,李先生簡介了一些近期的專案︰香港早期小報《天文臺》的文本分析與視覺化、基於電腦視覺和機器學習算法的香港早期小報《娛樂之音》圖像數據集分析、博碩士論文庫的主題視覺化、音頻分類項目-學海書樓國學講座錄音資料庫,以及與外部合作夥伴-教育機構、行業組織和初創企業合作的案例︰香港作家及藝術傳記資料庫、中文古籍的文字勘探與處理等。
最後,李先生分享培養創新與合作對圖書館來說相當重要,為了保持其相關性,以滿足使用者不斷變化的需求。擁抱創新、跨學科合作、鼓勵實驗,實現全部潛力,這種文化將使圖書館能夠適應不斷變化的需求,提供創新服務,讓使用者擁有卓越的使用體驗。
林家浩/TBMC紀錄
第二場演講是由國立陽明交通大學資訊工程學系謝秉均助理教授分享的「使用ChatGPT提升研究效率」。因教授主要研究領域是強化學習,也不斷關注相關議題,因此透過本次演講介紹ChatGPT是如何訓練出來的,以及對學者研究過程有何幫助。
首先回顧ChatGPT是何時出現的。由OpenAI提供的ChatGPT於2022年11月30日上線,一週內就超過100萬個用戶。另外ChatGPT的LOGO其實是由迴紋針組成的,這其實是來自AI領域有名的所謂「迴紋針問題」,也說明了AI可能造成的弊端,但其實重點還是要了解ChatGPT是一種怎麼樣的東西,要怎麼樣運用來幫助我們的研究流程。
ChatGPT是一種Large Language Models(LLM),背後是一種神經網路,在2020時年已有1750億個神經元。ChatGPT的核心是Seq2Seq語言模型,這個語言模型的訓練方式為next-word prediction,所以不需要正確答案,也不需要額外標註,也叫做self-supervised learning。或許有些學者會質疑ChatGPT是隨機鸚鵡(Stochastic Parrots),所以下一個問題就是要思考,如何讓ChatGPT表現得很像人類?推導出來的結論就是需要讓ChatGPT理解人類世界普遍的抽象概念,例如何謂funny?何謂safe?何謂love?而接下來的問題就是我們應該如何設計判斷的標準,以及應達成的目標?怎麼樣AI才算是更理解這些抽象概念了?學者採取的做法就是透過大量持續反覆給予二選一,讓LLM能更貼近這些概念,例如何謂愛?何種具體行為更接近愛?
接著提到Reinforcement Learning From Human Feedback(基於人類回饋的強化學習,RLHF),這個流程的重點是設定獎勵與訓練環境,例如我們教AI打電玩,要怎樣讓AI最大化遊戲分數?而如何設定獎勵就是Reinforcement Learning中最有挑戰性的部分,所以ChatGPT進行訓練時背後的獎勵機制也是重點。RLHF最早可以回溯至2008年,透過人類回饋協助文本歸納。ChatGPT背後的RLHF團隊使用Reddit的TLDR summarization資料庫進行文本歸納,他們聘請人力來對TLDR(Too Long Didn’t Read)的歸納做評分。他們希望能藉此訓練出一個Reward Predictor來擬合Human Feedback,不斷去優化神經網路,希望能預測出更加準確的獎勵,以進行ChatGPT的語言學習。上述做法的優點是可讓ChatGPT學習抽象概念,並且可讓ChatGPT更加貼近人類的價值觀(減少alignment issue)。
ChatGPT作為一種大型語言模型,其訓練上的成功是基於人類反饋的強化學習,進行學習其內容context是非常重要的,因為學習結果都是基於這些內容產生的,目前ChatGPT比較常見使用者出現三種質疑:
1. ChatGPT時常會有幻覺(Hallucination)
2. ChatGPT不具有推理能力(absence reasoning)
3.做研究是人類心智的高度創意與冒險,是無法被自動化的
這些問題有部分是目前可以被解決的,例如有幻覺的問題,可以讓LLM系統知道何時、該去哪裡查資料,就能一定程度解決這個問題,但ChatGPT仍有其極限,例如LLM系統無法處理不在訓練資料中的內容,又要如何推理?而平常我們在使用ChatGPT時,則可透過以下方式輸入提示,讓ChatGPT的回答更加貼近我們的需求,具體說來包括以下作法:
1. 盡量具體
2. 化繁為簡(將一個複雜的問題拆解成多個問題)
3. ChatGPT能從「舉例」去理解
4. 從不同角度多問幾次或進一步追問
5. 做適當的事實查核。
接下來謝教授開始分享ChatGPT在研究上適合運用於哪些層面:
一、可使用ChatGPT來發想研究題目。
二、可用ChatGPT寫文獻回顧。可以先設計好搜尋演算法,再來篩選文獻。
三、使用ChatGPT加速paper撰寫。其實目前大部分資工領域的研討會和期刊都禁止使用ChatGPT,只是還處於自由心證的階段,目前仍很難有方法分辨出是否使用了AI,不過使用ChatGPT改寫大都能將文字更改得更加通順、也很適合生成有趣的標題、適合幫忙撰寫摘要,只是很可惜對撰寫主要研究方法等沒有什麼幫助。
四、使用ChatGPT輔助回覆審稿者。謝教授以自己為例,他回覆審稿者時常常會超過篇幅,但除了使用縮寫之外,也可運用ChatGPT協助改寫縮減篇幅。
綜上所述以及現場的提問答覆做出結論,我們可以了解到ChatGPT對圖書館業務可做中介guide、輔助研究任何事情,讓學生快速找到需要的圖書館服務,只要提供詳細的context,再給明確需求、持續追問ChatGPT,便能得到接近我們需求的結果。不過目前尚未對英文以外的語言做優化,因此台灣可在中文這塊做加強,另外,其實OpenAI沒有公開技術細節,所以使用了哪些系統大都是學者拼湊出來的。
楊學斌/TBMC紀錄
第三場為國立陽明交通大學資訊工程學系顏安孜助理教授,以自然語言處理為研究專長,分享大型語言模型在圖書館的應用。首先,老師先向大家說明,神經網路架構的語言模型,語言模型概念就是要機器像人一樣講話,它要做的事情就是看到前面幾個字,就能猜測下一個字是什麼。很久以前,就有人研究用統計的方法做語言模型,當時便蒐集很多所寫句子,例如前面是這二個字的情況下,第三個字會是什麼。後來深度學習的技術與硬體的技術發展後,發現神經網路架構是可行的,再進階發展出神經網路語言模型,神經網路語言模型可以想成是一個黑盒子,給它前一個字,它就會吐出下一個字,接著再預測下一個字,就好像文字接龍,但不能無止盡的生下去,它也必須學會截斷,這就是模擬人講話的方式。
從2019年開始到最近,語言模型如雨後春筍的出現,越到後面的參數量越大,2019年Google就先提出T5的模型,在當時就已經是參數量很大的模型(最大參數量有7.7億),參數量越大越能夠做複雜的事,緊接著技術革新的味道就出來了,接下來,2023年就出現ChatGPT,GPT-3參數量已經提升到1750億,到GPT-3.5,參數量是等量的,有做微調,讓它表現更好,GPT-4能力非常強,現在還無法確定實際的參數量。究竟參數量和模型的表現關係如何?是否能看出新聞標題是人寫的或是機器寫的?(大概50%可以看出)。隨著參數量越增加,越來越難去分辨新聞標題是人寫的還是機械寫的,以前有人研究如何偵測抄襲,但現在很難,甚至連Open AI都下架抄襲檢測工具。
接下來顏老師講到ChatGPT的能力,這些技術如何應用在圖書館上,老師用ChatGPT規劃16週的課程,結果與老師的想法差不多。老師也簡單提到如何使用ChatGPT,只要有google帳號就可以登入使用。接著,老師舉一些很紅的議題做範例,用神鵰俠侶小說內的文字段落做英文翻譯,相較於Google翻譯,ChatGPT能更貼近於原本的意境含意。「摘要生成」,用一篇新聞讓ChatGPT產生摘要,結果做的很好,但是會有延伸一個議題,有些情況ChatGPT會有自己的幻想,產生出來的句子,不在給的資訊當中,幻想出另外一個問題就是會有錯誤的回覆。「問題回答」是日常生活中常見的應用,在ChatGPT使用,可以當成是搜尋的工具,但有時也會有致命的錯誤,有可能是訓練大型語言模型時給了很多網路資訊,而網路上都是假資訊,所以在問答上就必須讓它回答的更精確。
ChatGPT是怎麼變成的?它是學習如何預測下一個字,但要如何把它和問答連結在一起呢?可以用文字接龍的方式延伸到問答,給問題產生下一個字,產生下個字後再接回到前面,但有可能也會有不合理的回答,所以要如何引導ChatGPT產生我們要的輸出,就必須人工的介入,可以蒐集問答,蒐集語言模型產生的結果,挑選這個回答好或不好,這樣我們就會知道哪一個是對的回答或錯的回答,這些資料就可以確定另一個小的老師模型,它會判斷回答對的答案分數是高的,錯誤的分數是低的,有了老師模型之後,就可以跟原本的語言模型互動,我們可以準備很多問題,它就會給出很多答案,再把這些答案給老師模型判斷,它覺得是高分或低分,分數會回饋給語言模型,它就會知道答的好不好,經過這個過程微調後,就可以符合我們要的答案,ChatGPT就是這樣練成的。
接下來,老師分享如何寫一個好的互動句子與ChatGPT聊天,大家常在使用時不知如何寫下需求,這時可以讓它扮演這個角色,還要有明確指令告知要做的事。學者幫它定了一個名字「In-Context Learning」,有時它會不知要做什麼,通常會出現在較複雜情況或很多限制時,它有三個名詞:「Zero-Shot」沒有範例,直接給任務;「One-Shot」提供一個範例;「Few-Shot」提供多個範例,給它範例就是希望學習事情的規則和所要的格式。
有了In-Context Learning再搭配範例,除了玩接龍以外,還可以做情感分析,也可以讓它做文章的類別分析,以前都要準備好幾十萬的訓練資料,今天最多給十個範例就可以做的很好。生成的不一定是文字,也可以是特殊符號。隨著大家現在開始不需要訓練模型,都是用輸入指令的方式,有人提出「Chain of Thought (CoT) Prompting」,研究團隊主要是用在解數學題,可以讓語言模型解決複雜推理問題的能力,最後加上神奇的指令「let’s think step by step」,以條列方式解說其執行步驟。所以很多人在研究,如何讓Prompt更能貼切我們要它做的事情。透過下指令可以產生符合需求的結果,也可以改寫它的口吻,但它也不是很完美,也會有邏輯的錯誤,目前ChatGPT可以搜尋最新網頁資訊,提供最新知識。
之前,有一個熱門研究議題「Retrieval Augmented Generation」(RAG),是一種結合搜尋檢索和生成能力的自然語言處理架構,Retrieval:檢索,Augmented:加強語言模型生成能力,Generation:生成。希望透過檢索外部知識能力,提供給很會講話的語言模型融合,可以產生更準確的回答。它也可以處理本地端問題,避免個人資料外流,這個技術就可以來導入。
「LlamaIndex」是一個大型語言模型的數據框架,可以增強大型語言模型的實用性,提供了數據輸入、索引和檢索工具,也可以結合圖書館的應用,提供使用者檢索資訊。我們也可以將很難讀懂的規章交給語言模型來回答,使用者提供問題後,可以先檢查與哪一個規章相關再做回覆。目前有一問題是大型語言模型一定會想辦法回答問題,既使它不知道也會亂回答,要如何讓它知道,它不知道這件事,也是一種挑戰。老師也分享一個之前做的議題是貢獻的生成,相關研究的文件很多,要如何快速了解研究的主軸,之前做的研究是從內文找出很多不同面向的貢獻,有分析、方法、實驗,根據這幾個面向找出句子產生對應的貢獻,這樣就會讓原本4000-5000字的論文變成200-300字,相較於摘要更直接說明不同面向的貢獻。
最後,顏老師分享如何建立學術文件關聯,學術文件關聯就會有互相引用的關係,這是很明確就可以直接抓出來的,但如果想知道是在哪個面向的引用,就要看Paper之間的引用關係,找出幾個不同面向,有了這些資訊就可以建立模型,這個好處是在原本的引用關係之上知道是什麼類別,也可以結合貢獻的生成,這樣就可以有更細緻的資訊,在檢索Paper時可以告訴我為什麼推薦這篇Paper。
陳世宗/TBMC紀錄
最後一場為國立臺灣大學圖書館劉韻涵館員,分享今年正式上線的學術合作探索服務(以下簡稱NTU Topics)結合書目計量學及社會網路分析等方法,透過引文資料庫取得書目資料後,視覺化呈現老師所關注領域的發展及現況。分析的流程從引文資料庫蒐集到文獻集,再進行資料清理、剖析及權威控制。透過分析工具,如:VOSviewer、Gephi及Tableau Public 呈現書目資料的領域趨勢、關鍵詞、作者、機構與國家之間的關係。基本項目可以從共現詞分析或書目耦合分析觀察文獻的主題關係、主題分群,也能從書目耦合找到相關的重要文獻。合著分析是從引文關係看到作者或機構、國際合作的走向,老師可以從中觀察是否有潛在的合作可能性、競爭團隊的研究走向。
NTU Topics讓使用者可以選擇或篩選作者網路的方式進行作者檢視、主題檢視或單位檢視。介面是由網路圖及主題圖表所構成,每一個節點都代表一位臺大的作者,游標停留在節點上可以看到該作者姓名及所屬單位。兩個節點間的連線代表著作主題關係,表示兩位作者間具有連線、曾發表過相同主題的著作,距離的遠近代表研究主題的相似度,越短表示相似度越高。建置過程為資料蒐集→資料分析→資料視覺化,最後以網站呈現給使用者互動操作。確定資料集之後,必備書目欄位有WoS登錄號、InCites Citation Topics、InCites SDGs Topics,同時也需要作者的基本資訊,如:姓名、學院、系所來呈現作者節點的資料。在主題的相似度計算中,圖書館使用向量空間模型將文獻表達成空間中的向量,作者向量由作者著作的主題之權重組成,權重計算方式為TF*IDF。取得作者向量後,作者間的相似度也就是夾角的餘弦值會落在0-1之間,餘弦值越大代表相似度越高。會採取此模型計算是為了降低作者涉略主題數量多寡,以及主題全球文章量大小造成的偏誤。完成相似度計算後,將數值進行視覺化,透過UCINET使用多元尺度分析方法將相似度轉換為距離,每位作者以節點的方式投射在二維空間之中,再匯出取得每個節點的X、Y軸的位置資料後,匯入GePhi加入關係資料形成相似度網路。
最後,是建置網站所使用的工具Tableau Public,可依照匯入的結構化資料,如:excel等加以計算後,畫出視覺化的圖表。完成多項原始資料表格匯入,並將各個資料表使用相同的欄位串接在一起後,才可以進行計算與篩選。由於每個工作表都只能繪製一張圖,因此要分別繪製作者網路以及各個階層的主題圖表。最後在儀表板中結合所有視覺化圖表,並運用Tableau的選單、參數、點選功能來連動作者網路等,依照篩選、點選結果呈現相對應的圖表內容。
劉小姐表示圖書館的每一種服務目標都是希望透過數據的整理、計算、視覺化,從已經發生的事實中找出可能的發展,協助老師們鑑往知來。無論是提供佐證需求或探索需求,都希望能告訴老師關注的議題有什麼樣的優勢,有沒有可能的下一步是在哪裡。NTU Topics是提供輔助資訊、幫助推測尚未發生事情的工具,也是圖書館希望將客製化分析服務由被動轉向主動的一個嘗試,讓更多老師知道圖書館在研究上給予的輔助。
最後,陽明交通大學李美燕組長概述聯盟現況以及就近年來數據整理歸納出聯盟營運報告,第20屆數位化論文典藏聯盟研討會圓滿落幕。
本屆聯盟研討會主辦單位為國立陽明交通大學圖書館,協辦單位:美國ProQuest公司、漢珍數位圖書股份有限公司。
周佳蓁/TBMC紀錄
與會貴賓合影 |
與會者聆聽講座(一) |
與會者聆聽講座(二) |
大合照 |
(307)