關鍵詞自動擷取技術之探討

曾元顯
輔仁大學圖書資訊學系副教授
Yuen-Hsien Tseng
Associate Professor
Department of Library and Information Science
Fu Jen Catholic University
Email: tseng@blue.lins.fju.edu.tw
中國圖書館學會會訊 106 期
http://blue.lins.fju.edu.tw/~tseng/papers/keyword.htm
Sep. 1, 1997
Accessed times


前言 | 擷取方法的比較 | 中文關鍵詞擷取 | 結語 | 參考資料

壹、前言

過去大部份的書目檢索系統,受限於資料庫管理系統(DataBase Management System)特殊的索引製作方式,僅能以布林邏輯及右切截比對功能提供資料查詢,對於書目記錄的全文式(左右切截)檢索,則以建立關鍵詞庫的方式達成。然而此類關鍵詞庫,必須以人工或半人工的方式建立,除了耗費大量人力、時間之外,還必須經常維護更新,以反應書目資料的新增異動。

目前網際網路通達的程度與普及速度,使資料成長更為快速,各種檢索系統的使用情況更為頻繁。新一代資訊檢索系統,尤其是允許全文式查詢的系統,必須能夠運用更具效率的自動化技術,以提供簡易有效的檢索服務。然而此類自動化技術,如自動索引、索引典自動建立 [1]、自動摘要 [2]、自動分類 [3]、相關回饋 [4]、自動過濾 [5]、概念檢索 [6] 等,大部份都必須先進行關鍵詞擷取(keyword extraction)的動作,依此結果再進行其他的處理。因此,無論是書目性資料或網路上的全文資料,關鍵詞自動擷取都是資訊檢索系統的基礎與核心技術,其重要性將隨網路的發展而越來越明顯。

「關鍵詞自動擷取」是一種辨認有意義且具代表性片語或詞彙的自動化技術。由於用途的差別,不同的研究,對此問題的定義、採用的方法、運用的條件與擷取的成效也各有差異。例如,自然語言處理的領域將此問題定義為「斷詞」問題(word segmentation),其目的在掃瞄一段文句,將此文句斷開成各個可賦予詞類的片語或單字,以做為機器翻譯或瞭解語意的基礎 [7]。因此其運用條件是即使輸入單一個句子,亦必須將構成句子的各個詞彙斷出來。由於斷出來的字彙中包含組成句子的各種詞類,如名詞、動詞、代名詞、連結詞、介系詞等,這種結果對資訊檢索而言,並非必要。因此,底下的討論將只針對關鍵詞擷取應用於資訊檢索的領域。

貳、擷取方法的比較

從文獻的分析得知 [8-12],關鍵詞擷取的技巧主要有三種方法。第一種為詞庫比對法:即利用已建立的詞庫,來比對輸入文件(或文句),將文件中出現在詞庫中的片語擷取出來。此種方法製作簡單,只要將詞庫中的每個詞,去比對是否出現在輸入文件中即可。其結果都是詞庫中的正確詞彙,但並不保證所有關鍵詞都能被擷取出來。除此之外,其缺點還包括:需要耗費人力、時間維護詞庫以容納各個領域的專業用語與新生詞彙,無法應付未曾預料的人名、地名、機構名等專有名稱,且詞庫越大比對速度越慢。

第二種為文法剖析法:透過自然語言處理技術的文法剖析程式,剖析出文件中的名詞片語,再運用一些方法與準則,過濾掉不適合的詞彙。其結果幾乎也都是有意義的名詞片語,但大部份的剖析程式,需要藉助已經建立的詞典或語料庫 [13],因此其缺點也和詞庫比對法一樣。除此之外,有些文法剖析法甚至只能剖析合乎文法的完整文句,使得書目、標題等資料裡的關鍵詞無法被擷取出來。

第三種方法為統計分析法:透過對文件的分析,累積足夠的統計參數後,再將統計參數符合某些條件的片語擷取出來。最簡單的統計參數是計數詞彙發生的頻率,即詞頻,將詞頻落在某一範圍的詞彙取出。由於沒有用到詞庫或語料庫,會有擷取錯誤的情況發生,得到無意義或不合法的詞彙。此外,統計參數不足的關鍵詞無法被選到。然而其優點是較不受語文國別與句型的限制,而且可以擷取出未曾被詞庫、語料庫網羅的專業用語、新生詞彙與專有名稱等片語。

其他的方法還包括上述方法的綜合運用,或加入一些變化。例如,利用一些排版規則,將重要的片語取出,如標題項、條列項中的文字,或強調詞(大寫、字頭語、斜體、加粗、加底線、引號內的文句)等等 [3]。可以想見,各個方法都有其優缺點,運用時需要針對不同的環境條件加以考量。

關鍵詞在本文中雖定義為有意義且具代表性的片語或詞彙,然而關鍵詞的認定牽涉到個人的主觀判斷,且相同的詞彙在不同的主題下,也有不同的認定。在此情況下,要比較各種方法的擷取成效,並不容易。不過一些文獻對此問題仍有初步的探討,其中 Arppe [14] 以文法剖析方式試驗其擷取成效,結果發現大約 80%-99% 的關鍵詞為名詞片語,而且雖然名詞片語的擷取準確率與召回率皆可達 95% 以上,然而具代表性的名詞片語不到總數的 50%,因此單純剖析出名詞片語後,仍需要依據其他特徵以過濾掉不要的詞彙。Godby [15] 則比較文法剖析法與統計分析法的優劣,發現統計分析法除了可以跟文法剖析法做得一樣好之外,亦具備簡單、不受語文國別與句法的限制、以及可同時過濾不具代表性片語的優點。

參、中文關鍵詞擷取

國內對中文關鍵詞自動擷取的問題也有研究。清大自然語言處理實驗室曾嚐試擷取關鍵詞作為書後索引(book index),其主要方法為運用電子字典協助斷出詞彙 [16],再以統計方式配合自然語言處理技術剖析名詞片語,最後再設定過濾條件,篩選索引詞彙 [17]。與人工索引做比較,其精確率與召回率可同時達到 63% 的程度。至於導致錯誤的主要來源有:斷詞錯誤(42%)、統計特徵不足(39%)、以及無法處理複雜語法結構(19%)。

中央研究院資訊科學研究所也有關鍵詞自動擷取運用在資訊檢索的研究。其主要作法乃先建構一種稱為 PAT-tree 的資料結構,再輔以詞頻等統計特徵擷取出關鍵詞 [18]PAT-tree 雖然在資訊檢索上有相當優良的特性,不過其建造過程需耗費相當長的時間,例如,建構 600 Mega bytes 的資料需要一個星期的時間 [19]。可以想見,此種方式的有效運用,必須要能改進 PAT-tree 的建構速度。

最近,我們也發展出一套關鍵詞擷取的技術,並且已實際運用在輔仁大學圖書館的 OPAC 線上書目檢索系統上 [20]。其方法為統計分析法,運用統計詞頻的方式來斷出關鍵詞,沒有用到辭典、語料庫、或自然語言處理的技巧。因此具備擷取速度快、擷取的正確率高(82%-100%)、中英文均適用、擷取的詞彙沒有長度限制、可同時擷取廣義詞與狹義詞等特性 [21]。有興趣的讀者可連上 WWW 網站測試 [22]

肆、結語

關鍵詞自動擷取乃資訊檢索領域的基礎與核心技術。過去中文方面的研究較少,未來如要將中文資訊檢索的領域拓展到自動索引、索引典自動建立、自動摘要、自動分類、相關回饋、自動過濾、概念檢索等地步,則中文方面的基礎技術還要再投入更多的研究。目前我們已有一些初步的成果運用在實際的檢索系統上,展望未來這類的應用會更加豐富,屆時網路上越來越多非資訊專業的使用者在進行資訊檢索時,將會覺得更加簡單便利。

參考資料

[1] Gerard Salton, "Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer" Addison-Wesley, 1989.

[2] Timonthy C. Craven, "An Experiment in the Use of Tools for Computer-Assisted Abstracting" ASIS 1996 Annual Conference Proceedings, Oct. 19-24, 1996. Also available at http://www.asis.org/annual-96/ElectronicProceedings/craven.html

[3] Bruce Krulwich, "Learning Document Category Descriptions through the Extraction of Semantically Significant Phrase" Workshop on Data Engineering for Inductive Learning, IJCAI-1995, Montreal, Canada, Aug. 20 1995. Also available at http://ai.iit.nrc.ca/DEIL/krulwich.ps.Z

[4] AltaVista, http://www.altavista.digital.com/

[5] Michael Mc Elligoot and Humphrey Sorensen, "An Evolutionary Connectionist Approach to Personal Information Filtering" Proc. Fourth Irish Neural Network Conference, pp. 141-146, Sept. 1994. Also available at http://odyssey.ucc.ie/pub/filtering/INNC94.ps

[6] C. Lin and H. Chen, "An Automatic Indexing and Neural Network Approach to Concept Retrieval and Classification of Multilingual (Chinese-English) Documents" http://ai.bpa.arizona.edu/papers/chinese93/chinese93.html, July 5, 1994.

[7] Richard Sproat, Chilin Shih, William Gale, and Nancy Chang, "A Stochastic Finite-State Word-Segmentation Algorithm for Chinese" Computational Linguistics, Vol.22, No. 3, pp.376-404, 1996.

[8] Burgin, R., Dillon, M. "Improving Disambiguation in FASIT," Journal of American Society for Information Science, 43(2), 1992, 101-114.

[9] Fagan, J. L. "The Effectiveness of a Nonsyntactic Approach to Automatic Phrase Indexing for Document Retrieval," Journal of American Society for Information Science, 40(2), 1989, 115-132.

[10] Jones, L. P., Gassie, E. W., & Radhakrishnan, S. "INDEX: The Statistical Basis for an Automatic Conceptual Phrase-indexing System," Journal of American Society for Information Science, 41(2), 1990, 87-98.

[11] Paijmans, H, "Comparing the Document Representation of Two IR Systems: CLARIT and TOPIC," Journal of American Society for Information Science, 44(7), 1993, 383-392.

[12] Zimin Wu and Gwyneth Tseng, "ACTS: An Automatic Chinese Text Segmentation System for Full Text Retrieval," Journal of American Society for Information Science, 46(2), 1995, 83-96.

[13] 陳光華,"資訊檢索查詢之自然語言處理",中國圖書館學會會報,第 57 期, 85 12月,頁 141 - 153

[14] Antti Arppe, "Term Extraction from Unrestricted Text," http://www.lingsoft.fi/doc/nptool/term-extraction.html, 1995.

[15] Jean Godby, "Two Techniques for the Indentification of Phrases in Full Text," http://www.oclc.org/oclc/research/publications/review94/part1/twotech.htm .

[16] Jen-Nan Chen, Jyun-Sheng, Chang and Huey-Chyun Chen, "Using Word Segmentation Model for Compression of Chinese Text" http://nlplab.cs.nhtu.edu.tw/~mathis/own/html/PAPER/JNL/95/cpcol/ CPCOL95.htm

[17] Mathis H. C. Chen, Tsong-Yi Tseng, Jason J. S. Chang, "Automatic Generation of Indices for Chinese Books," http://nlplab.cs.nthu.edu.tw/~mathis/own/html/ PAPER/JNL/96/cpcol/BookIdx.htm

[18] 簡立峰,"尋易系統(Csmart)與中文智慧型資訊檢索",資訊傳播與圖書館學, 3 2期, 85 12月,頁28-37

[19] William B. Frakes and Ricardo Baeza-Yates, Infomation Retrieval: Data Structure and Algorithms, Prentice Hall, 1992.

[20] 曾元顯,"新一代資訊檢索技術在圖書館 OPAC 系統的應用",大學圖書館,1 3期,86 7月。

[21] Yuen-Hsien Tseng, "Fast Keyword Extraction of Chinese Documents in a Web Environment," to appear in Information Retrieval Workshop for Asia Languages - 1997.

[22] 輔大書目資料檢索系統在http://140.136.250.49/ 。此網站乃過渡性的雛形系統,未來將被正式啟用的系統所取代,新系統網站位址將變更,在交接期間,讀者可改連至 http://www.lins.fju.edu.tw/~tseng/infofun/ 測試。