文字知識探勘與自動化資訊組織- 研究成果

文字知識探勘與自動化資訊組織
研究成果

緣由與目的：

近十幾年來，由於通訊網路與資訊科技普遍運用之故，數位文件的生產與累積的速度極為快速，產生了大量數位文件的管理、組織、存取與利用的各種問題與需求。

為解決這些問題、滿足使用上的需求，筆者近來從事「自動化資訊組織與主題分析」、「文字知識探勘」的研究，運用的技術主要為：

資訊檢索 (Information Retrieval)
自然語言處理 (Natural Language Processing)
機器學習 (machine Learning)

等橫跨圖書館學、資訊科學、資訊工程的方法與理論。

「知識探勘」（knowledge discovery, KD）是擷取隱晦、有用、未被發掘、有潛在價值的規則、資訊或知識的一種過程。 (Usama Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurasamy, Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, 1996.)
在實務上，此過程需要運用資訊組織與分析等探勘技術，透過與使用者的互動，來反覆探索資料庫或文件庫，以發現新的、有趣的訊息或規律，再經由人工解讀結果，讓發現的規律訊息變成有用的資訊或知識。

根據資料特性的不同，「知識探勘」可分為「資料探勘」（data mining, DM）與「文字探勘」（text mining, TM）。前者處理結構化（structured）資料，即每筆資料有共同欄位可記錄於資料庫者，而後者處理非結構化（unstructured）資料，即每筆資料沒有共通的結構性可言，經常為長短不一、記載訊息的自由文字。

知識探勘的步驟大致分為：

資料蒐集
資料清理
資料轉換
探勘技術運用
結果呈現與解讀

而知識探勘採用的方法，主要有：

關聯分析（association）
分類（classification）
歸類（clustering）
摘要（summarization）
預測（prediction）
序列分析（sequence analysis）

由於資料特性的不同，資料探勘（DM）與文字探勘（TM）在步驟與方法的技術細節上都有所差異。
TM 運用的技術，幾乎都跟詞彙的頻率與出現篇數有關，但這兩項資訊在 DM 中極少用到。
DM 主要運用於大型資料庫上，提供資料庫管理系統額外的資料分析與統計功能；而 TM 主要運用在大量的文件庫上，供作資訊搜尋、訊息過濾、事件關聯、趨勢預測、犯罪分析、案例追蹤、知識萃取、知識管理、決策輔助等之用。
DM 在傳統資料庫的運用上已算相當成熟， TM 最近才在各領域受到重視。

圖書館學在資訊組織與主題分析的理論與實務上，有長期而重要的貢獻。以專利文獻而言，其資訊組織與主題分析採用的步驟大致如下：

選題：確立研究主題之專利分析範圍及目的
篩選：選定專利資料庫、建立檢索策略、下載相關專利
轉換：分欄擷取、資料整備，對結構化欄位資訊進行量化分析與圖表製作
摘要：依照目的、方法、效用等分項製作專利閱讀分析摘要表，進行專利文字的內容分析
歸類：對專利領域做主題歸類、對專利文件分類
呈現：以多重分類表交叉分析，製作技術功效分佈矩陣或專利地圖
解讀：判讀量化圖表與專利地圖，進行技術分析與趨勢預測

其方法主要有：

特徵詞彙擷取
資訊檢索
權威控制
詞彙關聯
內容摘要
主題歸類
文件分類

就步驟與方法而言，「資訊組織與主題分析」與「文字探勘」有很多不謀而合之處。因此，文字探勘跟資訊組織與主題分析，幾乎可說是同義詞，只是
圖書館學較重視一般目的、標準化的作業與架構；
知識探勘較重視特殊目的、自動化技術的運用。

本文摘錄了筆者近年的研究成果，以便傳播、交流心得。歡迎各方惠賜意見或建議。

研究成果與開發之系統 / Research Results and Developed Systems

關鍵詞自動擷取 / key-phrase extraction
中文OCR錯字更正檢索系統 / IR-based Chinese OCR error correction
關聯詞自動分析 / thesaurus generation
文件自動分類 / document categorization
音樂內容檢索系統 / Content-Based Music Retrieval System
圖書館書目資料模糊檢索系統
and other systems such as:
- 資訊過濾 / information filtering
- 全文影像 OCR 文字檢索系統 / Full-text images, OCR text retrieval system
- 多媒體電子佈告欄 / Web Board System (wbs.tar.gz, wbs2.tar.gz)

相關著作：

曾元顯, "專利文字之知識探勘：技術與挑戰", 現代資訊組織與檢索研討會, 台北, 淡江大學, 2004 年 11 月 19 日.
曾元顯, "數位文件之資訊組織與主題分析自動化之技術與應用", 「台北市立圖書館館訊」, 2002 年 12 月, 第 20 卷, 第 2 期, 頁 23-35.
Yuen-Hsien Tseng, "Automatic Thesaurus Generation for Chinese Documents", Journal of the American Society for Information Science and Technology, Vol. 53, No. 13, Nov. 2002, pp. 1130-1138.
曾元顯, "文件主題自動分類成效因素探討", 「中國圖書館學會會報」, 2002 年 6 月, 第 68 期, 頁 62-83.
Yuen-Hsien Tseng, "Automatic Cataloguing and Searching for Retrospective Data by Use of OCR Text", Journal of the American Society for Information Science and Technology (Previously known as Journal of the American Society for Information Science, JASIS), Vol. 52, No. 5, April 2001, pp. 378-390.
曾元顯, "中文手機新聞簡訊自動摘要", 第十六屆自然語言與語音處理研討會, 台北, 2004 年 9 月 2-3 日, 頁 177-189.
Yuen-Hsien Tseng and William John Teahan, "Verifying a Chinese Collection for Text Categorization," Proceedings of the 27th International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR '04, July 25 - 29 Sheffield, U.K., 2004, pp.556-557.
Yuen-Hsien Tseng, Da-Wei Juang and, Shiu-Han Chen "Global and Local Term Expansion for Text Retrieval," to appear in the Proceedings of the Fourth NTCIR Workshop on Evaluation of Information Retrieval, Automatic Text Summarization and Question Answering, June 2-4, 2004, Tokyo, Japan.
曾元顯, 莊大衛, "文件自我擴展於自動分類之應用", 第十五屆計算機語言學研討會, 2003 年 9 月 18-19 日, 頁 129-141.
Yuen-Hsien Tseng and Da-Wei Juang, "Document-Self Expansion for Text Categorization," Proceedings of the 26th International ACM SIGIR Conference on Research and Development in Information Retrieval - SIGIR '03, July 28 - Aug. 1, Toronto, Canada, 2003, pp.399-400.
Da-Wei Juang and Yuen-Hsien Tseng, "Uniform Indexing and Retrieval Scheme for Chinese, Japanese, and Korean," Proceedings of the Third NTCIR Workshop on Evaluation of Information Retrieval, Automatic Text Summarization and Question Answering, Oct. 8-10, 2002, Tokyo, Japan, pp.137-141.
曾元顯, 數位文件關鍵特徵之自動擷取方法, 中華民國發明專利第 153789 號.
(Yuen-Hsien Tseng, "Automatic Key Feature Extraction from Digital Documents", ROC Patent No: 153789, Effective from April 11, 2002 to January 14, 2020.)

相關計畫：

曾元顯, 「手機新聞簡訊自動摘要之研究」, 國科會93學年度研究計畫報告, NSC 93-2213-E-030-007-。
曾元顯, 「少量訓練文件之自動分類研究」, 國科會92學年度研究計畫報告, NSC 92-2213-E-030-017-。
曾元顯, 「中文索引典之自動建構及其應用」, 國科會91學年度研究計畫報告, NSC 91-2413-H-030-012-。
曾元顯, 「中文OCR文件錯誤詞彙之自動偵測與更正及其在資訊檢索上的應用」, 國科會90學年度研究計畫報告, NSC 90-2413-H-030-004- .
曾元顯, 「多模態音樂檔案快速關鍵旋律自動擷取及其應用」, 國科會89學年度研究計畫報告, NSC 89-2413-H-030-016- .
曾元顯, 「多國語文OCR文件之資訊擷取與檢索」, 國科會89學年度研究計畫報告, NSC 89-2413-H-030-006- .
曾元顯, 「雜訊文件關鍵詞自動擷取及應用」, 國科會88學年度研究計畫報告, NSC 88-2413-H-030-017- .

Established on June 1, 1997, last modified on Dec. 1, 2004 by

Yuen-Hsien Tseng <tseng@lins.fju.edu.tw>