關鍵詞自動擷取
緣由與目的:
-
「關鍵詞自動擷取」是一種辨認數位文件內有意義且具代表性字串(string)、
片語(key phrases)、詞彙(keywords)、或內容片段(key segments)的
自動化技術。
-
由於關鍵詞是呈現文件主題意義的最小單位,因此大部分對非結構化文件的
自動處理,如自動索引、索引典自動建立、自動摘要、
自動分類、自動歸類、相關回饋、自動過濾、事件偵測與追蹤、知識探勘、
資訊視覺化、概念檢索、檢索提示、關聯知識分析、自動化權威控制、
自動化詢答系統等,都必須先進行關鍵詞擷取的動作,再進行
其他的處理。
- 可以說,關鍵詞擷取是所有文件自動處理的基礎與核心技術。
- 關鍵詞擷取的方法,可大略分為統計法、詞庫法、規則法或這三種方法的
合併運用。目前有許多方法被提出來,但所運用的資源與計算量都相當大。
-
為此,筆者發展出一套快速、簡單、有效的規則,來擷取文件的關鍵詞彙。
有趣的是,此自動擷取方法與語言文字關係不大,甚至可直接運用在
多媒體的數位文件上,例如音樂檔案,以擷取其中的關鍵旋律。
成效:
- 在沒有運用大量詞庫的情況下,書目資料的關鍵詞擷取準確度為 90% ,
新聞全文資料的準確度為 86% 。
- 在運用 12 萬詞的詞庫後,新聞全文的關鍵詞擷取準確度為 96% 。
其中每篇新聞有 33% 個關鍵詞為詞庫中沒有收錄的詞彙。
- 其計算複雜度理論的最佳值為 O(L x N),其中 N 為輸入文件的長度
(字元個數), L 為最長重複字串的長度。
- 此方法已獲得中華民國第 153789 號發明專利
(曾元顯, 數位文件關鍵特徵之自動擷取方法),
有效期限自 2002 年 4 月 1 日至 2020 年 1 月 14 日。
系統特色:
- 簡單、速度快。
- 有效、準確度高。
- 可自動擷取新生詞彙、各領域的專有名詞。
- 擷取的關鍵詞沒有長度限制。
- 統計特徵非常低(僅出現兩次)的關鍵詞也可被擷取到。
- 不要求文件的完整性,可適用於有雜訊的環境,如 OCR 文件、語音辨識等文件。
- 可以不需要額外資源,如字典、詞庫、文法剖析器、語料庫等需耗費大量
人力事先建立或維護的資源。也可以運用這些資源,增加準確度,但不需經常維護。
- 不僅適用於文字資料,也適用於其他可表達成字串或有序集合的資料,
如音樂(music)、語音(speech documents)、音訊(audio)、影像序列
(image sequence)、時間序列(time series)、DNA序列等等。
- 可做為其他進階運算的基礎:可運用在自動索引、索引典自動建立、
自動摘要、自動分類、相關回饋、自動過濾、概念檢索、相關詞提示、
相關詞回饋、動態分類目錄、資訊視覺化等資訊檢索及其他知識探勘的應用上。
範例:
文件內容
| 自動擷取出來的關鍵詞
|
BMG Entertainment與Sony Music計畫在Internet 上銷售數位音樂。
(美國矽谷/陳美滿)
根據 San Jose Mercury News 報導指出,BMG Entertainment 計畫在6月上旬或
中旬開始在 Internet 上銷售數位音樂。消費者將可直接將音樂下載至 PC,
而無需購買 CD 或錄音帶。該公司為執行上述計畫已與多家高科技廠商合作,
包括 IBM、Liquid Audio 與 Microsoft。BMG 隸屬於 Bertelsmann 公司。
另外,Sony Music 也將於下週一宣佈該公司計畫於本月底開 始提供數位音樂下載。
消費者將可在手提裝置上聆聽下載來的數位音樂。此項數位音樂下載將是市場上
首項具有防止盜錄功能的產品。網路音樂市場在過去幾年已顯現市場潛力,
主要拜 MP3 規格之賜。
|
1 : 音樂 (7)
2 : 數位音樂 (5)
3 : 下載 (4)
4 : 計畫 (4)
5 : BMG (3)
6 : Music (2)
7 : Sony Music (2)
8 : Entertainment (2)
9 : BMG Entertainment (2)
|
相關著作:
- Yuen-Hsien Tseng, "Fast Keyword Extraction of Chinese Documents
in a Web Environment," International Workshop on Information Retrieval
with Asian Languages - 1997, Oct. 8-9, Japan, pp.81-87.
- Yuen-Hsien Tseng, "Multilingual Keyword Extraction for Term
Suggestion," Proceedings of the 21st International ACM SIGIR Conference
on Research and Development in Information Retrieval - SIGIR '98, Aug.
24-28, Australia, 1998, pp.377-378.
- Yuen-Hsien Tseng, "Content-Based Retrieval for Music
Collections," Proceedings of the 22nd International ACM SIGIR Conference
on Research and Development in Information Retrieval - SIGIR '99, Aug.
15-19, Berkeley, U.S.A., 1999, pp.176-182.
- 曾元顯, 數位文件之資訊擷取與檢索, 269 頁, 2000 年 9 月,
ISBN 957-99750-3-2 , 全壘打文化事業有限公司出版.
- 曾元顯, "關鍵詞自動擷取技術與相關詞回饋",
「中國圖書館學會會報 59 期」, 1997 年 12月, 頁59-64.
相關計畫:
- 曾元顯, 「雜訊文件關鍵詞自動擷取及應用」,
國科會88學年度研究計畫報告, NSC 88-2413-H-030-017-
- 曾元顯, 「中文索引典之自動建構及其應用」,
國科會91學年度研究計畫報告, NSC 91-2413-H-030-012-。
- 曾元顯, 「多國語文OCR文件之資訊擷取與檢索」,
國科會89學年度研究計畫報告, NSC 89-2413-H-030-006-
- 曾元顯, 「多模態音樂檔案快速關鍵旋律自動擷取及其應用」,
國科會89學年度研究計畫報告, NSC 89-2413-H-030-016-
Established on June 1, 1997, last modified on June 1, 2003 by
Yuen-Hsien Tseng
<tseng@lins.fju.edu.tw>
|