多媒體資訊檢索技術之探討

A Survey of Technologies for Multimedia Information Retrieval

多媒體資訊檢索技術之探討

曾元顯
Yuen-Hsien Tseng
輔仁大學圖書資訊學系
Department of Library and Information Science
Fu-Jen Catholic University
21 世紀資訊科學與技術的展望國際學術研討會
http://blue.lins.fju.edu.tw/~tseng/papers/mir.htm
Oct. 30, 1996
Accessed times

摘要

由於影像、聲音、視訊等媒體比傳統文字媒體更能有效傳達資訊，以及計算機目前已具備處理多媒體資料的能力，未來多媒體資料將快速累積，繼傳統文字資料檢索之後，多媒體資訊檢索將成為資訊服務的重要課題。本文探討目前各種資訊檢索的研究方向。首先介紹計算機對各種媒體的儲存與表示方法，其次簡介多媒體資料庫的特性，然後依序探討聲音、影像、視訊的查詢檢索技術。為克服處理聲音、影像與視訊資料時間與空間上的複雜度，研究者必須發展出影像比對、語音辨識、視訊分段、自然語言處理、人機介面等技術，以支援對多媒體資料的處理。例如對影像資料，發展出「以影像內容檢索」的技術，對視訊資料，有「以視訊內容檢索」、「以自然語言檢索」的研究。過去這些個別領域的研究，經過加強與整合之後，才能建構一個完整的系統，以提供使用者直覺、簡便的方式進行多媒體資訊的檢索。

Abstract

Due to the advent of technologies for processing multimedia and due to multimedia, such as images, sound, and video, convey information more efficiently than text, multimedia documents will increase rapidly in the near future, which, in turn, will call for the need in developing services for multimedia information retrieval. This paper presents existing research trends in this area. Digital representation of various media is first presented, which is followed by a description of the characteristics of multimedia databases. This paper then discusses various queries and retrieval techniques for each kind of media. To handle the spatial and temporal complexities introduced by non-textual media, researchers have to develop technologies for image matching, speech recognition, natural language processing, image understanding, video segmentation, and human-computer interaction to allow high-level queries, such as query by image content, query by video content, and query by natural language. All this individual research in the past has to be synergistically integrated into a coherent system in the near future so that intuitive and easy retrieval become available to multimedia information consumers.

Keywords: multimedia, information retrieval, content-based, similarity, indexing

壹、前言

過去利用電腦處理的資料大部份為文字或數字，這幾年來技術的演進則提昇了電腦處理其他媒體資料的能力。由於影像、聲音、視訊等二維或三維的媒體，在很多場合比傳統一維的線性文字更能有效、生動的傳達資訊，越來越多的資料是以這些形式出現。近三、四年來全球資訊網路的興起，正清楚的展示多媒體資訊世界的到來。

然而隨著多媒體資料的日益累積，我們很快的就會碰到一個問題：如何從一堆資料中找出我們要的訊息。過去文字媒體已遭遇這個問題，很多檢索文字資料的方法已被提出 [1]，然而對其他非文字媒體資訊的檢索方法，近幾年才有廣泛的研究。

本文旨在探討目前多媒體資訊檢索的進展。雖然多媒體資料含蓋文字媒體，然而其表示方式與檢索方法與其他媒體差異較大，在此不列入討論，文後所稱的多媒體係專指聲音、影像、視訊等資料而言。為了能對這些資料的檢索技術做足夠詳細的說明，文中提到相當多的技術名詞。對於重要的觀念與術語，我們盡可能在提及之前做簡短的介紹，以提高文章自我說明（self-contained）的程度。

下一節將介紹聲音、影像、視訊媒體的數位表示方法以及儲存、傳輸大量資料時的技術考量。其次簡介多媒體資料庫的特性。我們將介紹多媒體資料檢索的模式，說明其背景依據，再根據文獻分析，整理出多媒體資料的查詢方式與檢索技巧。其後依序探討聲音、影像、視訊檢索的研究方向，介紹重要的成果與實例。

貳、媒體資料的數位表示方法

現實世界的資料是類比式的，即連續時間（continuous time）、連續的值（continuous values）所表達出的訊息。數位資料則以離散時間（discrete time）、離散值（discrete values）來近似現實世界的資料，當離散的時間越緊密、離散的數值越靠近，近似的程度就越高。以下分別就聲音、影像、視訊資料逐一說明其數位表示方法。

一、聲音（audio）

聲音由麥克風捕捉後，經類比轉數位器（Analog to Digital Converter, ADC）轉化，再經量化（quantization）處理後，即成為數位聲音。數位聲音則經數位轉類比器（Digital to Analog Converter, DAC）轉化，再經由低通率波器（Low-Pass Filter）處理後，由喇叭播放出來。數位聲音的重要規格為取樣頻率（sampling rate）與每個樣本的位元數（bits per sample）。

人耳可以聽到的聲音，大約在 20 Hz 到 20000 Hz之間（Hz 是頻率的單位，每秒一個週期的意思）。目前非常普遍的音樂CD （Compact Disk），裡面的數位資料，是將聲音以每秒 44.1K Hz（1K=1024）頻率取樣，每個樣本的值（即聲音的大小）以 16 位元（bit）表示，亦即 0 代表最小聲，65535代表最大聲，因此一秒鐘的聲音資料量有 705.6 K 位元。

語音（speech）是聲音的一種特殊型態，語音因為有較窄的頻率範圍，因此可以用較少的資料表示。在眾多語音的表示方法中，最簡單的就是脈波碼調解法（Pulse Code Modulation, PCM）。以電話語音為例，連續時間的語音以每秒 8K Hz的頻率取樣，而每個樣本以 8 位元表示，所以電話語音每秒鐘包含 64K 位元的資料。為了節省儲存空間與傳輸時間，語音資料通常會被壓縮，重要的壓縮方法有 LPC（Linear Prediction Code）、CELP（Code Excited Linear Prediction）、VSELP（Vector-Sum Excited Linear Prediction）[2]，各有不同的壓縮倍率與應用範圍。但在做語音處理，如辨認、比對時，語音資料通常還原成未經壓縮的狀態，以便做各種基本的運算。其他的媒體，也是根據上述的考慮來做壓縮或處理。

二、影像（image）

在此我們所指的影像包括照片（photo）、圖片（picture）、人工繪圖（bitmap）、電腦繪圖（graphics）、視訊擷取出的畫面（frame）等兩度空間（二維）資料。二維空間資料經掃描器掃瞄或電腦編輯、產生後成為數位影像，重要的規格包括解析度、色彩、儲存格式、與壓縮方法。

解析度（resolution）以「寬 x 高」表示，如 640x480,即影像有 640 行，每行有 480 個像素（pixel, i.e. picture element）。每個像素代表一個單色或彩色，以數值表示。單色像素通常以灰階度表示，如果以 8 個位元表示，則有 256 個灰階度，其中0代表最暗、255代表最亮，或0代表最亮、255為最暗，其數值的意義由設計者賦予。彩色像素通常以紅、綠、藍三原色組合而成。如果每個原色以 8 個位元表示，每個像素就有 24 位元，所以一張 640*480 的彩色照片就有900K bytes（640x480x24/8/1024=900K bytes）。

影像的儲存格式種類繁多，每一個廠家根據不同的應用，製作出不同的格式，有 BMP、GIF、TIFF、XPM、XBM、PIC 等近百種 [3]。至於壓縮方法，近年來以 JPEG （Joint Photographic Experts Group）所制訂的 JPEG 標準最被廣為接受。 JPEG主要利用到DPCM（Delta Pulse Code Modulation）、離散餘玄轉換（Discrete Cosine Transform, DCT）與賀夫曼（Huffman）碼等技術，去除空間資料的重複性（redundancy），而將影像資料壓縮 5 至 30 倍 [4]。一些特殊的壓縮方法，在特別的領域，如碎形（fractal）法壓縮自然世界的景物，則可高達 1000 倍 [5] 甚至 50000倍左右 [6]。

三、視訊（video）

目前數位視訊大多經由影像擷取卡自放影機擷取畫面而得。視訊的重要規格包括解析度，畫面數、及壓縮方法。解析度如同影像的規格以「寬 x 高」表示。畫面數是指每秒鐘播放畫面的數目。電視每秒播放 30 張畫面，電影為 24 張。電腦播放視訊時也以 30 張為目標，惟受限於存取、傳送、與計算速度，畫面數常少於 30 張。以筆者過去的經驗，畫面數至少 12 張，對視覺來講才是可接受的程度。視訊的壓縮方法，目前重要的標準為 MPEG（Motion Picture Experts Group）。MPEG 是以 JPEG 為基礎，對視訊內容分析其畫面的移動向量（motion vector）並加以預測，從而去除時間軸上的重複性（例如相鄰的兩格畫面通常有相同的背景，僅主體物件移動一些而在位置上有一點點的差別）[7]。因此對於連續的鏡頭，壓縮 30 倍以上是合理的現象。JPEG 與 MPEG 都是屬於失真壓縮法（lossy compression），因此壓縮倍率越高，解壓縮還原後，畫面失真越多，品質越糟。

參、多媒體資料庫的特性

一、以內容為主的檢索方式

傳統的資料庫，將視訊、影像、聲音等媒體資料視為一個個檔案，或是未經整理的大型資料項（Binary Large OBject, BLOB）。這種處理方式能夠獲致的效益就非常有限：檔案名稱或 BLOB 僅能用來顯示資料，對資料內容的描述則相當薄弱。然而有很多場合我們需要能夠以內容本身來檢索資料。例如，我們常常回去找以前看過的圖片，然而留在腦海裡比較清楚的印象是圖片的大致情形，而描述圖片的說明文字則很少能夠記得，此時以殘留的圖片印象直接檢索資料變成一種直覺甚至是唯一的方法。這種運用稱為以內容為主的檢索方式（Content-Based Retrieval, CBR）。

英文中有言：A picture is worth a thousand words.（一圖勝千言），對描述多媒體資料來說，反過來說也對：A word is worth a thousand pictures [8]（一個關鍵字彙讓人聯想到上千張圖片）。除非讀者展示出他想要的圖片、樣式，否則光從語言文字的描述，一位館員實在很難想像讀者真正需要的圖片或影像。

這是從使用者的角度來觀察。若從館員製作資料的索引，以便利檢索的目的來看，以關鍵字、摘要等方式對多媒體資料做文字描述，也會遭遇困難。這是由於不同的人，即使面對相同的影像也會有不同的感受。在處理文字資料時已經有這類問題浮現，對多媒體資料，視覺、聽覺的感受更是各人不同、差異更大。因此，直接以資料的內容來檢索，對多媒體資料是不可或缺的方式。

圖書館對非文字媒體所提供的檢索單位常是一整個檔案，或一塊錄音帶、錄影帶。如欲充分釋放多媒體資料所含的資訊，供使用者便捷、有效的檢索，檢索的單位應該是任何有意義的片段，例如視訊中的一段鏡頭（哥倫比亞太空梭爆炸實況）、影像中的一個物件（照片中的意外旅客─如飛碟）、音樂中的一小段旋律（阿利路亞）、語音中的一段話（美國甘迺迪總統的名言：Ask not what the country can do for you, ask what you can do for the country.）。由於人工的索引、摘要製作所耗費的時間、金錢甚鉅，因此以內容為主的檢索，或者簡稱「內容檢索」，發展的目標之一是利用電腦程式自動辨認出上述有意義的資料片段或特徵。

二、「相似比對」取代「吻合比對」

在搜尋文字資料時，因為一字一碼，不會改變，所依賴的是「吻合比對」（match）。但是在搜尋多媒體資料時，由於相同的內容有不同的表現方式，例如說話的速度可快可慢、同一場景可以有遠鏡頭、近鏡頭，因此「相似比對」（similarity）取代了「吻合比對」，成為搜尋時的主要運算 [9]。檢索的結果會以相似程度排序，最相近的排在最前面供使用者檢視。因此檢索機制提供的是資料的過濾（data filtering），最後的資料選擇，則由使用者自行決定。

三、「瀏覽」的角色

「內容檢索」的關鍵技術在於發展適當的數學模型，來描述相似性。然而目前還沒有滿意的模型來描述人類視覺的相似感 [10]。所以「內容檢索」可資運用的檢索項目，都是在有效時間內可計算出的內容特徵（content features），如影像的顏色、花紋，物件的形狀、位置、範圍，以及影片的主畫面、場景變換等等。由這些特徵所做的相似比對，經過濾、排序後，呈現給使用者。使用者可由結果的檢視瀏覽中瞭解查詢方式的好壞，從而做必要的修正，再次進行查詢檢索，直到找到最滿意的資料為止。因此瀏覽對查詢條件的表達或查詢方式的選擇有相當大的幫助。

把對查詢結果的評量回饋給系統，稱為「相關回饋」（relevance feedback） [11]。「相關回饋」可以彌補相似比對時無法考慮到的因素，具有導引系統的搜索方向以滿足使用者個別需求的作用。瀏覽的過程中會牽涉到使用者對查詢結果持續的評量與選擇，此種選擇透露出使用者比較有興趣的資料，若能適當的加以追蹤記錄，可以讓系統據以修正檢索的方向，達到「相關回饋」的目的。當然使用者對查詢結果的評量，也可以直接用明顯的方式回饋給系統。然而對使用者而言，瀏覽是一種直覺而友善的介面。

除此之外，使用者有時並不明確自己要檢索的對象，對系統內資料的大略瀏覽，可以聯想出較具體的概念，或直接將相近的資料項取出，以作為查詢的條件。在多媒體資料庫系統中，瀏覽、編輯與查詢的介面必須整合起來，以提高使用者資訊檢索的效率。

四、查詢方式

多媒體資訊檢索的動作包括查詢條件的表達、資料的比對搜索、及查詢結果的運用與選擇等一連串人機互動的過程。前面大略說明了後兩項的進行方式與背景依據，底下將就查詢條件的表達方式，參考文獻提出的構想 [11, 12, 13, 14, 15, 16]，列舉各種可能性。由於這些方式是想像的理想模式，有的已被實現，有的則還處於研究的探索階段。

１、符號查詢：雖然多媒體資料庫裡建立了很多非文字索引，仍舊可以期望有相當部份的查詢是以文字符號進行。例如，使用者知道他們要的是什麼，而能利用描述性資料（metadata），以傳統的查詢語言清楚表達查詢條件。此外，符號查詢也可以配合下面所提的各種方式一起運用。

２、範例查詢：指著一張影像，然後要求系統回應類似的資料，是一種簡單有趣的檢索方式。在傳統的資料庫系統裡它是一種有效的查詢方式，在多媒體資料庫裡此種方式也非常受到歡迎。

３、片段查詢：指著圖中的某個物件或一塊區域，或者對音樂資料庫哼出一段旋律，然後如同範例查詢一樣，要求系統回應包含類似訊息的資料，對使用者來講非常簡單易用，但是對系統來講，確是相當複雜困難的事。大部份的系統僅儲存整體性的索引資料，如欲提供片段查詢，除了相似比對外，在此之前還要將儲存的媒體資料分割（segmentation）成有意義的單元。由於分割出的訊息為較具代表性的特徵，能有效檢索出多媒體資料所含的資訊，因此片段查詢對使用者而言極為重要。

４、漸進式查詢：將查詢得來的資料，經由編輯、輔助工具的修正、補充，再次作為查詢條件，如此重複運用而逐漸逼近自己所要的資料，就是所謂的漸進式查詢。如前所述，這是由於相似性比對乃是一種過濾機制，較好的設計是盡量減少遺漏，在此情況下，檢索的結果就常有誤引（false drop）的現象，需由人工進一步的篩選，以縮小範圍並引導正確的搜索方向。

５、語意查詢：上面所列的查詢方式主要是針對一般目的（general purposed）的多媒體資料庫來進行，其所儲存的索引內容主要是客觀性的特徵資料。對於特定應用（special-purposed）的資料庫系統，讓使用者以應用領域有關（domain-dependent）的術語與條件來查詢，是相當必要的。例如，人臉面部照片的資料庫裡，大嘴巴、瞇瞇眼等詞，在語意上很容易明瞭，然而要以範例或片段查詢卻甚為不易，因為「嘴巴」、「眼睛」是可以辨識的物件，而「大」、「小」則難以用範例表達。語意查詢需要建立應用領域的知識庫，以協助粹取適當的內容特徵，並用以瞭解使用者特定的查詢術語與條件。

6、時空事件查詢：視訊（video）是由一張張畫面依時間順序累積而成的資料，其所含的資訊為時間與空間事物混和而成的訊息，使用者以時、空事件或觀念查詢檢索是相當自然的事。目前的研究，對時間事件的表達與處理還處於初步階段，然而此種研究不必等到成熟的階段，即可進行視訊資料的檢索。

此外，由於語音辨認（speech recognition）與自然語言處理（natural language progressing）技術的進步，以輕鬆的口語表達查詢條件的方式也在研究之列 [17]，若配合上述各種方式進行，將可以提供使用者更完整、更友善的多媒體檢索環境。

五、檢索點的設計與選擇

以查詢語言如 SQL（Structure Query Language），檢索資料庫內容時，我們必須知道資料欄位名稱，才能下檢索命令。在圖書館學中跟資料欄位名稱類似的觀念則稱為檢索點。檢索多媒體資料時，由於多媒體具備二維、或三維時、空資料的特性，即便檢索的是同一種媒體，在不同的應用領域，要求的檢索點就不一致。例如，人臉資料庫裡，膚色、鬍鬚、髮型也許是重要的檢索款目，但在流行服裝的資料庫裡，服裝的款式、顏色、配件等才是重要的檢索點。多媒體資料不像我們所熟悉的文字資料，其檢索點的設計，變化極大。設計不良的檢索點，不易精確檢索資料；過多的檢索款目，系統必須一一運算，附載加重，造成反應時間的延遲。因此，如何兼顧檢索時的精確度與效率是一大問題。

Ramesh Jain [11] 將多媒體資料的特性（features）歸納成三類，可做為檢索點設計的依據：

一、描述性資料（metadata）

以影像媒體為例，此類資料包括影像大小、解析度、製作人、製作日期等描述資料的訊息，因此在建立數位檔案時必須以人為方式提供系統這類訊息，或由系統自輸入設備中擷取有關數位檔案的資料，如檔案大小、解析度等。通常此類訊息無法自資料的內容中獲得。

二、衍生性資料（derived features）

此類資料是在儲存數位資料時，分析資料的內容而得，通常是電腦系統以特殊的演算法或半人工的方式求得的特徵資料。

三、計算性資料（computed features）

此類資料類似衍生性資料，是分析資料內容而得，不過是在有必要的時候才以電腦計算求出。由於求出某些資料的特徵可能需要相當長時間的運算，因此使用者可以利用描述性或衍生性資料縮小搜尋範圍後，再以計算性資料做精確的檢索。如此，檢索的精確度與效率都可兼顧。

肆、聲音的檢索

聲音資料的檢索，近年來也有以內容檢索的文獻出現，較受注意的是 Blum 等人的正在發展的系統 [12, 18]。此系統利用數位訊號處理（digital signal processing）技術，分析聲音資料的音響（acoustic）與聽覺感受（subjective perceptual）特徵，予以分類、索引後，作為檢索的依據。

經由計算衡量得出的內容特徵，包含音高（pitch）、響度（loudness）、明亮度（brightness）、頻寬（bandwidth）、與調和度（harmonicity ），使用者可就這些項目檢索查詢。對於其他未考慮到的特徵，如音色（timbre）、節奏（rhythm），或因人而異的聽覺感受，系統則提供一套工具，供使用者訓練系統以處理新的特徵。使用者可以選擇一組代表性的聲音以強調某種特徵，讓系統分析學習，當訓練完成後，使用者可以檢索的方式，如下列範例所示：

一、以值檢索（query by value）：令 p1,p2 代表相異兩個特徵的值，查出 p1 > 0.9 AND p2 < 0.2 的所有聲音。

二、範例檢索：查出所有的聲音，其特徵 p1 與所給範例的特徵 p1 相似者。由於特徵的值以數字代表，在此所謂相似，是定義成兩個值相差在一個小範圍以內。

三、瀏覽與重整：將查詢結果按特徵 p1 的大小排列。

當聲音資料長度很大時，不適合上述的分析處理，這時可將聲音分解成較小的段落（segmentation）加以解決。電腦自動分段的作法大體是計算聲音資料的統計特性，然後偵測出數值突然大幅變化的地方，以此為界線將資料分段開來。

除了 Blum 等人提出的方法之外，另有研究者以類神經網路（artificial neural networks）來從事聲音資料的索引工作 [19]。類神經網路可以將資料 A 與索引 p 之間任何複雜的關係對應起來，這是其他方法較難做到的。然而，也由於其特殊的對應方式，除非長期大量的觀察分析，使用者比較不能預測此種對應的優劣。

伍、影像的檢索

在 IBM 的 QBIC （Query By Image Content）計畫中，研究者開發以影像內容檢索大型影像資料庫的技術 [13]。可以檢索的條件包括顏色、花紋、形狀，以及影像中物件的主要線條。其潛在的應用範圍涵蓋：醫學（如：查詢其他 x 光片其腫瘤紋路與此例類似者）、攝影報刊（如：查詢上面有藍色，下面有紅色的照片）、教育、娛樂、藝術、時裝、圖書館、零售商、工業界等。

QBIC 的運作與特點如下：

一、輸入：影像輸入資料庫時，可以加上關鍵字等文字描述，也可以半自動或手繪的方式定義出影像中物件的範圍。在 QBIC 中物件是指部份影像，其形狀通常與內含人或物的輪廓吻合。

二、特徵計算：計算影像與物件的顏色、花紋、形狀等特徵，將結果儲存起來，作為查詢時比對的依據。對 1000 張影像及 2000 張定義出的物件，其特徵的計算時間在 RS 6000 的機型上大約需要 4 小時的時間。

三、查詢：使用者可以進行範例查詢及漸進式查詢。查詢時需將查詢對象轉換為以顏色、形狀、花紋等特徵可以表達的形式。例如：使用者對海灘的影像有興趣的話，可以類似用「藍色佔 65%，白色（沙灘花紋）佔 35%」的方式查詢。查詢時間視條件的複雜度而異，短者 2 秒，長者 40 秒。至於回收率方面，在色彩檢索的試驗中為 69/72 （72 張人為判斷為相關的影像中，檢索出 69 張），以形狀檢索的試驗中為 53/64。

大部份的影像檢索技術，包括 QBIC，沒有討論到二維資料中物件的空間位置與物件之間的空間關係。空間資訊可以作為區分影像差異的重要特徵。在 VisualSEEK 的研究中，即針對此點提出解決的方法 [14]。其特點包括：允許影像特徵與空間資訊的合併檢索、局部區域的自動擷取、色彩特徵的直接索引、12,000張彩色影像的測試資料庫，全球資訊網路的使用者介面、Java 寫成的使用者端檢索工具。雖然 VisualSEEK 所定義的內容特徵包含色彩、空間位置、與空間關係，但是花紋、形狀等特徵卻還未能包含進來。

影像檢索技術，目前已有商業化的產品， Virage [20] 是其中較早進入市場的系統。它以影像檢索引擎的型態推出，包括三項主要功能：影像分析、查詢比對、系統管理。程式設計師透過其提供的應用程式發展介面（Application Programmer's Interface）可以叫用分析、比對與管理的程式。此種彈性可以讓 Virage垂直運用於新的系統上，也可以橫向與其他系統相結合。目前已有 Illustra 將 Virage 檢索引擎運用在其資料庫中（http://www.illustra.com/）。

Virage 在查詢上的一項特點是允許使用者對每一種內容特徵給予不同的權重，以適應每個人不同的標準、或同一個人在不同情況下不同的標準。另一個特點是，這種特徵可由使用者視需要自行擴充，只要給定足夠的定義並加入處理此特徵的程序即可。

Virage 的系統展示可以在全球資訊網路上看到，其位置在 http://www.virage.com/。除此之外，美國哥倫比亞大學，在全球資訊網上也有一個影像資料庫檢索系統 [21]，裡面蒐藏了超過 60 萬張影像與視訊資料，使用者可以連到 http://www.ctr.columbia.edu/ webseek/，親自試驗以影像特徵來檢索資料的方式。

陸、視訊的檢索

視訊檢索的研究，有兩個主要方向：

一、辨認視訊資料裡的配音或字幕，全文索引後，供使用者查詢視訊內容；

二、將視訊分段成個別的鏡頭（shot），從每一個鏡頭中粹取出關鍵畫面（key-frame），將關鍵畫面以影像檢索的技巧建立索引，以便進行視訊資料的檢索。

當然這兩種研究方法可以合併運用而成為第三種方法。底下介紹的三個研究計畫，個別採用了這三種方法。

一、視訊郵件

英國牛津大學與 Olivetti 實驗室合作發展網路多媒體資訊系統，其中一項服務為視訊郵件 [22]。視訊郵件裡僅有影像與聲音，因此研究的目標在發展出能夠搜索語音中關鍵字彙的檢索方法。此項計畫分為三個階段：一九九四年九月做到可以讓特定的人，在 35 個預定的關鍵字範圍內，以語音查詢視訊郵件；九五年九月放鬆使用者的限制，允許不特定使用者的查詢；九六年七月則進展到不限定關鍵字、不限定使用者的查詢。此項計畫的關鍵技術在於其簡化的語音辨認技術，亦即僅辨認音節（英文中僅 45 個），而不必辨認全部的英文字。在讓使用者查詢前，視訊郵件中的語音資料，先經過辨認，建立特殊的索引檔，以語音查詢時，再比對索引檔裡的音節資料，以得到較快的反應速度。

二、數位視訊圖書館系統

相較於語音郵件較窄的運用範疇，美國 Kansas 大學提出的數位視訊圖書館系統（Digital Video Library System, DVLS）[15] 則是較為完整的計畫。此計畫預計從 CNN 的新聞節目、WNET 的「Nature」節目、及WGBH的「Nova」節目擷取 100 個小時的數位視訊資料，供教育單位使用。

DVLS 的架構包含視訊儲存系統、處理與檢索系統、以及使用者介面，其特點如下：

１、視訊儲存系統：

以每秒30張畫面的速率將視訊資料數位化，一小時有108,000張的畫面，每一張解析度為640x480，需66 GB 的儲存容量，加上聲音資料一小時317 MB，經由 MPEG 壓縮後，DVLS 需要約 660 GB 的容量以儲存100 小時的視訊資料。

除了儲存巨量資料外，DVLS還必須能及時傳輸資料到使用者端。預估的規模是每小時支援 20 個使用者取用 500 分鐘的視訊資料，相當於每秒必須傳送 25MB 至 35 MB 的資料量。為了支援如此高的資料存取與傳輸容量，此儲存系統將包含高階處理器、磁碟陣列、以及非同步傳輸模式（Asynchronous Transfer Mode, ATM）網路。

２、視訊處理與檢索系統：

視訊通常製作成 30 分鐘到 2 小時的節目，然而很多教育方面的應用傾向於使用較短的片段，做彈性的組合運用或提供學生不同的觀察角度。因此視訊資料必須細分成有意義的小片段（通常為一個鏡頭(shot)）。DVLS分段的作法是衡量鄰近畫面之間的差距，並配合人工的設定，以檢測出鏡頭之間的轉換。

此外，聲音資料也必須同步分段。雖然語音辨認已頗為進步，但是還不能保證 100% 的辨識率。將文字稿或字幕掃瞄，以 OCR （Optical Character Recognition）技術辨認成文字，再融合語音辨認出來的資料，將可提高辨識語音內容或影像內容的程度。

視訊的索引資料，可由幾個來源建立：語音辨認、文字稿、字幕、人工建立的關鍵字、視訊/音訊的分段資料（日期、長度、起始時間等）、影像特徵（對比、亮度、顏色等）、聲音特徵（大小、背景音樂等）。使用者可以對語音辨說B文字稿、字幕作出來的索引做全文檢索，對關鍵字與分段資料做布林邏輯的查詢。然而並非每一個視訊都有上述的資料可供索引，而且旁白、文字稿對影像內容的描述可能也有所不足，哪一種資料適合哪一種查詢方式仍待釐清。

３、使用者介面：

DVLS 提供「以文字為主」的查詢及「以影像為主」的查詢方式，使用者可以交互運用。例如，以文字查詢某個主題，得到一組視訊資料後，可就某些特徵，再以影像內容查詢其他相關的資料。根據電腦的性能與網路的頻寬，使用者端對查詢結果可以彈性選擇的顯示項目如下：

* 視訊片段的文字描述（主題、長度、起迄時間等）

* 與視訊同步的音訊（旁白或背景音樂）

* 關鍵畫面（第一張、每分鐘一張、或每個場景一張）

* 郵票大小的視訊/畫面

* 完整的視訊/音訊

一般來講，對於連上 ATM 網路（速率155 Mb/s）的「區域地區」使用者，可以送出完整的視訊/音訊資料；對連上電腦網路（1.5 Mb/s）的「鄰近地區」的使用者，可以送出縮小成 320x240 大小並且壓縮 23 倍的畫面；對以電話線（14.4Kb/s）連上的「遠端地區」使用者，則送出縮減成 160x120、每秒 10 張、壓縮 30 倍的視訊資料。

三、視訊剖析

藉助語音與文字辨認技術，辨認配音或字幕以建立索引，可能會遺漏無聲的重要鏡頭（shot）。新加坡大學提出的解決方法，則直接剖析視訊資料的內容，摘要出關鍵畫面與時序特徵，做為索引的資料 [16]。其特點如下：

* 視訊被視為由一個個鏡頭（shot）組成，每個鏡頭包含多張相關的畫面，為攝影機連續拍攝的景物或動作。

* 對壓縮的資料直接做分段，以節省解壓縮的計算時間並降低處理資料佔用的空間。其技巧是利用 MPEG 資料裡的 DCT 係數與移動向量（motion vector），而獲致快速且高準確度的鏡頭分段 [23]。

* 由於 MPEG 壓縮資料時，已對視訊內容作某種程度的分析，因此除了可以用來將鏡頭分段外，還可以進一步用來辨識物體的移動、攝影鏡頭的動作（如拉近、拉遠、傾斜、上下左右移動）、以及鏡頭間轉換的效果（漸明、漸暗(fade)、朦朧重疊(dissolve)、拭消換面(wipe)等）。這些訊息可以作為時空事件查詢的線索。

* 經由實驗結果驗證，鏡頭分段的正確率可達 95%，分段錯誤發生的情形有遺漏與誤認，此兩種情形只佔很低的比率。每個鏡頭平均摘要出 2 至 3個關鍵畫面，接近理想的數據。而理想的關鍵畫面數，視鏡頭片段的複雜度而定，比較客觀的認定從 0 個（此片段不具代表性）、 1 個（此片段僅有一種場景）、到 2 個（擷取頭、尾兩個畫面以表示鏡頭的變化）。

* 將關鍵畫面利用影像檢索的技巧，粹取出顏色、花紋、形狀等特徵供查詢檢索。除了關鍵畫面的查詢，也可以查詢時間序列的特徵，或兩者結合一起查詢。例如：「查詢關鍵畫面像這一張且所有景物向右移動的鏡頭」。

* 提供漸進式查詢，其瀏覽介面為階層式，可以將時間軸上的視訊資料表示在二維畫面中，這中間的過程只利用到關鍵畫面，使用者要看鏡頭片段時才真正傳輸該項視訊資料，因此大幅降低查詢結果的資料傳遞量。

除了上述的研究方向外，美國卡內基美濃（Carnegie Mellon）大學正在發展以自然語言檢索視訊資料的技術，雖然目前的結果並不突出 [17]，然而可作為此項技術，或其他自動化相關技術對多媒體資訊檢索支援能力的參考，其發展值得期待。

柒、結語

過去聲音、影像、視訊個別存在的媒體，數位化後，以計算機的角度看來，都是一樣的位元串列（bit stream），藉由我們賦予每個位元不同的語意，電腦程式可以做不同的處理。因此要掌握不同的媒體，以我們想像的方式來儲存、傳輸、編輯、展示、檢索、運用，其關鍵在於我們研究出來的各種處理程序與計算方法。

為克服聲音、影像與視訊媒體在時間與空間上的複雜度，研究人員必須發展出影像比對、語音辨識、視訊分段、自然語言處理、人機介面等技術，以支援對多媒體資訊檢索的處理。過去這些個別領域的研究，需要經過加強與整合，才能建構一個完整的系統，提供使用者直覺、簡便的方式進行多媒體資訊的檢索。

參考資料：

[1] Molly W. Joss and Stanley Wszola, "The Engines That Can: Text Search and Retrieval Software, Their Strategies, and Vendors," June 1996, http://www.onlineinc.com/online/cdrompro/0696CP/joss6.html

[2] Steve Swanchara and Truong Nguyen, "EE 4984 - The Technological and Economical Ramifications of Vocoders in Cellular and PCS," May 1, 1996 http://fiddle.ee.vt.edu/courses/ee4984/Projects1996/nguyen_swanchara/nguyen_swanchara.html

[3] James D. Murray and William vanRyper, Encyclopedia of Graphics File Formats, O'Reilly & Associates, Inc., 1st Ed. July 1994.

[4] Ereisdorf, "Compression," http://www.ee.mtu.edu/courses/ee465/groupe/compress.html

[5] Albert Goodman, "SCC308: Computer Graphics: File format and image compression," http://www.deakin.edu.au/~agoodman/scc308/topic7.html

[6] Jeff Miller, "A Discussion on Fractal Image Compression," Dec. 15, 1994 http://www.transy.edu/~jmiller/imacomp.htm

[7] David Rose, "White Paper - A Technical Guide for Choosing Digital Video Systems," http://www.b-way.com/tech/white2.htm

[8] Donna M. Romer "A Keyword is Worth 1000 images," Rochester, NY: Kodak Internal Technical Report, June 26, 1993.

[9] M. Stricker and M. Orengo, "Similarity of Color Image," Proceedings IS&T/SPIE Conference on Storage and Retrieval for Image and Video Databases III San Jose, CA, 1995.

[10] Jonna M. Romer, "Image and Multimedia Retrieval," Sep. 29, 1995, http://www.ahip.getty.edu/agenda/hypermail/0005.html

[11] Ramesh Jain, "InfoScope: Multimedia Information Systems," Aug. 26, 1995, http://vision.ucsd.edu/papers/infoscope/infoscope.html

[12] Thom Blum, Doug Keislar, James Wheaton, and Erling Wold, "Audio Analysis for Content-Based Retrieval," May 3, 1996, http://www.musclefish.com/cbr.html.

[13] Christos Faloutsos, Ron Barber, Myron Flickner J. Hafner, Wayne Niblack, Dragutin Petkovic, and William Equitz, "Efficient and Effective Querying by Image Content," Journal of Intelligent Information Systems, 3, 231-262, July 1994.

[14] John R. Smith and Shih-Fu Chang, "VisualSEEK: a Fully Automated Content-Based Image Query System," June 11, 1996, http://www.ctr.columbia.edu/~jrsmith/html/pubs/acmmm96/acm.html.

[15] Susan Gauch, Ron Aust, Joe Evans, John Gauch, Gary Minden, Doug Niehaus, and James Roberts, "The Digital Video Library System: Vision and Design,"

http://www.csdl.tamu.edu/DL94/paper/gauch.html.

[16] H. J. Zhang, C.Y. Low, S. W. Smoliar and J. H. Wu, "Video Parsing, Retrieval and Browsing: An Integrated and Content-Based Solution," 1996, http://www.iss.nus.sg/RND/MS/Projects/vc/vidorigin.html

[17] "Natural Language Processing ," Carnegie Mellon University, 1995, http://www.informedia.cs.cmu.edu/report/main.html

[18] Erling Wold, Thom Blum, Doug Keislar, and James Wheaton, "Content-Based Classification, Search and Retrieval of Audio," IEEE Multimedia Magazine, Fall 1996.

[19] Feiten, B. and S. G zel, "Automatic Indexing of a Sound Database Using Self-organizing Neural Nets," Computer Music Journal, 18(3): 53-65, 1994.

[20] Amarnath Gupta, "Visual Information Retrieval: A Virage Perspective," 1995, http://www.virage.com/wpaper/.

[21] WebSEEk: Content-based Image and Video Catalog and Search Tool for the Web http://www.ctr.columbia.edu/webseek/

[22] Steve Young, Karen Spark-Jones, Jonathan Foote, Gareth Jones, and Martin Brown, "Video Mail Retrieval Using Voice," March 21, 1996, http://svr-www.eng.cam.ac.uk/Research/Projects/Video_Mail_Retrieval_Voice/video_mail_retrieval_voice.html

[23] H. J. Zhang, et al., "Video Parsing Using Compressed Data," Proceedings IS&T/SPIE Conference on Image and Video Processing II San Jose, CA, 1994, pp. 142-129.