毛慶禎 2000/09/15 18:49
Taking CMARC format for instance, this article endeavors to analyze the significance of machine readable cataloging in terms of exchange format, field, and information, in order to clarify certain misconceptions about MARC. Currently available softwares are used to illustrate how could the MARC for computers be transformed to more tape format(ISO 2709), field format, card format (ISBD), and linear format.
本文以中國機讀編目格式為例, 剖析機讀編目的交換格式, 欄位和資料的意義, 協助圖書館的編目同仁釐清機讀編目的迷思。最後並以現有的編目軟體為工具, 說明供電腦使用的機讀編目格式, 如何轉換為人類易於瞭解的磁帶格式 (ISO 2709)、驗證單格式、卡片格式 (ISBD)、條列格式。
進入正題之前, 有必要先瞭解機讀編目格式的源起, 在變動迅速的電腦及通訊世界裡, 機讀編目格式能夠屹立三十多年, 而且看不出有任何動搖的跡象, 實在不簡單。
通常以美國國會圖館依機讀編目格式先導計畫, 製出第一筆機讀書目記錄, 當成機讀編目格式的起點 ─ 1966年10月Avram。
該先導計畫的目標是, 找出標準化的機器可讀書目記錄格式, 然後把資料發送給其他的單位, 在單機上讀取。經過修訂後的格式, 就是大家熟知的 MARC II, 現在的 USMARC 就是以此為基準Avram68。
大約同時, 英國國家書目也正進行機讀編目格式的研究, 與美國國會圖書館洽商後, 確信兩機構之間有交換書目記錄的必要及可能性。雖然編目用語免不了各說各話, 計算字元位置的方式各不相同, 規定標點符號的發生方式等, 都有些歧異之處, 經過協調後, 整體來說, 兩國之間的機讀編目格式, 算是大體相容的Long。
很快的, 法國、德國、義大利、加拿大、澳洲等國, 陸續跟進, 發展自己的機讀編目格式, 雖然都想要保持彼此之間的相容性, 但是基於各國的書目特性及國情所需, 終究愈行愈遠。以加拿大而言, 對雙語標目及主題的絕對需求, 顯然超過其他國家的想像Cana。
1986年的資料顯示, 已有21個國家圖書館將國家書目以機讀編目格式發行磁帶Inte, 大約有14種不同的規格。到了1995年, 至少有60個國家的國家圖書館發行該國的磁帶機讀編目格式; 其中, 一半採用 USMARC 格式, 四分之一採用 UNIMARC 格式, 其它的四分之一採用 UK MARC、MAB、InterMARC等格式。
中國圖書館學會與國立中央圖書館, 於1980年成立「圖書館自動化作業委員會」, 謀求:
研訂中文機讀編目格式 (Chinese MARC Format), 作為國內外目錄作業之規範。
合作發展圖書資料自動化作業系統, 以改進圖書資料處理技術及圖書館資訊服務。
建立中文資料庫, 並引進國外資料庫, 以應資料查詢之需要。
建立全國資訊網, 以配合國家建設之需要, 並促進學術之研究與發展中國。
以 UNIMARC 格式為底稿, 於1980年元月出版中文圖書機讀編目格式第一版中國81, 緊接著採納美國專家的建議, 於同年7月, 出版修訂第二版。
1981年8月出版的中國機讀編目格式中 國82, 採納地圖、視聽資料等非書資料; 1984年出版了第二版, 主要係採納 UNIMARC Handbook 的部份內容; 1989年10月出版之第三版中國89, 則以 UNIMARC Manual 為藍本, 成為大多數圖書館系統採用的標準, 至於1987年6月出版的第四版中國97, 尚未正式融入實際的作業中。
1994年的時候, 中央標準局將中國機讀編目格式第三版的內容, 收入成為中國國家標準的一員CNS13226, 祗是它的英文名稱引起有識之士的一陣錯愕。
國家圖書館擁有的全國圖書出版目錄, 較為接近國家書目的功能, 由各大圖書館聯合組成的全國圖書資訊網路 NBINet http://nbinet.ncl.edu.tw/screens/index_chi.html, 其書目記錄量大約是最完整的, 不過仍未具體的容納各合作館的書目記錄。
透過電腦可以看到的書目記錄, 大約有四種格式:
磁帶格式就是俗稱 2709 格式, 經由圖書館應用系統計算出來, 專供其他圖書館應用系統讀取, 很難被人直接讀用; 驗證單格式即是欄位格式, 方便編目員校對書目內容的正確性, 祗有編目員才有能耐去讀用; 至於卡片格式即是國際標準書目著錄格式, 以國際標準書目著錄格式指定的項目及標點符號呈現書目的內容, 這是讀者可以瞭解的格式; 條列格式針對一般的當地讀者, 條列其書目內容, 對當地語言文化有隔閡的外地使用者, 往往對其內容產生誤解。
卡片格式已經失去原有的光環, 其他的格式還會併行一陣子, 不太可能忽略其中任何一種。
ISO 2709 指的是一份國際標準2709, 規範在資訊及文獻領域裡, 以磁帶交換書目資訊時, 應該遵守的登錄格式, 以便為各系統所接受。
從應用層面來說, 這個格式不含任何控制符號, 純粹祗有資料, 也就是一個個位元組接續構成的書目資訊,
可以用任何文書處理軟體看到其內容, 祗是不應以人工方式變動其內容, 尤其不能增刪任何一個位元組; 因為很多內容係經過軟體的計算而得來的,
牽一髮而動全身, 沒有任何編目軟體允許編目員在這個格式下做任何的調整。
00811cam 0250000810000400003310100080007310200070 0081200008400088205000900172210005800181 2150018002396100036002576770016002936870 0150030970000340032470100150035877000250 0373801003200398805004700430805009300477 #1276466#0 861125f1997 i# ma3$f卓思寧(Drosnin,Michael) $ak聖經 化$d民86$ak台北 0 經-專題 2163# 1$a杜$b默$4譯# 1$acw$b輔仁大學$c19980115$gCCR# 學$b文圖$cE314598A$d241.4$e2163$tCCH# $a輔仁大學$b神圖$cE003589T$d160R$e2163$p TB$tX$a輔仁大學$b神圖$cE003765T$d160R$e2 163$pTB$tX%01034cam0 0800000010003600008100004000044101000800 0841020007000921050018000992000087001172 0500110020421000800021521500180029545400 3600313606006000349606006000409606005800 4696770014005277000046005417020015005877 0200150060270200130061780100320063080500 9500662#1379131#0 新台幣350元# ib09 00yy#1 永平譯$rshang4 指紋$gk永平# 智$d1997[民86]$ak臺北 # 2csh$a文化史$x上古(原始至公元500年)$ak文 化 始至公元500年)$ak文化 2csh$a世界史$x上古(原始至公元500)$ak文化 b葛瑞姆$4著$ak漢卡克$bk葛瑞 永平$4譯# $acw$b輔仁大學$c19980514$gCCR# 學$b文圖$cE317199A 輔仁大學$b文圖$cE317200A tCCH% |
圖一 <ISO 2709格式>
以上的資料係取材自天主教輔仁大學圖書館系統, 含有兩筆書目記錄, 有關編目的細節不在這裡討論, 祗針對機讀編目的格式, 加以分析。系統廠商在轉換過程發生的誤解, 也一併列出, 這種誤解應該也會出現在其他的圖書館應用系統裡, 進而造成資料轉換上的困難。
某些字元在螢幕上或印刷上, 都有顯示的困難, 不得不以其他的符號表示, 真正儲存的時候,
還是以實際的內碼為準; 另外, 受限於顯示螢幕或印刷媒體本身的特性, 不得不將資料分段, 實際上是一個位元組接著另一個位元組,
中間沒有任何空隙。
顯示符號 | 實際符號 | 說明 |
---|---|---|
% | ISO 646符號集的 IS3, 十六進位值為 1D | 記錄終止符號 |
# | ISO 646符號集的 IS2, 十六進位值為 1E | 欄位終止符號 |
$ | ISO 646符號集的 IS1, 十六進位值為 1F | 分欄識別的第一個符號 |
$ | $ | 為了和分欄識別有所區分 |
ISO 646符號集的空白符號, 十六進位值為 20 | 為了明確表示其位置 |
圖二 <變通的符號>
在 ISO 2709 的格式裡, 依其性質, 每筆書目記錄的內容, 可以分為四個部份, 依序是:
中國機讀編目格式的定義和 ISO 2709 原來的定義有點出入, 雖然不是完全相同, 卻是相容的。
每個記錄最前面的24位元組是記錄標示, 它的長度是固定的, 每個位元組都有特定的意義, 位址 6-9、17-19、23 尚未定義, 但是在中國機讀編目格式裡, 補定義了若干, 祗剩下位址 9、19、23還沒有定義, 或許將來會有新的用途。
這兩筆記錄的記錄標示分別是:
00811cambb2200241bib450b
01034cam0b2200277bbb450b
其用途如下:
性質 | 位址 | 記錄 1 | 記錄 2 | |
---|---|---|---|---|
記錄長度 | 0 - 4 | 00811 | 01034 | |
記錄性質 | 5 | c | c | |
執行代碼 | 記錄類型 | 6 | a | a |
書目性質 | 7 | m | m | |
層次等級 | 8 | 0 | ||
未定 | 9 | |||
指標長度 | 10 | 2 |
2 |
|
分欄識別長度 | 11 | 2 | 2 | |
資料基位 | 12 - 16 | 00241 | 00277 | |
記錄補釋 | 著錄依據 | 17 | ||
著錄格式 | 18 | i | ||
未定 | 19 | |||
指引格局 | 欄長位數 | 20 | 4 | 4 |
首字位址 | 21 | 5 | 5 | |
執行定義部份長度 | 22 | 0 | 0 | |
未定 | 23 |
圖三 <記錄標示綱要>
這些標示各有其用途:
性質 | 位址 | 說明 | |
---|---|---|---|
記錄長度 | 0 - 4 | 第一筆記錄有811位元組, 第二筆記錄有1034位元組, 這個檔案總長度為1845位元組。 | |
記錄性質 | 5 | 中國機讀編目格式規定四種性質: c表示為修正過的記錄。這個地方有點弔詭, 為了表示負責任, 不會使用「n新記錄」; 既然刪除, 就從資料庫裡移除, 所以根本查不到, 自然沒有「d刪除之記錄」; 可能的情況下, 不至於承認取自出版品預行編目的資料, 所以也不會用到「p曾為不完整或出版前之記錄」。 | |
執行代碼 | 記錄類型 | 6 | 其內容應和欄位「204資料類型標示」匹配, 再視情況選用欄位105至135, 在這18個欄位中登錄對應的資料, a表示印刷型式之文字資料, 圖書屬於其中之一。 |
書目性質 | 7 | 有四種書目性質: 「a分析款目」、「c合集」、「m單行本」、「s連續性出版品」, 一般的圖書使用m, 若是雜誌, 則用s。 | |
層次等級 | 8 | 表示該筆記錄和同資料裡其他記錄的關係, 有四種關係: 「 記錄1在這裡登錄為 |
|
未定 | 9 | 未定就是未定, 不管登錄什麼內容, 都沒有關係, 空格也好, 數字也好, 系統都不會讀取它的內容。 | |
指標長度 | 10 | 中國機讀編目格式的欄位001和005沒有指標, 其他欄位都有兩個指標, 所以它的值就是2, 部份欄位的指標尚未決定其用途, 不過還是有指標。 | |
分欄識別長度 | 11 | 中國機讀編目格式的分欄識別為$, 再加上一位數字或英文字母, 總共的長度是2個位元組, 所以它的值是2。 | |
資料基位 | 12-16 | ISO2709把記錄標示及所有的指引視為第記錄的第一個欄位,
所有的書目資料欄內容,
都從這個欄位之後開始, 因此需要知道第一個欄位的長度, 系統才能夠擷取資料。
記錄標示的長度是24位元組, 每個指引是12位元組, 再加上一個欄位終止符號, 所以資料基位的值一定是12的倍數, 再加上1。記錄1的資料基位是241, 記錄2的資料基位是277。 |
|
記錄補釋 | 著錄依據 | 17 | 用來表示書目資料的完整性及驗證結果, 記錄1和記錄2的著錄依據都是 |
著錄格式 | 18 | 說明著錄段 200 - 225 等六個欄位的內容,
是否依照國際標準書目著錄格式處理。記錄1的值是i, 表示局部或不完全採用國際標準書目著錄格式; 記錄2的值是 |
|
未定 | 19 | 未定就是未定, 不管登錄什麼內容, 都沒有關係, 空格也好, 數字也好, 系統都不會讀取它的內容。 | |
指引格局 | 欄長位數 | 20 | 在這裡規定, 每個指引款目裡, 欄位資料長度的表達方式, 中國機讀編目格式以4個位元組表示每個欄位資料的長度, 也就是說, 中國機讀編目格式裡, 允許最大的欄位長度是9999位元組。 |
首字位址 | 21 | 該指引對應的欄位資料, 從那個位址開始算起, 它的長度是5個位元組,
易言之, 中國機讀編目格式裡, 每筆記錄的最大值是99999位元組, 再加上最後一個欄位的最大長度9999, 即109998位元組。 以目前的編目技術及標準, 是足夠了, 通常每筆記錄的長度大概都在1000位元組上下, 很少超過2000位元組的。 |
|
執行定義部份長度 | 22 | 中國機讀編目格式沒有這個部份, 所以它的值是。 | |
未定 | 23 | 未定就是未定, 不管登錄什麼內容, 都沒有關係, 空格也好, 數字也好, 系統都不會讀取它的內容。 |
圖四 <記錄標示說明>
在ISO 2709 沒有定義指引的長度, 中國機讀編目格式直接定義它的款目長度為 12 位元, 每個款目都是 12 位元, 每個款目對應到一個特定的書目資料欄, 所有的款目加起來, 形成一個指引。
記錄1 | 001000800000 010002500008 100004000033 101000800073 102000700081 200008400088 205000900172 210005800181 215001800239 610003600257 677001600293 687001500309 700003400324 701001500358 770002500373 801003200398 805004700430 805009300477 # |
---|---|
記錄2 | 001000800000 010003600008 100004000044 101000800084 102000700092 105001800099 200008700117 205001100204 210008000215 215001800295 454003600313 606006000349 606006000409 606005800469 677001400527 700004600541 702001500587 702001500602 702001300617 801003200630 805009500662 # |
把這兩筆記錄的指引重新排過, 可以看出記錄1有18個欄位, 記錄2有21個欄位, 每筆指引的最後一個位元組是欄位終止符號; 所以 ISO 2709 把記錄標示和所有的指引款目合起來, 視為一個欄位。
001000800000 |
這是記錄1的第一個指引, 可以細分為三個部份:
欄號 | 資料欄長度 | 首字位址 |
001 | 0008 | 00000 |
圖六 <指引款目甲>
記錄標示的第20位址, 其作用係表明欄長的位數, 其值為 4, 即以上的 0008, 實際長度為 8, 不足四位為處補 0; 記錄標示第21位址, 其作用係表明首字位址的位數, 其值為 5, 即以上的 00000, 第一個指引當然從 0 開始。
整個記錄1 的 18個指引可以剖析如下:
欄號 | 資料欄長度 | 首字位址 |
001 | 0008 | 00000 |
010 | 0025 | 00008 |
100 | 0040 | 00033 |
101 | 0008 | 00073 |
102 | 0007 | 00081 |
200 | 0084 | 00088 |
205 | 0009 | 00172 |
210 | 0058 | 00181 |
215 | 0018 | 00239 |
610 | 0036 | 00257 |
677 | 0016 | 00293 |
687 | 0015 | 00309 |
700 | 0034 | 00324 |
701 | 0015 | 00358 |
770 | 0025 | 00373 |
801 | 0032 | 00398 |
805 | 0047 | 00430 |
805 | 0093 | 00477 |
圖七 <指引款目乙>
資料欄內的資料實際長度是 477 位元組加上 93位元組減 1, 總共是 569位元組; 再加上記錄標示的
24
位元組, 指引的 216 位元組 (12 * 18 = 216), 指引之後的欄位終止符號, 佔一個位元組,
最後一個資料欄位之後的紀錄終止符號,
也需要 1 個位元組, 記錄的總長度是: 811 位元組, 與記錄標示最前面的5個位元組的值相符。
至於記錄2的指引, 經剖析後, 也可以得到相似的結果。
每個書目資料欄都有一個相對應的指引, 實質的書目資料登錄在這裡, 至於它所代表的意義則有賴於機讀編目格式另外規定, 每種機讀編目格式都有特定的欄位定義方式, 所以各種機讀編目格式之間還有轉換的問題存在。
通常對機讀編目格式的認知, 僅需要瞭解欄位及內容的定義就夠了, 至於如何轉換入電腦系統, 交由圖書館應用系統廠商處理, 圖書館方面祗需選購就可以了。
1276466#0 861125f1997 i# ma3$f卓思寧(Drosnin,Michael) $ak聖經 化$d民86$ak台北 0 經-專題 2163# 1$a杜$b默$4譯# 1$acw$b輔仁大學$c19980115$gCCR# 學$b文圖$cE314598A$d241.4$e2163$tCCH# $a輔仁大學$b神圖$cE003589T$d160R$e2163$p TB$tX$a輔仁大學$b神圖$cE003765T$d160R$e2 163$pTB$tX |
圖八 <書目資料欄的內容>
把書目資料欄的內容展開, 就成為編目員所指的欄位格式, 或稱為驗證單格式。
每個檔案能夠容納的記錄量, 係被作業系統及媒介材質限制, 在 ISO 2709 及中國機讀編目格式裡, 並沒有任何規定, 中國圖書館學會不知為什麼, 特別規定每筆檔案最多祗能容納 2,000 筆記錄。
表示前筆記錄到此為止。
這個檔案有兩筆記錄, 它有兩個記錄終止符號, %。
每個軟體廠商都有自己一套的顯示方式, 大體上分為四欄: 欄位名稱、欄位編號、指標、資料, 彼此之間以空格或表格區分; 編目員可以對整個欄位做增刪修的動作, 但是名稱部份係依照欄號而定, 由另外的對照表決定, 不能單獨更改, 以保持資料的一致性。
這個對照表就是依照機讀編目格式的規定, 另外編製, 編目軟體做內部運作時, 通常會有另一個欄位編號及欄位名稱對照表, 才能夠在這個格式下, 顯示出欄位名稱, 讓編目員不會太難過。
圖書館系統廠商用到書目資料庫時, 另有獨特的運算方式, 圖書館員不必去理會它。
欄位名稱 | 欄位編號 | 指標 | 內容 |
---|---|---|---|
系統控制號 | 001 | 1276466 | |
國際標準書號 | 010 | 0 |
$a9578468237$dN.T.$250 |
一般性資料 | 100 | $a19861125f1997 |
|
作品語文 | 101 | 0 |
$achi |
出版國別 | 102 | $acw | |
題名及著者敘述項 | 200 | 1 |
$a聖經密碼$rsheng4 |
版本項 | 205 | $a初版 | |
出版項 | 210 | 0 |
|
稽核項 | 215 | 0 |
$a269面$d21公分 |
非控制主題詞彙 | 610 | $a聖經-專題$ak聖經 |
|
保留予其他十進分類號 | 677 | $a241.4$b2163 | |
其他分類號 | 687 | $a160R$b2163 | |
人名 ─ 主要著者 | 700 | $a卓思寧$c(Drosnin,Michael)$4著 | |
人名 ─ 合著者或其他相當主要著者 | 701 | $a杜$b默$4譯 | |
人名 (羅馬拼音/中譯作品之著者原名) ─ 主要著者 | 770 | ||
出處欄 | 801 | $acw$b輔仁大學$c19980115$gCCR | |
館藏記錄 | 805 | $a輔仁大學$b文圖$cE314598A$d241.4$e2163$tCCH | |
館藏記錄 | 805 | $a輔仁大學$b神圖$cE003589T$d160R$e2163$pTB$tX$a輔仁大學$ b神圖$cE003765T$d160R$e2163$pTB$tX |
圖九 <驗證單格式>
具有專業知能的編目員, 對驗證單格式一定不會陌生, 而且能夠悠遊其間。
經過相當規畫的編目專屬編輯器, 應該先針對每筆資料做複本查詢, 題名、著者、國際圖書標準號碼等都可以做為查詢的鍵值。
確定當成複本處理時, 一方面要查驗舊的的書目記錄是否需要調整, 另一方面在欄位編號 805 館藏記錄之處, 新增館藏記錄資料; 屬於不同單位, 則需要增加一個 805 欄位; 屬於同一個單位或次層單位時, 祗需適度的重複分欄 $a 以外的分欄資料即可。
實際執行新增編目記錄作業時, 先由系統帶出若干事先處理好的內定資料:
欄位編號 | 欄位名稱 | 說明 |
---|---|---|
001 | 記錄識別號 | |
005 | 最後更新時間 | |
042 | 審查機構代碼 | |
100 | 一般性資料 | 部份內容 |
101 | 作品語文 | |
102 | 出版國別 | |
105 - 135 | 資料代碼欄 | 擇一使用 |
204 | 資料類型標示 | |
215 | 稽核項 | 計數單位 |
分欄 $r 羅馬拼音部份, 應由程式控制, 以及人工操作的錯誤。 |
圖十 <設定的資料>
針對這個驗證單格式的欄位及分欄, 做增刪修的動作, 並且有簡編模式, 協助編目員處理變異性不大的欄位資料; 或者透過事先的設定, 運用國際標準書目著錄項目, 就可以自動帶出他連接款目段 (4__)、相關題名段 (5__)、主題分析段 (6__)、著者段 (7__) 的內容; 最後才到進入全編模式, 調整每個欄位的細節。
這就是國際書目標準著錄格式, 它是人工作業的遺跡, 祗顯示國際書目標準著錄規定的八大項內容, 外加圖書館自訂的主題標目、附加款目、索書號等資料。
使用電腦做為圖書館作業的工具後, 通常都會將卡片目錄的內容轉換為電腦可以讀取的格式, 或者重新鍵入, 或者取用其他資料庫的內容加以修改, 甚至凍結既有的卡片目錄, 讓時間解決一切。
80年代的臺灣圖書館界, 對電腦還存在很深的懷疑, 要求電腦為圖書館印製卡片, 現在都已過去了, 徒留一段八卦而已。
即將進入廿一世紀之時, 如果還有圖書館以電腦病毒、網路不可靠、資料安全性等因素, 拒絕使用電腦; 甚至, 用電腦來印卡片目錄, 都是非常不可思議的行為。
|
圖十一 <卡片格式>
與卡片相比, 螢幕顯然大多了, 不能再以卡片格式來顯現, 於是採取條列格式, 把讀者需要知道的書目內容, 逐一條呈現出來。基本上, 其內容仍是以國際標準書目著錄的格式及順序出現。
系統號: | 1276466 |
---|---|
書名: | 聖經密碼 |
作者: | 卓思寧, 杜默, Drosnin, Michael, |
出版項: | 台北市 : 大塊文化, 民86, |
分類號: | 241.4 |
圖十二 <條列格式>
每個圖書館自動化系統都附有編目軟體, 無法單獨抽出使用, 在中國機讀編目格式的環境下, 《中華民國出版圖書目錄光碟系統 (SinoCAT)》SINOCAT是唯一可以單獨使用的編目軟體。
在美國機讀編目格式的環境下, 有 The Library Corporation 公司出版的 ITS for Windows Workstation 軟體its可用。
這兩個軟體都是針對編輯機讀編目格式書目資料而設計, 雖然還有些許不順利的地方, 不過編目員好像也沒什麼選擇的餘地。
機讀編目格式本來就是供機器使用的, 編目員可以瞭解它, 卻不必操縱它。
磁帶格式 (ISO 2709) 係電腦之間交換書目資料時, 規定的格式, 這是全球統一的規格, 沒有變動的機會。至於驗證單格式, 純粹是編目員工作所需, 實際運作時, 有些軟體廠商另外提供簡單編目格式, 由系統內定大部份的欄位內容, 編目員祗需決定國際書目標準著錄規定的八大項內容, 以及若干供檢索用的款目即可。
至於卡片格式 (ISBD) 已經過時, 幾乎不會再出現了。圖書館的一般讀者最喜歡的還是條列格式, 簡單明瞭, 沒有煩人的細節, 可以滿足絕大多數讀者的需求。
輔仁大學圖書資訊學系 毛慶禎 mao@blue.lins.fju.edu.tw |
http://www.lins.fju.edu.tw/~mao/inforg/structure.htm 2000/09/15 18:49 |