追本溯源“元數據”--如何理性認識元數據

要理解這個問題,首先要知道“元”是什麼。

元(meta),一般被我們翻譯成“關於……的……”。

事實上,這個前綴來源於希臘文,表示“在……之後”,在某樣事情結束之後,就含有了“歸納”、“總結”的意思呢?因此,元,就代表著“本原”、“體系”的意思。

以文學領域為例,後現代主義文學中有一種小說叫作“元小說”,也就是“關於小說的小說”。“傳統小說往往關心的是人物、事件,是作品所敘述的內容;而元小說則更關心作者本人是怎樣寫這部小說的,小說中往往喜歡聲明作者是在虛構作品,喜歡告訴讀者作者是在用什麼手法虛構作品,更喜歡交代作者創作小說的一切相關過程。(摘自百度百科)”。

比如英國作家伊恩·麥克尤恩的作品《贖罪》。這本書講述的是妹妹布里奧妮幼時因為愛上了姐姐塞西莉婭的男友羅比卻被他拒絕,因報復心理作祟而陷害他入獄,長大成人之後為了彌補心中的愧疚而應徵入伍來贖罪的故事。在本書中,主人公佈里奧妮即是“主人公”,也是本書的“作者”。它著重於描述布里奧妮是如何寫這本的書的。這就是“關心作者是怎麼寫這本小說”的小說。

在瞭解了元(meta)的含義之後,我們來看元數據。

元數據(meta data)——“data about data” 關於數據的數據,一般是結構化數據(如存儲在數據庫裡的數據,規定了字段的長度、類型等)。

元數據是指從信息資源中抽取出來的用於說明其特徵、內容的結構化的數據(如題名,版本、出版數據、相關說明,包括檢索點等),用於組織、描述、檢索、保存、管理信息和知識資源。

比如,關於一本書(信息資源),我們在圖書館系統中檢索可以得到如下信息

追本溯源“元數據”--如何理性認識元數據

圖1

一個基本的元數據由元數據項目和元數據內容的構成。這裡,“題名”就是它的元數據項目,“史蒂夫·喬布斯傳 (美) 沃爾特·艾薩克森著 = Steve Jobs Walter Isaacson eng”就是元數據內容。再比如,“著者”、“出版者”都是元數據項目,而“艾薩克森 (Isaacson, Walter) 著”和“中信出版社”就是元數據內容。學過數據庫的應該不難理解~

利用元數據來描述資源後,我們就可以用來做很多的事情。比如確定資源,為資源提供檢索點,在不同系統之間進行數據交換。

可是,我們每個人都可以對資源進行描述,取的名字(元數據項目)和值的樣子(元數據內容)會千奇百怪怎麼辦呢?

因此,就有了元數據標準。

追本溯源“元數據”--如何理性認識元數據

圖2 示意

元數據標準包括元數據結構標準(即元數據包含那些項目,都柏林核心集,MARC元素集)、元數據內容標準、元數據取值標準、元數據編碼標準(用於機讀記錄的存儲和交換,比如MARC(Machine Readable Cataloging), XML)

在這裡我們詳細看一下MARC格式(一種元數據標準)。

在傳統的圖書館中,我們購買了很多的書。圖書館員們怎麼能知道自己有什麼書了呢?我們就需要把每本圖書的信息,寫在一張小卡片上(有些老圖書館還有),存放在自己的圖書館裡。

但是隨著計算機的發展,我們認為把書目的信息存到電腦裡是更好的方法。又隨著網絡的發展,我們覺得應該來一個圖書館大聯合,把所有的圖書信息都一起存起來。但是每個圖書館都有自己的一套記錄方法。因此,MARC格式就應運而生了。MARC就是在計算機出現後為系統間交換書目數據和相關信息而設計的。

當然啦,在傳統圖書館的手工編目時期,使用的術語與現在的計算機編目不同。比如那時候我們把一本書的“元數據”寫在一張張卡片上,稱之為“款目(entry)”,而在計算機裡,關於一本書的記錄,就叫做“記錄(record)”。在機讀編目中,我們把要著錄的項目(著錄項目area)叫作“字段(field),還有等等的區別。

說了這麼多,MARC格式是什麼樣的呢?

可以看一下中國使用的CN-MARC格式。(CNMARC是我國參照UNIMARC(國際圖聯制定UNIMARC規範各國的MARC格式)編寫的中國MARC格式。)

追本溯源“元數據”--如何理性認識元數據

圖3

它規定了關於文獻資源應該如何記錄。比如說在數據字段區,它對於101字段是這麼規定的:

101 0 $a正文語種$b中間語種$c原作語種

那麼我們就要編目成:

101 1 $achi $ceng (chi是中文,eng是英文)

再比如它規定210字段的編目形式如下:

210 $a出版、發行地$c出版、發行者名稱$d出版、發行日期

根據這個要求我們就要寫成

210 $a北京 $c機械工業出版社 $d2003

接下來,互聯網發展的越來越快,元數據的格式越來越多,人們對它的互操作要求也越來越高,就出現了XML

在利用XML描述一個文檔的時候,我們可以自己定義標籤,如”

<title>”。這些小標籤都是元數據。

在網絡時代,XML作為元數據的一種表現形式是非常有潛力的。

最後我們在來看一下XML的好朋友HTML。

HTML的head裡有一個meta標籤。那麼它是什麼呢?

根據上面的解釋,我們應該知道它是“關於文檔的信息”了

meta的屬性有兩種,name和http-equiv.

name屬性用來描述網頁的內容,以便搜索引擎查找。比如這個網頁的keywords呀。

http-equiv屬性指示服務器在發送實際的文檔之前先在要傳送給瀏覽器的 MIME 文檔頭部包含名稱/值對。

比如

用以說明主頁製作所使用的文字以及語言

/<title>


分享到:


相關文章: