數據的收集、存儲、處理和傳播,產生了哪些數據庫新技術?

隨著計算機網絡的出現和計算機網絡技術的迅速發展,特別是地理位置上分散的部門、公司、廠商對於數據庫的應用需求,DBMS的運行環境也就從單機擴展到網絡,對數據的收集、存儲、處理和傳播由集中式走向分佈式,從封閉式走向開放式,產生了許多數據庫新技術,讓我們一起來了解一下。

數據的收集、存儲、處理和傳播,產生了哪些數據庫新技術?

1.信息檢索與存儲

信息檢索技術是指將信息按一定的方式組織和存儲起來,並根據信息用戶的需要找出有關的信息過程,所以它的全稱又叫“信息的存儲與檢索”,這是廣義的信息檢索。狹義的信息檢索則僅指該過程的後半部分,即從信息集合中找出所需要的信息的過程,相當於人們通常所說的信息查尋(Information Search)。

計算機的快速處理和海量存儲能力,使以計算機技術為手段的信息檢索技術得到很好的發展。計算機信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經歷了手工檢索、計算機檢索到目前網絡化、智能化檢索等多個發展階段。

數據的收集、存儲、處理和傳播,產生了哪些數據庫新技術?

2.智能檢索或知識檢索

傳統的全文檢索技術基於關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在信息巨增的時代,針對海量信息,利用關鍵詞匹配很難滿足人們檢索的要求。因此,出現了智能檢索,他利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計算機”,與“電腦”相關的信息也能檢索出來;進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成一個知識體系或概念網絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進一步縮小查詢範圍至“微機”、“服務器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟件”、“計算機應用”等範疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。

數據的收集、存儲、處理和傳播,產生了哪些數據庫新技術?

3.搜索引擎

搜索引擎(Search Engine)是隨著Web信息的迅速增加,從1995年開始逐漸發展起來的技術。據發表在《科學》雜誌1999年7月的文章《Web信息的可訪問性》估計,全球目前的網頁超過8億,有效數據超過9T,並且仍以每4個月翻一番的速度增長。用戶要在如此浩瀚的信息海洋裡尋找信息,必然會像“大海撈針”,無功而返。

我們對在互聯網上廣泛流行的各種搜索方法做了一個總結,按照信息蒐集方法和服務提供方式的不同,把搜索引擎系統分為三大類:

第一類:目錄式搜索引擎。以人工方式或半自動方式蒐集信息,由編輯員查看信息之後,人工形成信息摘要,並將信息置於事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、Look Smart、Open Directory、Go Guide等。

數據的收集、存儲、處理和傳播,產生了哪些數據庫新技術?

第二類:機器人搜索引擎。由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯網中搜集和發現信息,由索引器為蒐集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,並將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜索引擎的優點是信息量大、更新及時、毋需人工干預;缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。

第三類:元搜索引擎。這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重複排除、重新排序等處理後,作為自己的結果返回給用戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更全;缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是Web Crawler、Info Market等。

數據的收集、存儲、處理和傳播,產生了哪些數據庫新技術?

4.數據倉庫

數據倉庫的建立並不是要取代數據庫,它要建立在一個較全面和完善的信息應用的基礎上,用於支持高層決策分析,而原有的事務處理數據庫在總體數據環境中承擔的是日常基礎業務的處理任務。數據倉庫是數據庫技術的一種新的應用,而且到目前為止,數據倉庫大部分還是用關係數據庫管理系統來管理其中的數據。


分享到:


相關文章: