發(fā)布時間:2024-04-12 文章來源:深度系統(tǒng)下載 瀏覽:
搜索引擎技術(shù)的發(fā)展歷程
在互聯(lián)網(wǎng)絡(luò)日益滲入我們?nèi)粘I畹慕裉,海量的貯存和科學(xué)的搜索是人們信息行為中兩樣最重要的能力。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的;ヂ(lián)網(wǎng)上的搜索引擎可以分為兩大類:目錄式搜索引擎以及基于關(guān)鍵詞的搜索引擎。 1、目錄式搜索引擎 我們知道,處理復(fù)雜事物的一種有效方法是按照一定標準將事物歸類。經(jīng)過歸類后,每個事物都與其他事物建立聯(lián)系,與未經(jīng)分類的,雜亂無序的狀態(tài)相比,此時查找就變得相對容易。目錄式搜索引擎采取的就是這一方法。 ●目錄式搜索引擎的工作原理 目錄式搜索引擎的數(shù)據(jù)庫建立在人工編輯的基礎(chǔ)上,由專業(yè)人員對網(wǎng)上信息進行選擇、標引、分類,合理地將不同學(xué)科、專業(yè)、行業(yè)或區(qū)域的網(wǎng)絡(luò)信息,按照分類或主題目錄的形式組織起來,編制成為等級式的主題指南或主題目錄,供用戶瀏覽和尋找感興趣的信息內(nèi)容。 ●目錄式搜索引擎的典型代表Yahoo Yahoo的信息組織方式具有以下特點 :完備分類體系,歸納網(wǎng)上信息。它將傳統(tǒng)的分類思想移植于網(wǎng)上信息的組織,在此思想的指導(dǎo)下,結(jié)合網(wǎng)絡(luò)信息源的特點,構(gòu)筑類目體系。在14個基本大類之下又以擁有信息的多寡及知識組織的需要程度,將每一基本大類細分成不同層次的次類目。層次越深,主題越專指,從而形成了一個由類目、子類目構(gòu)成的可供瀏覽的相當詳盡的目錄等級結(jié)構(gòu),為網(wǎng)上豐富的信息資源歸類,特別是確切歸類提供了保障。 以人工方式為主,保證加工質(zhì)量。采用分面分析原理,由信息專家編制主題目錄,將人的智力投入到信息的選擇與加工過程中,從而保證了目錄編制的質(zhì)量。同時,以人工為主,對提交的網(wǎng)頁按主題目錄進行篩選、歸類和組織,克服了單純由搜索軟件自動分類所帶來的缺陷,增強了分類的合理性,提高了檢索的準確性。 ●目錄式搜索引擎的不足 覆蓋率有限 :網(wǎng)絡(luò)信息增長迅速,使得采集信息的速度遠遠跟不上信息增長的速度,更不用說編制主題索引的速度了;分類困難:不同搜索引擎的體系結(jié)構(gòu)不同,分類體系的建立缺乏統(tǒng)一的標準,使得同一內(nèi)容的信息在不同搜索引擎中經(jīng)常會被歸入不同類目,造成用戶的困擾;成本高,時效差。隨著網(wǎng)絡(luò)應(yīng)用技術(shù)的發(fā)展,用戶不再滿足于這種對網(wǎng)站分類和摘要的簡單查找,更希望對內(nèi)容進行查找,于是就出現(xiàn)了基于關(guān)鍵詞查詢的搜索引擎。 2、基于關(guān)鍵詞的搜索引擎 目前互聯(lián)網(wǎng)上的搜索引擎大多數(shù)都采用了基于關(guān)鍵詞的查詢技術(shù),其典型代表為Google和百度,內(nèi)容可以覆蓋互聯(lián)網(wǎng)上的絕大多數(shù)網(wǎng)頁內(nèi)容。 基于關(guān)鍵詞的搜索引擎一般由搜索器、索引器、檢索器和用戶接口等四個部分組成。 ●基于關(guān)鍵詞的搜索引擎的排序算法 基于關(guān)鍵詞的搜索引擎通過程序收集并索引的信息資源量極其龐大,而用戶的提問式卻大多由幾個詞組成,這種情況會導(dǎo)致數(shù)量龐大的檢索結(jié)果,用戶需要花費巨大的精力進行瀏覽篩選。搜索引擎采用的排序算法包括以下幾種:基于詞頻統(tǒng)計的排序算法 。早期很多搜索引擎采用的排序算法是基于詞頻統(tǒng)計的,詞權(quán)的計算一般把該詞在HTML網(wǎng)頁中出現(xiàn)的位置考慮進來,例如在標題中出現(xiàn)的詞比在正文中的詞權(quán)值高。但是由于網(wǎng)絡(luò)資源的數(shù)量巨大,詞頻相同的兩個網(wǎng)頁質(zhì)量卻可能相差很遠,因此這種算法的局限性很明顯。 ●基于超鏈分析的排序算法。 傳統(tǒng)情報檢索理論中的引文分析方法是確定學(xué)術(shù)文獻權(quán)威性的重要方法之一,即根據(jù)引文的數(shù)量來確定文獻的權(quán)威性。Google所采用的PageRank即借鑒了這一思想。PageRank的發(fā)明者對網(wǎng)絡(luò)超鏈接結(jié)構(gòu)和文獻引文機制的相似性進行了研究,把引文分析思想借鑒到網(wǎng)絡(luò)文檔重要性的計算中來,利用網(wǎng)絡(luò)自身的超鏈接結(jié)構(gòu)給所有的網(wǎng)頁確定一個重要性的等級數(shù),以此來幫助實現(xiàn)排序算法的優(yōu)化。但它存在著偏重舊網(wǎng)頁和偏重綜合站點的缺陷。 ●基于關(guān)鍵詞的搜索引擎的不足 明顯的不足表現(xiàn)為:結(jié)果多,相關(guān)性低;更新慢;對自然語言理解能力差;不支持個性化查詢;對多媒體內(nèi)容的檢索尚不成熟。 搜索引擎的技術(shù)熱點
針對基于關(guān)鍵詞搜索引擎所存在的不足,各搜索引擎網(wǎng)站紛紛向智能化、個性化方面發(fā)展,世界各國計算機科學(xué)界和信息產(chǎn)業(yè)界也都在積極的探索解決之道,搜索引擎已成為一個新的研究、開發(fā)領(lǐng)域。
1、多媒體搜索技術(shù) 基于內(nèi)容的檢索,是指直接對媒體內(nèi)容特征和上下文語義環(huán)境進行的檢索。一般而言,可用于網(wǎng)絡(luò)檢索的多媒體信息的內(nèi)容特征大致包括:圖像的顏色、紋理、形狀等;聲音的音頻、響度、頻度和音色等;影像的視頻特征、運動特征等。這種類型的搜索引擎還不多見,并且主要用于圖像檢索,如QBIC、WeebSeek、ImageRover等。目前的多媒體搜索引擎覆蓋面小,檢索功能不夠完善,效果也不太理想,因此,多媒體搜索技術(shù)尤其是音頻、視頻數(shù)據(jù)的檢索仍是搜索引擎的一個研究重點。 2、對等搜索技術(shù) 目前的互聯(lián)網(wǎng)是以服務(wù)器為中心的,人們向服務(wù)器發(fā)送請求,然后瀏覽服務(wù)器回應(yīng)的信息,而對等搜索技術(shù)P2P(Peer to Peer)將以用戶為中心,所有的用戶都是平等的伙伴。相隔萬里的用戶可以通過P2P共享硬盤上的文件、目錄甚至整個硬盤。把這一理念具體運用到搜索引擎技術(shù)上來:P2P將使用戶能夠深度搜索文檔,而且這種搜索無須通過Web服務(wù)器,也可以不受信息文檔格式和宿主設(shè)備的限制,可達到傳統(tǒng)目錄式搜索引擎無可比擬的深度。 P2P網(wǎng)絡(luò)的一個很大的問題在于搜索信息時所產(chǎn)生的網(wǎng)絡(luò)通信量非常巨大,在時間和網(wǎng)絡(luò)資源方面造成很大的浪費。為方便P2P網(wǎng)絡(luò)中的信息檢索,有關(guān)專家提出了三種建立在特征文件基礎(chǔ)上的檢索機制:對語義路由進行詳細分析,提出了一個建立在此技術(shù)和RDF技術(shù)基礎(chǔ)上的新方法。 3、用戶行為分析 一個以西班牙語的目錄式搜索引擎的用戶日志為樣本分析了網(wǎng)絡(luò)用戶的搜索行為,發(fā)現(xiàn)網(wǎng)絡(luò)搜索用戶與傳統(tǒng)檢索系統(tǒng)的用戶其行為存在差別,例如,網(wǎng)絡(luò)用戶一般只查看最前面的幾個結(jié)果頁面,網(wǎng)絡(luò)用戶很少使用操作符構(gòu)造提問式等。該研究還對搜索次數(shù)與用戶每分鐘查看的文獻或目錄數(shù)進行了分析。 4、智能檢索技術(shù) 智能檢索主要包括自然語言處理、個性化搜索等技術(shù),目前涉及這一領(lǐng)域的研究較多。 智能工具MySpiders是一個線性多代理系統(tǒng),可以在用戶提問時對網(wǎng)絡(luò)信息進行挖掘,實現(xiàn)實時的動態(tài)查詢,從而加強搜索引擎的功能。智能檢索系統(tǒng)——ACIRD使用機器學(xué)習(xí)技術(shù)組織和檢索網(wǎng)絡(luò)文獻。它由知識獲取模塊、文獻分類器和搜索引擎組成。 5、檢索結(jié)果的后處理 目前這方面的研究內(nèi)容主要集中在結(jié)果排序的優(yōu)化算法以及結(jié)果的聚類及可視化等領(lǐng)域。 對內(nèi)容敏感的排序算法的研究表明,傳統(tǒng)的PageRank算法是與提問無關(guān)的,只計算一個向量值用以衡量網(wǎng)頁的重要性。而事實上,對于不同的提問,網(wǎng)頁的重要性也不相同。 檢索結(jié)果可視化并可修正提問的交互系統(tǒng)Webrat不依賴事先計算好的元數(shù)據(jù),而是直接從搜索引擎的結(jié)果列表中獲取所有必要信息,將結(jié)果文獻實時動態(tài)聚類,并以圖示方法提供給用戶。用戶可以利用選擇關(guān)鍵詞以及類別的方式與系統(tǒng)交互,從而修正提問獲取更滿意的結(jié)果。該系統(tǒng)獨立于語言,適用于大量數(shù)據(jù)來源及可視化模型。
|