HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    搜索引擎器的主要功能(搜索引擎器的主要功能是什么)

    發(fā)布時(shí)間:2023-04-21 21:04:30     稿源: 創(chuàng)意嶺    閱讀: 109        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于搜索引擎器的主要功能的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    搜索引擎器的主要功能(搜索引擎器的主要功能是什么)

    一、請(qǐng)列出國(guó)內(nèi)外十大搜索引擎,并說(shuō)明它們的優(yōu)缺點(diǎn)!

    全球十大搜索引擎

    1. Google ——  全球最大的 (機(jī)器)搜索引擎

    主要搜索結(jié)果將列入AOL, Netscape, iwon和Go.

    Google在對(duì)網(wǎng)站進(jìn)行排名時(shí)不僅衡量關(guān)鍵詞與頁(yè)面的匹配度,也考慮外部鏈接。一個(gè)網(wǎng)站擁有越多的外部鏈接,說(shuō)明它越受歡迎。

    2. Yahoo

    —— 世界最早的分類目錄,也是最大的門戶網(wǎng)站。

    它的搜索結(jié)果最初來(lái)自于Google,后采用Inktomi(已被雅虎收購(gòu))提供的結(jié)果。Yahoo現(xiàn)在開(kāi)發(fā)了自己的搜索技術(shù),稱為Yahoo

    Search Technology (YST)。

    3. MSN

    —— 錄屬于微軟公司。

    MSN提供的Hotmail和MSN

    Message極受歡迎。但MSN沒(méi)有自己的搜索引擎,一直采用其他搜索引擎的結(jié)果。比如,MSN主要搜索結(jié)果來(lái)自于Inktomi,競(jìng)價(jià)廣告原由LookSmart提供,但于2004年初改由Overture提供。

    4. AOL —— 美國(guó)在線,是美國(guó)也是世界上最早的門戶網(wǎng)站之一。

    幾年前已與時(shí)代公司合并,成為美國(guó)在線-時(shí)代華納公司。AOL目前的主營(yíng)業(yè)務(wù)是ISP。其搜索結(jié)果 全部來(lái)自于Google 提供。也就是說(shuō),有良好的Google排名也有良好的AOL排名。

    5. Lycos —— 西班牙公司,全稱為Terry Lycos,是全世界最早的搜索引擎之一。

    目前,Lycos已放棄自己開(kāi)發(fā)的搜索技術(shù),而主要搜索結(jié)果來(lái)自于Alltheweb。另外,其競(jìng)價(jià)排名結(jié)果來(lái)自于Google的右側(cè)廣告。

    6. Ask Jeeves —— 規(guī)模不大,但很有特色的搜索搜索。

    Ask是DirectHit的母公司,于2001年收購(gòu)Teoma搜索引擎,并全部采用其搜索結(jié)果。奇怪的是,Ask的競(jìng)價(jià)排名結(jié)果卻仍然來(lái)自于Google的右側(cè)廣告。

    7. Overture —— 最早的付費(fèi)搜索引擎(競(jìng)價(jià)排名搜索引擎)。

    搜索結(jié)果被Yahoo,

    MSN等采用。Overture收購(gòu)了Google的對(duì)手Inktomi后被Yahoo收購(gòu),是Google AdWords目前最大的競(jìng)爭(zhēng)對(duì)手。

    如何在Overture做競(jìng)價(jià)排名廣告

    8. Netscape

    —— 即網(wǎng)景公司,Netscape最初被廣大用戶認(rèn)知是因?yàn)樗腘etscape瀏覽器。

    但網(wǎng)景公司研發(fā)的瀏覽器現(xiàn)在幾乎完全被微軟的Internet

    Explorer瀏覽器逐出市場(chǎng)。只有少數(shù)的網(wǎng)民(不使用微軟操作系統(tǒng)的)使用Netscape瀏覽器。Netscape的搜索結(jié)果

    全部來(lái)自于Google. 另外,全世界最大的開(kāi)放式目錄DMOZ錄屬于網(wǎng)景公司。

    9. AltaVista —— 全世界最古老的搜索引擎之一,中國(guó)網(wǎng)民很難訪問(wèn)。

    該搜索引擎已于2003年被Yahoo收購(gòu)。同時(shí)被Yahoo收購(gòu)的還有AllTheWeb。

    微迪認(rèn)為,AltaVista不久可能銷聲匿跡,因?yàn)閅ahoo并沒(méi)有采用AltaVista、Alltheweb或者Inktomi的搜索結(jié)果,而是重新開(kāi)發(fā)全新的搜索技術(shù)。

    10. Inktomi

    —— 不向終端用戶開(kāi)放,只對(duì)搜索引擎提供搜索結(jié)果。

    于2003年被Overture收購(gòu)(Overture后又被Yahoo收購(gòu))。在2004年Yahoo開(kāi)發(fā)自己全新的搜索引擎技術(shù)之前,Inktomi還是全球第二大搜索引擎,其搜索結(jié)果被Hotbot,

    MSN等著名的網(wǎng)站采用。

    搜索引擎器的主要功能(搜索引擎器的主要功能是什么)

    拓展資料:

    搜索引擎(Search Engine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等。

    一個(gè)搜索引擎由搜索器 、索引器 、檢索器 和用戶接口 四個(gè)部分組成。搜索器的功能是在互聯(lián)網(wǎng) 中漫游,發(fā)現(xiàn)和搜集信息。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔 以及生成文檔庫(kù)的索引表。檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。

    參考資料:百度百科_搜索引擎

    二、搜索引擎有什么作用?不用可以嗎?

    搜索引擎是網(wǎng)站建設(shè)中針對(duì)“用戶使用網(wǎng)站的便利性”所提供的必要功能,同時(shí)也是研究網(wǎng)站用戶行為的一個(gè)有效工具,高效的站內(nèi)檢索可以讓用戶快速準(zhǔn)確地找到目標(biāo)信息,從而更有效地促進(jìn)產(chǎn)品/服務(wù)的銷售,而且通過(guò)對(duì)網(wǎng)站訪問(wèn)者搜索行為的深度分析,對(duì)于進(jìn)一步制定更為有效的網(wǎng)絡(luò)營(yíng)銷策略具有重要價(jià)值。

    主要看你想要做什么了,如果你心里知道某個(gè)網(wǎng)站,可以直接在地址欄輸入網(wǎng)址打開(kāi)進(jìn)入,也可以通過(guò)收藏夾書簽快捷進(jìn)入。或者通過(guò)網(wǎng)絡(luò)收藏夾網(wǎng)站,如百度搜藏點(diǎn)擊進(jìn)入,以及網(wǎng)址導(dǎo)航站、個(gè)性網(wǎng)址站如13580進(jìn)入,甚至寫成文章發(fā)表在博客、論壇中再點(diǎn)擊進(jìn)入都可以。如果你不看網(wǎng)站,可以通過(guò)軟件玩游戲、聽(tīng)音樂(lè)、看書等等。

    三、搜索引擎如何實(shí)現(xiàn)搜索的啊

    隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題(它可以為用戶提供信息檢索服務(wù))。搜索引擎是指互聯(lián)網(wǎng)上專門提供檢索服務(wù)的一類網(wǎng)站,這些站點(diǎn)的服務(wù)器通過(guò)網(wǎng)絡(luò)搜索軟件(例如網(wǎng)絡(luò)搜索機(jī)器人)或網(wǎng)絡(luò)登錄等方式,將Intemet上大量網(wǎng)站的頁(yè)面信息收集到本地,經(jīng)過(guò)加工處理建立信息數(shù)據(jù)庫(kù)和索引數(shù)據(jù)庫(kù),從而對(duì)用戶提出的各種檢索作出響應(yīng),提供用戶所需的信息或相關(guān)指針。用戶的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類檢索及其他特殊信息的檢索(如企業(yè)、人名、電話黃頁(yè)等)。下面以網(wǎng)絡(luò)搜索機(jī)器人為例來(lái)說(shuō)明搜索引擎技術(shù)。

    1.網(wǎng)絡(luò)機(jī)器人技術(shù)

    網(wǎng)絡(luò)機(jī)器人(Robot)又被稱作Spider、Worm或Random,核心目的是為獲取Intemet上的信息。一般定義為“一個(gè)在網(wǎng)絡(luò)上檢索文件且自動(dòng)跟蹤該文件的超文本結(jié)構(gòu)并循環(huán)檢索被參照的所有文件的軟件”。機(jī)器人利用主頁(yè)中的超文本鏈接遍歷WWW,通過(guò)U趾引用從一個(gè)HT2LIL文檔爬行到另一個(gè)HTML文檔。網(wǎng)上機(jī)器人收集到的信息可有多種用途,如建立索引、HIML文件合法性的驗(yàn)證、uRL鏈接點(diǎn)驗(yàn)證與確認(rèn)、監(jiān)控與獲取更新信息、站點(diǎn)鏡像等。

    機(jī)器人安在網(wǎng)上爬行,因此需要建立一個(gè)URL列表來(lái)記錄訪問(wèn)的軌跡。它使用超文本,指向其他文檔的URL是隱藏在文檔中,需要從中分析提取URL,機(jī)器人一般都用于生成索引數(shù)據(jù)庫(kù)。所有WWW的搜索程序都有如下的工作步驟:

    (1)機(jī)器人從起始URL列表中取出URL并從網(wǎng)上讀取其指向的內(nèi)容;

    (2)從每一個(gè)文檔中提取某些信息(如關(guān)鍵字)并放入索引數(shù)據(jù)庫(kù)中;

    (3)從文檔中提取指向其他文檔的URL,并加入到URL列表中;

    (4)重復(fù)上述3個(gè)步驟,直到再?zèng)]有新的URL出現(xiàn)或超出了某些限制(時(shí)間或磁盤空間);

    (5)給索引數(shù)據(jù)庫(kù)加上檢索接口,向網(wǎng)上用戶發(fā)布或提供給用戶檢索。

    搜索算法一般有深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。機(jī)器人以URL列表存取的方式?jīng)Q定搜索策略:先進(jìn)先出,則形成廣度優(yōu)先搜索,當(dāng)起始列表包含有大量的WWW服務(wù)器地址時(shí),廣度優(yōu)先搜索將產(chǎn)生一個(gè)很好的初始結(jié)果,但很難深入到服務(wù)器中去;先進(jìn)后出,則形成深度優(yōu)先搜索,這樣能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結(jié)構(gòu),即找到最大數(shù)目的交叉引用。也可以采用遍歷搜索的方法,就是直接將32位的IP地址變化,逐個(gè)搜索整個(gè)Intemet。

    搜索引擎是一個(gè)技術(shù)含量很高的網(wǎng)絡(luò)應(yīng)用系統(tǒng)。它包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫(kù)技術(shù)動(dòng)標(biāo)引技術(shù)、檢索技術(shù)、自動(dòng)分類技術(shù),機(jī)器學(xué)習(xí)等人工智能技術(shù)。

    2.索引技術(shù)

    索引技術(shù)是搜索引擎的核心技術(shù)之一。搜索引擎要對(duì)所收集到的信息進(jìn)行整理、分類、索引以產(chǎn)生索引庫(kù),而中文搜索引擎的核心是分詞技術(shù)。分詞技術(shù)是利用一定的規(guī)則和詞庫(kù),切分出一個(gè)句子中的詞,為自動(dòng)索引做好準(zhǔn)備。目前的索引多采用Non—clustered方法,該技術(shù)和語(yǔ)言文字的學(xué)問(wèn)有很大的關(guān)系,具體有如下幾點(diǎn):

    (1)存儲(chǔ)語(yǔ)法庫(kù),和詞匯庫(kù)配合分出句子中的詞匯;

    (2)存儲(chǔ)詞匯庫(kù),要同時(shí)存儲(chǔ)詞匯的使用頻率和常見(jiàn)搭配方式;

    (3)詞匯寬,應(yīng)可劃分為不同的專業(yè)庫(kù),以便于處理專業(yè)文獻(xiàn);

    (4)對(duì)無(wú)法分詞的句子,把每個(gè)字當(dāng)作詞來(lái)處理。

    索引器生成從關(guān)鍵詞到URL的關(guān)系索引表。索引表一般使用某種形式的倒排表(1nversionUst),即由索引項(xiàng)查找相應(yīng)的URL。索引表也要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰關(guān)系或接近關(guān)系,并以特定的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)在硬盤上。

    不同的搜索引擎系統(tǒng)可能采用不盡相同的標(biāo)引方法。例如Webcrawler利用全文檢索技術(shù),對(duì)網(wǎng)頁(yè)中每一個(gè)單詞進(jìn)行索引;Lycos只對(duì)頁(yè)名、標(biāo)題以及最重要的100個(gè)注釋詞等選擇性詞語(yǔ)進(jìn)行索引;Infoseek則提供概念檢索和詞組檢索,支持and、or、near、not等布爾運(yùn)算。檢索引擎的索引方法大致可分為自動(dòng)索引、手工索引和用戶登錄三類。

    3. 檢索器與結(jié)果處理技術(shù)

    檢索器的主要功能是根據(jù)用戶輸入的關(guān)鍵詞在索引器形成的倒排表中進(jìn)行檢索,同時(shí)完成頁(yè)面與檢索之間的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

    通過(guò)搜索引擎獲得的檢索結(jié)果往往成百上千,為了得到有用的信息,常用的方法是按網(wǎng)頁(yè)的重要性或相關(guān)性給網(wǎng)頁(yè)評(píng)級(jí),進(jìn)行相關(guān)性排序。這里的相關(guān)度是指搜索關(guān)鍵字在文檔中出現(xiàn)的額度。當(dāng)額度越高時(shí),則認(rèn)為該文檔的相關(guān)程度越高。能見(jiàn)度也是常用的衡量標(biāo)準(zhǔn)之一。一個(gè)網(wǎng)頁(yè)的能見(jiàn)度是指該網(wǎng)頁(yè)入口超級(jí)鏈接的數(shù)目。能見(jiàn)度方法是基于這樣的觀點(diǎn):一個(gè)網(wǎng)頁(yè)被其他網(wǎng)頁(yè)引用得越多,則該網(wǎng)頁(yè)就越有價(jià)值。特別地,一個(gè)網(wǎng)頁(yè)被越重要的網(wǎng)頁(yè)所引用,則該網(wǎng)頁(yè)的重要程度也就越高。結(jié)果處理技術(shù)可歸納為:

    (1)按頻次排定次序 通常,如果一個(gè)頁(yè)面包含了越多的關(guān)鍵詞,其搜索目標(biāo)的相關(guān)性應(yīng)該越好,這是非常合平常理的解決方案。

    (2)按頁(yè)面被訪問(wèn)度排序 在這種方法中,搜索引擎會(huì)記錄它所搜索到的頁(yè)面被訪問(wèn)的頻率。人們?cè)L問(wèn)較多的頁(yè)面通常應(yīng)該包含比較多的信息,或者有其他吸引入的長(zhǎng)處。這種解決方案適合一般的搜索用戶,而因?yàn)榇蟛糠值乃阉饕娑疾皇菍I(yè)性用戶,所以這種方案也比較適合一般搜索引擎使用。

    (3)二次檢索 進(jìn)一步凈化(比f(wàn)lne)結(jié)果,按照一定的條件對(duì)搜索結(jié)果進(jìn)行優(yōu)化,可以再選擇類別、相關(guān)詞進(jìn)行二次搜索等。

    由于目前的搜索引擎還不具備智能,除非知道要查找的文檔的標(biāo)題,否則排列第一的結(jié)果未必是“最好”的結(jié)果。所以有些文檔盡管相關(guān)程度高,但并不一定是用戶最需要的文檔。

    搜索引擎技術(shù)的行業(yè)應(yīng)用:

    搜索引擎的行業(yè)應(yīng)用一般指類似于千瓦通信提供的多種搜索引擎行業(yè)與產(chǎn)品應(yīng)用模式,大體上分為如下幾種形式:

    1、 政府機(jī)關(guān)行業(yè)應(yīng)用

    n 實(shí)時(shí)跟蹤、采集與業(yè)務(wù)工作相關(guān)的信息來(lái)源。

    n 全面滿足內(nèi)部工作人員對(duì)互聯(lián)網(wǎng)信息的全局觀測(cè)需求。

    n 及時(shí)解決政務(wù)外網(wǎng)、政務(wù)內(nèi)網(wǎng)的信息源問(wèn)題,實(shí)現(xiàn)動(dòng)態(tài)發(fā)布。

    n 快速解決政府主網(wǎng)站對(duì)各地級(jí)子網(wǎng)站的信息獲取需求。

    n 全面整合信息,實(shí)現(xiàn)政府內(nèi)部跨地區(qū)、跨部門的信息資源共享與有效溝通。

    n 節(jié)約信息采集的人力、物力、時(shí)間,提高辦公效率。

    2、企業(yè)行業(yè)應(yīng)用

    n 實(shí)時(shí)準(zhǔn)確地監(jiān)控、追蹤競(jìng)爭(zhēng)對(duì)手動(dòng)態(tài),是企業(yè)獲取競(jìng)爭(zhēng)情報(bào)的利器。

    n 及時(shí)獲取競(jìng)爭(zhēng)對(duì)手的公開(kāi)信息以便研究同行業(yè)的發(fā)展與市場(chǎng)需求。

    n 為企業(yè)決策部門和管理層提供便捷、多途徑的企業(yè)戰(zhàn)略決策工具。

    n 大幅度地提高企業(yè)獲取、利用情報(bào)的效率,節(jié)省情報(bào)信息收集、存儲(chǔ)、挖掘的相關(guān)費(fèi)用,是提高企業(yè)核心競(jìng)爭(zhēng)力的關(guān)鍵。

    n 提高企業(yè)整體分析研究能力、市場(chǎng)快速反應(yīng)能力,建立起以知識(shí)管理為核心的競(jìng)爭(zhēng)情報(bào)數(shù)據(jù)倉(cāng)庫(kù),是提高企業(yè)核心競(jìng)爭(zhēng)力的神經(jīng)中樞。

    3、新聞媒體行業(yè)應(yīng)用

    n 快速準(zhǔn)確地自動(dòng)跟蹤、采集數(shù)千家網(wǎng)絡(luò)媒體信息,擴(kuò)大新聞線索,提高采集速度。

    n 支持每天對(duì)數(shù)萬(wàn)條新聞進(jìn)行有效抓取。監(jiān)控范圍的深度、廣度可以自行設(shè)定。

    n 支持對(duì)所需內(nèi)容智能提取、審核。

    n 實(shí)現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

    4、 行業(yè)網(wǎng)站應(yīng)用

    n 實(shí)時(shí)跟蹤、采集與網(wǎng)站相關(guān)的信息來(lái)源。

    n 及時(shí)跟蹤行業(yè)的信息來(lái)源網(wǎng)站,自動(dòng),快速更新網(wǎng)站信息。動(dòng)態(tài)更新信息。

    n 實(shí)現(xiàn)互聯(lián)網(wǎng)信息內(nèi)容采集、瀏覽、編輯、管理、發(fā)布的一體化。

    n 針對(duì)商務(wù)網(wǎng)站提出商務(wù)管理模式,大大提高行業(yè)網(wǎng)站的商務(wù)應(yīng)用需求。

    n 針對(duì)資訊網(wǎng)站分類目錄生成,提出用戶生成網(wǎng)站分類結(jié)構(gòu)。并可以實(shí)時(shí)增加與更新分類結(jié)構(gòu)。不受級(jí)數(shù)限制。從而大大利高行業(yè)的應(yīng)用性。

    n 提供搜索引擎SEO優(yōu)化專業(yè)服務(wù),快速提高行業(yè)網(wǎng)站的推廣。

    n 提供與CCDC呼叫搜索引擎的廣告合作。建立行業(yè)網(wǎng)站聯(lián)盟,提高行業(yè)網(wǎng)站知名度。

    5) 網(wǎng)絡(luò)信息監(jiān)察與監(jiān)控

    n 網(wǎng)絡(luò)輿情系統(tǒng)。如“千瓦通信-網(wǎng)絡(luò)輿情雷達(dá)監(jiān)測(cè)系統(tǒng)”

    n 網(wǎng)站信息與內(nèi)容監(jiān)察與監(jiān)控系統(tǒng),如“千瓦通信-網(wǎng)站信息與內(nèi)容監(jiān)測(cè)與監(jiān)察系統(tǒng)(站內(nèi)神探)”

    隨著因特網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找信息,就象大海撈

    針一樣,搜索引擎技術(shù)恰好解決了這一難題(它可以為用戶提供信息檢索服務(wù))。目前,

    搜索引擎技術(shù)正成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開(kāi)發(fā)的對(duì)象。

    搜索引擎(Search Engine)是隨著WEB信息的迅速增加,從1995年開(kāi)始逐漸發(fā)展起來(lái)

    的技術(shù)。據(jù)發(fā)表在《科學(xué)》雜志1999年7月的文章《WEB信息的可訪問(wèn)性》估計(jì),全球目前

    的網(wǎng)頁(yè)超過(guò)8億,有效數(shù)據(jù)超過(guò)9T,并且仍以每4個(gè)月翻一番的速度增長(zhǎng)。用戶要在如此浩

    瀚的信息海洋里尋找信息,必然會(huì)"大海撈針"無(wú)功而返。搜索引擎正是為了解決這個(gè)"迷航

    "問(wèn)題而出現(xiàn)的技術(shù)。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解

    、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。搜索引擎提供

    的導(dǎo)航服務(wù)已經(jīng)成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)服務(wù),搜索引擎站點(diǎn)也被美譽(yù)為"網(wǎng)絡(luò)門戶"

    。搜索引擎技術(shù)因而成為計(jì)算機(jī)工業(yè)界和學(xué)術(shù)界爭(zhēng)相研究、開(kāi)發(fā)的對(duì)象。本文旨在對(duì)搜索

    引擎的關(guān)鍵技術(shù)進(jìn)行簡(jiǎn)單的介紹,以起到拋磚引玉的作用。

    分 類

    按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:

    1.目錄式搜索引擎:以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人

    工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏

    覽服務(wù)和直接檢索服務(wù)。該類搜索引擎因?yàn)榧尤肓巳说闹悄?,所以信息?zhǔn)確、導(dǎo)航質(zhì)量高

    ,缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表是

    :Yahoo、LookSmart、Open Directory、Go Guide等。

    2.機(jī)器人搜索引擎:由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互

    聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸

    入檢索索引庫(kù),并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁(yè)的全文檢索服務(wù)。該類搜

    索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過(guò)多,有很多無(wú)關(guān)

    信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表是:AltaVista、Northern Ligh

    t、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國(guó)內(nèi)代表為:"天網(wǎng)"、悠游、O

    penFind等。

    3.元搜索引擎:這類搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜

    索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用

    戶。服務(wù)方式為面向網(wǎng)頁(yè)的全文檢索。這類搜索引擎的優(yōu)點(diǎn)是返回結(jié)果的信息量更大、更

    全,缺點(diǎn)是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引

    擎的代表是WebCrawler、InfoMarket等。

    性 能 指 標(biāo)

    我們可以將WEB信息的搜索看作一個(gè)信息檢索問(wèn)題,即在由WEB網(wǎng)頁(yè)組成的文檔庫(kù)中檢索

    出與用戶查詢相關(guān)的文檔。所以我們可以用衡量傳統(tǒng)信息檢索系統(tǒng)的性能參數(shù)-召回率(R

    ecall)和精度(Pricision)衡量一個(gè)搜索引擎的性能。

    召回率是檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系

    統(tǒng)(搜索引擎)的查全率;精度是檢索出的相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量

    的是檢索系統(tǒng)(搜索引擎)的查準(zhǔn)率。對(duì)于一個(gè)檢索系統(tǒng)來(lái)講,召回率和精度不可能兩全

    其美:召回率高時(shí),精度低,精度高時(shí),召回率低。所以常常用11種召回率下11種精度的

    平均值(即11點(diǎn)平均精度)來(lái)衡量一個(gè)檢索系統(tǒng)的精度。對(duì)于搜索引擎系統(tǒng)來(lái)講,因?yàn)闆](méi)

    有一個(gè)搜索引擎系統(tǒng)能夠搜集到所有的WEB網(wǎng)頁(yè),所以召回率很難計(jì)算。目前的搜索引擎系

    統(tǒng)都非常關(guān)心精度。

    影響一個(gè)搜索引擎系統(tǒng)的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢

    的表示方法、評(píng)價(jià)文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相

    關(guān)度反饋的機(jī)制。

    主 要 技 術(shù)

    一個(gè)搜索引擎由搜索器、索引器、檢索器和用戶接口等四個(gè)部分組成。

    1.搜索器

    搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜

    不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信

    息更新很快,所以還要定期更新已經(jīng)搜集過(guò)的舊信息,以避免死連接和無(wú)效連接。目前有

    兩種搜集信息的策略:

    ● 從一個(gè)起始URL集合開(kāi)始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深

    度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常

    是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo?。?

    ● 將Web空間按照域名、IP地址或國(guó)家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡

    搜索。 搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、

    字處理文檔、多媒體信息。 搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息

    發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬(wàn)網(wǎng)頁(yè)。

    2.索引器

    索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生

    成文檔庫(kù)的索引表。

    索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語(yǔ)意內(nèi)容無(wú)關(guān),如作者名、

    URL、更新時(shí)間、編碼、長(zhǎng)度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項(xiàng)是用來(lái)

    反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語(yǔ)、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和

    多索引項(xiàng)(或稱短語(yǔ)索引項(xiàng))兩種。單索引項(xiàng)對(duì)于英文來(lái)講是英語(yǔ)單詞,比較容易提取,

    因?yàn)閱卧~之間有天然的分隔符(空格);對(duì)于中文等連續(xù)書寫的語(yǔ)言,必須進(jìn)行詞語(yǔ)的切

    分。 在搜索引擎中,一般要給單索引項(xiàng)賦與一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分

    度,同時(shí)用來(lái)計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短

    語(yǔ)索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語(yǔ)言學(xué)法。

    索引表一般使用某種形式的倒排表(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔

    。索引表也可能要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或

    接近關(guān)系(proximity)。

    索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)即時(shí)

    索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對(duì)索引器

    的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大

    程度上取決于索引的質(zhì)量。

    3.檢索器 檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓?kù)中快速檢出文檔,進(jìn)行文檔與

    查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

    檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。

    4.用戶接口

    用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。主要的

    目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時(shí)的信息。

    用戶接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。

    用戶輸入接口可以分為簡(jiǎn)單接口和復(fù)雜接口兩種。

    簡(jiǎn)單接口只提供用戶輸入查詢串的文本框;復(fù)雜接口可以讓用戶對(duì)查詢進(jìn)行限制,如

    邏輯運(yùn)算(與、或、非;+、-)、相近關(guān)系(相鄰、NEAR)、域名范圍(如.edu、.com)

    、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、信息時(shí)間、長(zhǎng)度等等。目前一些公司和機(jī)構(gòu)正在考慮制定

    查詢選項(xiàng)的標(biāo)準(zhǔn)。

    未 來(lái) 動(dòng) 向

    搜索引擎已成為一個(gè)新的研究、開(kāi)發(fā)領(lǐng)域。因?yàn)樗玫叫畔z索、人工智能、計(jì)算

    機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、數(shù)字圖書館、自然語(yǔ)言處理等多領(lǐng)域的理論和

    技術(shù),所以具有綜合性和挑戰(zhàn)性。又由于搜索引擎有大量的用戶,有很好的經(jīng)濟(jì)價(jià)值,所

    以引起了世界各國(guó)計(jì)算機(jī)科學(xué)界和信息產(chǎn)業(yè)界的高度關(guān)注,目前的研究、開(kāi)發(fā)十分活躍,

    并出現(xiàn)了很多值得注意的動(dòng)向。

    1.十分注意提高信息查詢結(jié)果的精度,提高檢索的有效性 用戶在搜索引擎上進(jìn)行

    信息查詢時(shí),并不十分關(guān)注返回結(jié)果的多少,而是看結(jié)果是否和自己的需求吻合。對(duì)于一

    個(gè)查詢,傳統(tǒng)的搜索引擎動(dòng)輒返回幾十萬(wàn)、幾百萬(wàn)篇文檔,用戶不得不在結(jié)果中篩選。解

    決查詢結(jié)果過(guò)多的現(xiàn)象目前出現(xiàn)了幾種方法:一是通過(guò)各種方法獲得用戶沒(méi)有在查詢語(yǔ)句

    中表達(dá)出來(lái)的真正用途,包括使用智能代理跟蹤用戶檢索行為,分析用戶模型;使用相關(guān)

    度反饋機(jī)制,使用戶告訴搜索引擎哪些文檔和自己的需求相關(guān)(及其相關(guān)的程度),哪些

    不相關(guān),通過(guò)多次交互逐步求精。二是用正文分類(Text Categorization)技術(shù)將結(jié)果分

    類,使用可視化技術(shù)顯示分類結(jié)構(gòu),用戶可以只瀏覽自己感興趣的類別。三是進(jìn)行站點(diǎn)類

    聚或內(nèi)容類聚,減少信息的總量。

    2.基于智能代理的信息過(guò)濾和個(gè)性化服務(wù)

    信息智能代理是另外一種利用互聯(lián)網(wǎng)信息的機(jī)制。它使用自動(dòng)獲得的領(lǐng)域模型(如We

    b知識(shí)、信息處理、與用戶興趣相關(guān)的信息資源、領(lǐng)域組織結(jié)構(gòu))、用戶模型(如用戶背景

    、興趣、行為、風(fēng)格)知識(shí)進(jìn)行信息搜集、索引、過(guò)濾(包括興趣過(guò)濾和不良信息過(guò)濾)

    ,并自動(dòng)地將用戶感興趣的、對(duì)用戶有用的信息提交給用戶。智能代理具有不斷學(xué)習(xí)、適

    應(yīng)信息和用戶興趣動(dòng)態(tài)變化的能力,從而提供個(gè)性化的服務(wù)。智能代理可以在用戶端進(jìn)行

    ,也可以在服務(wù)器端運(yùn)行。

    3.采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能

    搜索引擎的實(shí)現(xiàn)可以采用集中式體系結(jié)構(gòu)和分布式體系結(jié)構(gòu),兩種方法各有千秋。但

    當(dāng)系統(tǒng)規(guī)模到達(dá)一定程度(如網(wǎng)頁(yè)數(shù)達(dá)到億級(jí))時(shí),必然要采用某種分布式方法,以提高

    系統(tǒng)性能。搜索引擎的各個(gè)組成部分,除了用戶接口之外,都可以進(jìn)行分布:搜索器可以

    在多臺(tái)機(jī)器上相互合作、相互分工進(jìn)行信息發(fā)現(xiàn),以提高信息發(fā)現(xiàn)和更新速度;索引器可

    以將索引分布在不同的機(jī)器上,以減小索引對(duì)機(jī)器的要求;檢索器可以在不同的機(jī)器上.

    四、搜索引擎的工作內(nèi)容有哪些?

    抓取網(wǎng)頁(yè)。每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁(yè)抓取程序爬蟲(chóng)(spider)。爬蟲(chóng)Spider順著網(wǎng)頁(yè)中的超鏈接,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,通過(guò)超鏈接分析連續(xù)訪問(wèn)抓取更多網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。處理網(wǎng)頁(yè)。搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫(kù)和索引。其他還包括去除重復(fù)網(wǎng)頁(yè)、分詞(中文)、判斷網(wǎng)頁(yè)類型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度/豐富度等。提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè);為了用戶便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。在搜索引擎分類部分我們提到過(guò)全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的概念。

    搜索引擎的自動(dòng)信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動(dòng)派出“蜘蛛”程序,對(duì)一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會(huì)自動(dòng)提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫(kù)。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動(dòng)向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入數(shù)據(jù)庫(kù),以備用戶查詢。由于搜索引擎索引規(guī)則發(fā)生了很大變化,主動(dòng)提交網(wǎng)址并不保證你的網(wǎng)站能進(jìn)入搜索引擎數(shù)據(jù)庫(kù),因此目前最好的辦法是多獲得一些外部鏈接,讓搜索引擎有更多機(jī)會(huì)找到你并自動(dòng)將你的網(wǎng)站收錄。

    搜索引擎器的主要功能(搜索引擎器的主要功能是什么)

    以上就是關(guān)于搜索引擎器的主要功能相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    搜索精準(zhǔn)推廣都選樂(lè)云seo(相關(guān)搜索樂(lè)云seo)

    百度搜索下拉詞可以刪除嗎(百度搜索下拉詞會(huì)消失嗎)

    百度搜索詞(百度搜索詞條怎么形成)

    無(wú)人直播帶貨怎么操作?不要錢,各大平臺(tái)干貨全拿走

    塔城室外景觀設(shè)計(jì)(塔城室外景觀設(shè)計(jì)招標(biāo))