-
當前位置:首頁 > 創(chuàng)意學院 > 技術 > 專題列表 > 正文
搜索引擎的內(nèi)容是什么(搜索引擎的內(nèi)容是什么)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關于搜索引擎的內(nèi)容是什么的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等
只需要輸入關鍵詞,就能返回你想要的內(nèi)容,越精準,寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端
官網(wǎng):https://ai.de1919.com。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務客戶遍布全球各地,如需了解SEO相關業(yè)務請撥打電話175-8598-2043,或添加微信:1454722008
本文目錄:
一、什么是搜索引擎,其工作原理是什么
一、什么叫搜索引擎?
在Internet上有上百億可用的公共Web頁面,即使是最狂熱的沖浪者也不會訪問到所有的頁面,而只能看到其中的一小部分,更不會在這浩瀚的Web海洋中發(fā)現(xiàn)你那即使精彩卻渺小的一隅。當然你可以為你的存在做廣告,可以用大大的字把你的URL刻在你的身體上,然后裸體穿過白宮草坪,但你得保證媒體正好在那里,并注視到了這一切。與其這樣做,不如好好去理解搜索引擎是如何工作的?又怎樣選擇和使用"keywords"(關鍵詞)等等。
本文的目的就是讓眾多的頁面設計者在了解搜索引擎的基礎上,尋求如何使自己的頁面在搜索引擎索返回的列表中獲得好的排列層次的方法。
"搜索引擎"這個術語一般統(tǒng)指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實他們是不一樣的,其區(qū)別主要在于返回的搜索結果列表是如何編排的。
1、目錄
目錄(比如Yahoo!)返回的列表是由人工來編排的。
這類引擎提供了一份人工按類別編排的網(wǎng)站目錄,各類下邊排列著屬于這一類別的網(wǎng)站的站名和網(wǎng)址鏈接,再記錄一些摘要信息,對該網(wǎng)站進行概述性介紹(摘要可能是你提交過去的,也可以是引擎站點的編輯為你的站點所做的評價)。人們搜索時就按相應類別的目錄查詢下去。
這類引擎往往還伴有網(wǎng)站查詢功能,也稱之為網(wǎng)站檢索,即提供一個文字輸入框和一個按鈕。我們可以在文字框中輸入要查找的字、詞或短語,再點擊按鈕,便會在目錄中查找相關的站名、網(wǎng)址和內(nèi)容提要,將查到的內(nèi)容列表送過來。目前國內(nèi)Sohoo、常青藤等都是這種搜索方式。
2、搜索引擎
搜索引擎(如HotBot)是自動創(chuàng)建列表的。
搜索引擎看起來與目錄的網(wǎng)站查詢非常相似,也提供一個文字輸入框和按鈕,使用方法也相同,而且有些也提供分類目錄,但兩者卻有本質(zhì)上的區(qū)別。
目錄的資料庫中,搜集保存的是各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要;搜索引擎的資料庫中,搜集保存的則是各網(wǎng)站的每一個網(wǎng)頁的全部內(nèi)容,范圍要大得多。
搜索引擎是以全文檢索的方式工作的。全文檢索查到的結果不是站名、網(wǎng)址和內(nèi)容提要,而是與你輸入的關鍵詞相關的一個個網(wǎng)頁的地址和一小段文字。在這段文字中,可能沒有你輸入的那個關鍵詞,它只是某一網(wǎng)頁的第一段話,甚至是一段無法看懂的標記,但在這個網(wǎng)頁中,一定有你所輸入的那個關鍵詞,或者相關的詞匯。打個比方說,網(wǎng)站查詢可以查到網(wǎng)上有哪些報紙,如《文匯報》、《大公報》,而全文檢索則可以查到網(wǎng)上這些報紙的每一篇文章中的詞匯。
3、兩者相結合的搜索引擎
某些搜索引擎同時也提供目錄。包含在搜索引擎中的目錄通常質(zhì)量比較高,也能從那里找到許多好站點。因為即使你把你的站點提交過去,也并不能保證一定被加到目錄中去,他們把注意力放在那些已經(jīng)在別的目錄中存在的站點上,并有選擇地尋找有吸引力的加到自己的目錄中。
搜索引擎和目錄各有各自不可替代的功用。目錄比較簡單,要想獲得一個好的排列層次,除了你努力創(chuàng)建一個好內(nèi)容的高品質(zhì)站點外別無他法。搜索引擎復雜得多,它們隨時都在自動地索引眾多WEB站點的最新網(wǎng)頁,所以常常會發(fā)現(xiàn)目錄所不能得到的信息。如果你改動了你的頁面,搜索引擎還隨時會發(fā)現(xiàn)這個變化,并重新排列你在列表中的位置。而目錄就做不到。下面專門討論搜索引擎的工作原理以及如何提高在搜索引擎列表中的排列位置。
參考資料:http://www.yuan.sc.cn/cpc/buildweb/search101.htm
按照信息搜集方法和服務提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:
1.目錄式搜索引擎:以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質(zhì)量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。
2.機器人搜索引擎:由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。服務方式是面向網(wǎng)頁的全文檢索服務。該類搜索引擎的優(yōu)點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;國內(nèi)代表為:"天網(wǎng)"、悠游、OpenFind等。
3.元搜索引擎:這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。服務方式為面向網(wǎng)頁的全文檢索。這類搜索引擎的優(yōu)點是返回結果的信息量更大、更全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。這類搜索引擎的代表是WebCrawler、InfoMarket等。
……
主 要 技 術
一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。
1.搜索器
搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個計算機程序,日夜不停地運行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時因為互聯(lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:
● 從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如Yahoo!)。
● 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的窮盡搜索。
搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。
搜索器的實現(xiàn)常常用分布式、并行計算技術,以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達到每天幾百萬網(wǎng)頁。
2.索引器
索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。
索引項有客觀索引項和內(nèi)容索引項兩種:客觀項與文檔的語意內(nèi)容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內(nèi)容索引項是用來反映文檔內(nèi)容的,如關鍵詞及其權重、短語、單字等等。內(nèi)容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進行詞語的切分。
在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區(qū)分度,同時用來計算查詢結果的相關度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引項的提取方法有統(tǒng)計法、概率法和語言學法。
索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關系(proximity)。
索引器可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時,必須實現(xiàn)即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
3.檢索器
檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現(xiàn)某種用戶相關性反饋機制。
檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型四種。
4.用戶接口
用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現(xiàn)使用人機交互的理論和方法,以充分適應人類的思維習慣。 用戶輸入接口可以分為簡單接口和復雜接口兩種。
簡單接口只提供用戶輸入查詢串的文本框;復雜接口可以讓用戶對查詢進行限制,如邏輯運算(與、或、非;+、-)、相近關系(相鄰、NEAR)、域名范圍(如.edu、.com)、出現(xiàn)位置(如標題、內(nèi)容)、信息時間、長度等等。目前一些公司和機構正在考慮制定查詢選項的標準。
二、搜索引擎優(yōu)化包含哪些內(nèi)容?
搜索引擎優(yōu)化包含站內(nèi)優(yōu)化和站外優(yōu)化:
站內(nèi)優(yōu)化就是通過改變網(wǎng)站內(nèi)部結構或者內(nèi)容,來達到優(yōu)化的效果。
比如網(wǎng)站的布局及框架結構,網(wǎng)站的布局是做成扁平還是樹狀等;
導航及索引的設定,包含主導航、頁眉、頁腳導航等;
關鍵詞排布,關鍵詞排布的密度要根據(jù)網(wǎng)站實際需求設定,可能剛開始密度高些,后期可以合理排布;
文章的內(nèi)容質(zhì)量,文章盡量保持原創(chuàng),可以添加錨文本建設,文章要保持有規(guī)律的更新,不能一下子更新很多,一下子放置又不管了,這樣會導致只索引但不收錄。
網(wǎng)站代碼的優(yōu)化,代碼不混亂,動態(tài)地址不要太多等
以上內(nèi)容一般在網(wǎng)站制作前期就做好相應的規(guī)劃的,從而達到利于蜘蛛抓取的目的。
站外優(yōu)化主要是外鏈建設,這里包含和一些權重比較高的網(wǎng)站做外部鏈接,或者通過在一些新媒體平臺做軟文推廣,給蜘蛛一個爬取你網(wǎng)站的通道,從而為網(wǎng)站帶來流量,提升排名。
三、搜索引擎的作用
搜索引擎是一個對互聯(lián)網(wǎng)信息資源進行搜索整理和分類,并儲存在網(wǎng)絡數(shù)據(jù)庫中供用戶查詢的系統(tǒng),包括信息搜集、信息分類、用戶查詢?nèi)糠帧?/p>
工作原理
1.爬行:搜索引擎是通過一種特定規(guī)律的軟件跟蹤網(wǎng)頁的鏈接,從一個鏈接爬到另外一個鏈接,像蜘蛛在蜘蛛網(wǎng)上爬行一樣,所以被稱為“蜘蛛”也被稱為“機器人”。搜索引擎蜘蛛的爬行是被輸入了一定的規(guī)則的,它需要遵從一些命令或文件的內(nèi)容。
2.抓取存儲:搜索引擎是通過蜘蛛跟蹤鏈接爬行到網(wǎng)頁,并將爬行的數(shù)據(jù)存入原始頁面數(shù)據(jù)庫。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全一樣的。搜索引擎蜘蛛在抓取頁面時,也做一定的重復內(nèi)容檢測,一旦遇到權重很低的網(wǎng)站上有大量抄襲、采集或者復制的內(nèi)容,很可能就不再爬行。
3.預處理:搜索引擎將蜘蛛抓取回來的頁面,進行各種步驟的預處理。
四、搜索引擎是什么意思?
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,在搜索框輸入詞語,通過瀏覽器提交給搜索引擎后,搜索引擎就會返回跟用戶輸入的內(nèi)容相關的信息列表?;ヂ?lián)網(wǎng)發(fā)展早期,以雅虎為代表的網(wǎng)站分類目錄查詢非常流行。網(wǎng)站分類目錄由人工整理維護,精選互聯(lián)網(wǎng)上的優(yōu)秀網(wǎng)站,并簡要描述,分類放置到不同目錄下。用戶查詢時,通過一層層的點擊來查找自己想找的網(wǎng)站。也有人把這種基于目錄的檢索服務網(wǎng)站稱為搜索引擎,但從嚴格意義上講,它并不是搜索引擎?!痉诸悺?、全文索引全文搜索引擎是名副其實的搜索引擎,國外代表有Google,國內(nèi)則有著名的百度搜索。它們從互聯(lián)網(wǎng)提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結果。根據(jù)搜索結果來源的不同,全文搜索引擎可分為兩類,一類擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,能自建網(wǎng)頁數(shù)據(jù)庫,搜索結果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。2、目錄索引目錄索引雖然有搜索功能,但嚴格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關鍵詞(Keywords)進行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新浪分類目錄搜索。3、元搜索引擎元搜索引擎(META Search Engine)接受用戶查詢請求后,同時在多個搜索引擎上搜索,并將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結果排列方面,有的直接按來源排列搜索結果,如Dogpile;有的則按自定的規(guī)則將結果重新排列組合,如Vivisimo。其他非主流搜索引擎形式:1、集合式搜索引擎:該搜索引擎類似元搜索引擎,區(qū)別在于它并非同時調(diào)用多個搜索引擎進行搜索,而是由用戶從提供的若干搜索引擎中選擇,如HotBot在2002年底推出的搜索引擎。2、門戶搜索引擎:AOL Search、MSN Search等雖然提供搜索服務,但自身既沒有分類目錄也沒有網(wǎng)頁數(shù)據(jù)庫,其搜索結果完全來自其他搜索引擎。3、免費鏈接列表(Free For All Links簡稱FFA):一般只簡單地滾動鏈接條目,少部分有簡單的分類目錄,不過規(guī)模要比Yahoo!等目錄索引小很多?!竟ぷ髟怼?、抓取網(wǎng)頁每個獨立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁。2、處理網(wǎng)頁搜索引擎抓到網(wǎng)頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引文件。其他還包括去除重復網(wǎng)頁、分析超鏈接、計算網(wǎng)頁的重要度。
以上就是關于搜索引擎的內(nèi)容是什么相關問題的回答。希望能幫到你,如有更多相關問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
短網(wǎng)址免費生成(短網(wǎng)址生成器安卓版)