HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    以下哪些是與搜索引擎相關(guān)的術(shù)語(下面哪個(gè)跟搜索引擎相關(guān))

    發(fā)布時(shí)間:2023-04-07 10:35:14     稿源: 創(chuàng)意嶺    閱讀: 148        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于以下哪些是與搜索引擎相關(guān)的術(shù)語的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    以下哪些是與搜索引擎相關(guān)的術(shù)語(下面哪個(gè)跟搜索引擎相關(guān))

    一、數(shù)字化智能營銷是什么意思,誰能介紹下

    什么是數(shù)字化營銷?

    在深入研究數(shù)字化營銷技巧之前,讓我首先為那些不熟悉這個(gè)術(shù)語的人解釋什么是數(shù)字營銷。

    數(shù)字化營銷是一個(gè)廣義的術(shù)語,包括您可以用來在互聯(lián)網(wǎng)上以及在電視、手機(jī)和電子廣告牌等數(shù)字設(shè)備上推廣產(chǎn)品或服務(wù)的所有營銷渠道和方法。

    數(shù)字化營銷技巧

    • SEO(搜索引擎優(yōu)化)

    • 百度搜索廣告

    • 騰訊付費(fèi)廣告

    • 重定向廣告計(jì)劃

    • 社交媒體營銷

    • 視頻營銷

    1. SEO(搜索引擎優(yōu)化)

    搜索引擎優(yōu)化是優(yōu)化您的網(wǎng)站,以吸引來自搜索引擎的訪問者的數(shù)字營銷技術(shù)。它是任何數(shù)字營銷策略的重要組成部分。

    它之所以如此重要是因?yàn)樗撬袛?shù)字營銷渠道中最大的網(wǎng)絡(luò)流量來源。

    百度是國內(nèi)最大的搜索引擎,也是世界上訪問量最大的中文網(wǎng)站。搜索引擎可以讓人們很容易地找到幾乎任何他們能想到的信息。正因?yàn)槿绱?,該網(wǎng)站每天獲得數(shù)十億次搜索。

    因此,無論你是銷售實(shí)體產(chǎn)品、提供服務(wù)還是制作內(nèi)容,這個(gè)平臺(tái)都能幫助你接觸到目標(biāo)受眾。

    搜索引擎的工作原理

    所以發(fā)動(dòng)機(jī)如何工作以及如何讓頁面顯示在目標(biāo)受眾面前?

    有三個(gè)主要組件如何搜索引擎的功能;對(duì)結(jié)果進(jìn)行爬網(wǎng)、索引和排名。

    搜索引擎執(zhí)行三個(gè)基本操作:它們對(duì)網(wǎng)站進(jìn)行爬網(wǎng)、索引和排名。

    您可能聽說過人們談?wù)撆c搜索引擎相關(guān)的蜘蛛、蜘蛛機(jī)器人或爬蟲。這些奇怪的術(shù)語只是搜索引擎用來發(fā)現(xiàn)新網(wǎng)站和網(wǎng)頁的特殊軟件的名稱。

    爬蟲,顧名思義,通過使用超鏈接從一個(gè)網(wǎng)頁跳轉(zhuǎn)到另一個(gè)網(wǎng)頁來抓取網(wǎng)絡(luò)。一旦他們找到一個(gè)新頁面,這些勤奮的小機(jī)器人就會(huì)在數(shù)據(jù)庫中索引它。

    當(dāng)您在搜索某些內(nèi)容時(shí),搜索引擎會(huì)查詢其索引頁面數(shù)據(jù)庫,并根據(jù)您的查詢?yōu)槟峁┳钕嚓P(guān)的內(nèi)容。這就是排名的全部意義——按照與查詢相關(guān)的順序顯示頁面。

    影響排名的因素

    搜索引擎希望為用戶的問題提供最有用的答案。

    他們確定哪些頁面是最適合的算法,有無數(shù)的排名因素。

    雖然不是所有的算法細(xì)節(jié)都是已知的,但有許多排名因素是SEO的重要組成部分。下面是一些最有影響力的SEO排名因素。

    1.“出身”——生產(chǎn)者的權(quán)威可信度:

    生產(chǎn)者有專業(yè)的認(rèn)證,發(fā)布的內(nèi)容領(lǐng)域?qū)W?,被公眾認(rèn)可并有一定的影響力。

    2.“顏值”——瀏覽體驗(yàn)的輕松愉悅度:

    頁面加載迅速,內(nèi)容排版精美,圖像畫質(zhì)高清。

    3.“內(nèi)涵”——內(nèi)容的豐富度和專業(yè)度:

    文章主題前后一致,邏輯清晰,可以給用戶提供豐富全面的信息,在領(lǐng)域內(nèi)有一定的專業(yè)性。

    4. “口碑”——用戶的喜愛度:

    內(nèi)容被大量的用戶喜愛,用戶有強(qiáng)烈的分享和互動(dòng)意愿。

    如果您想了解更多信息,請(qǐng)多花 5 分鐘閱讀:

    【科普】簡述搜索引擎概念及工作原理 – 了解什么是搜索引擎以及它的工作原理?

    【干貨必備】百度搜索優(yōu)質(zhì)內(nèi)容指南 – 什么樣的內(nèi)容才算優(yōu)質(zhì)?什么樣的內(nèi)容才能更好的滿足用戶的需求?

    2. 百度搜索廣告

    搜索引擎營銷(SEM) 是您可以使用的第一個(gè)在線營銷策略,它有兩個(gè)主要組成部分。SEO(搜索引擎優(yōu)化)和 PSA(付費(fèi)搜索廣告)。

    簡而言之,搜索引擎優(yōu)化將幫助您免費(fèi)從搜索引擎獲得更多自然訪問,而付費(fèi)搜索廣告可以讓您從搜索流量中獲得訪問,但您必須為此付費(fèi)。

    您對(duì) SEM 的目標(biāo)是什么?您使用 SEM 的目標(biāo)很明確:通過自然搜索或通過有針對(duì)性的 PPC 活動(dòng)從搜索引擎獲得更多訪問。

    如何:要獲得更多來自搜索引擎的訪問,您需要確保您的網(wǎng)站針對(duì)搜索進(jìn)行了優(yōu)化。

    您的頁面標(biāo)題、描述、網(wǎng)頁速度、設(shè)計(jì)和結(jié)構(gòu)、內(nèi)容新鮮度、圖像的ALT 文本等內(nèi)容都很重要。

    工具:您可以遵循許多 SEO 和 PPC 指南,雖然每條規(guī)則本身都很重要,但如果您將多個(gè)規(guī)則一起應(yīng)用,將會(huì)產(chǎn)生更好的結(jié)果。

    提示:您可以通過百度搜索資源平臺(tái)監(jiān)控您的頁面以提高其排名。

    3. 騰訊付費(fèi)廣告

    騰訊廣告也是一種銷售渠道,但這并不是他們最擅長的領(lǐng)域。它們更適合品牌知名度、傳播形象、贏得社交關(guān)注度、建立網(wǎng)絡(luò)和與您的受眾建立聯(lián)系。

    當(dāng)您登錄微信時(shí),您最關(guān)心的不是尋找要購買的東西或搜索信息,而是查看您的朋友在做什么、閱讀新聞并與他們互動(dòng)。

    騰訊廣告會(huì)在你的時(shí)間線中顯示廣告,這并不意味著它是你想要的,即使有時(shí)你可能會(huì)覺得它很有趣。

    如果您是初創(chuàng)公司、小企業(yè)主、出版商、活動(dòng)組織者、非營利組織,并希望快速傳播信息或建立受眾群體,那么騰訊廣告就是您需要的。

    騰訊廣告的主要優(yōu)勢(shì):

    • 您可以在廣告中使用文字、圖片和視頻等

    • 您可以根據(jù)人們的興趣和人群畫像特征來定位他們

    • 您可以重新定位并與從騰訊旗下平臺(tái)或相似受眾訪問您的網(wǎng)站的人建立聯(lián)系。

    • 這是一個(gè)很好的營銷工具,尤其是在提高意識(shí)層方面。

    • 有多種方法可以定義您希望如何為廣告計(jì)劃定價(jià)。

    • 您可以通過為您的廣告嘗試不同的活動(dòng)和創(chuàng)意來進(jìn)行 A/B 測(cè)試

    4. 重定向廣告計(jì)劃

    重定向廣告是一種營銷策略,用于尋找與您的業(yè)務(wù)互動(dòng)的人并向他們展示數(shù)字廣告以將他們帶回您的網(wǎng)站。

    這些廣告會(huì)根據(jù)您網(wǎng)站上的過去行為(例如他們查看的頁面)向不同部分的受眾展示。

    要跟蹤您網(wǎng)站上的用戶行為,重定向依賴于跟蹤像素。這些小段代碼被添加到您網(wǎng)站的后端。它們使其能夠在訪問者的瀏覽器上放置 cookie。

    每個(gè)訪問者都會(huì)獲得一個(gè)匿名 ID(訪客標(biāo)識(shí)碼),廣告網(wǎng)絡(luò)使用該 ID 來跟蹤他們的行為。借助 Cookie,廣告服務(wù)器能夠訪問訪問者的 ID 并將其自動(dòng)添加到您的再營銷列表中。

    重定向過去僅限于現(xiàn)場(chǎng)行為。但是現(xiàn)在,您可以在社交媒體上使用重定向廣告計(jì)劃將廣告展示在與您的業(yè)務(wù)有過互動(dòng)的人的面前。

    如果有人查看頁面或喜歡您的文章,您可以快速將他們添加到重定向廣告系列中,看看您是否可以鼓勵(lì)他們進(jìn)一步參與。

    重定向廣告通常使用每次點(diǎn)擊費(fèi)用 (CPC) 支付模式。不過,有些人也使用每次展示成本 (CPM) 和每次獲取成本的出價(jià)策略。

    5.社交媒體營銷

    社交媒體營銷自然是您企業(yè)的下一個(gè)營銷策略。您已經(jīng)擁有了優(yōu)質(zhì)的內(nèi)容(來自以前的策略),所以現(xiàn)在是時(shí)候傳播信息了,最好的方法是通過社交媒體營銷策略。

    您對(duì)社交媒體營銷的目標(biāo)是什么?  您的社交媒體活動(dòng)應(yīng)該有兩個(gè)目的。

    第一個(gè)是獲得盡可能多的目標(biāo)關(guān)注者,以便您的內(nèi)容和品牌獲得盡可能多的關(guān)注,第二個(gè)是獲得社交網(wǎng)絡(luò)的訪問,最終轉(zhuǎn)化為客戶。

    如何:您需要通過定期分享有用的相關(guān)內(nèi)容并與對(duì)您的網(wǎng)站、產(chǎn)品或品牌感興趣的人互動(dòng),在所有主要社交網(wǎng)絡(luò)(微信公眾號(hào)、微博、知乎等)中建立良好的形象。

    社交媒體流量確實(shí)可以進(jìn)行轉(zhuǎn)化(盡管在幾年前,很多人認(rèn)為來自社交媒體的訪問者很難成為客戶)

    6.視頻營銷

    視頻營銷是使用視頻內(nèi)容來推廣產(chǎn)品或服務(wù)、提高對(duì)品牌的認(rèn)識(shí)、產(chǎn)生參與度并最終增加銷售額?,F(xiàn)在,您將創(chuàng)建什么類型的視頻內(nèi)容完全取決于您的具體目標(biāo)、您的品牌價(jià)值以及您想要向其展示這些視頻的一般觀眾。因此,在開始制作視頻之前確定這三個(gè)因素非常重要。

    至于最適合上傳和與分享視頻的平臺(tái),您可以上傳視頻的地方有很多很多(您可以根據(jù)實(shí)際情況決定)。

    Questmobile 統(tǒng)計(jì),抖音、快手、B 站等中短視頻平臺(tái)崛起過程中用戶增量超 25%,高于傳統(tǒng)視頻行業(yè)的 17%;另據(jù)《2021中國網(wǎng)絡(luò)視聽發(fā)展研究報(bào)告》顯示,截至 2020 年 12 月,中國網(wǎng)絡(luò)視聽用戶規(guī)模 9.44 億,其中短視頻覆蓋用戶 8.73 億,超出綜合視頻(涵蓋長視頻)用戶規(guī)模1.69億。

    《2021中國網(wǎng)絡(luò)視聽發(fā)展研究報(bào)告》顯示,綜合視頻平臺(tái)中愛奇藝、騰訊視頻、優(yōu)酷、芒果TV、嗶哩嗶哩五大平臺(tái)占據(jù) 88.3%的市場(chǎng)份額。

    視頻營銷類型

    您可以使用多種不同類型的視頻來實(shí)現(xiàn)您的特定營銷目標(biāo)。我們將列出其中的一部分:

    • 產(chǎn)品/服務(wù)視頻——如果您有要銷售的產(chǎn)品并希望與潛在客戶分享它的實(shí)際工作原理,這些類型的視頻非常棒。這也是一個(gè)很好的機(jī)會(huì),可以進(jìn)行詳細(xì)的產(chǎn)品評(píng)論并討論每種產(chǎn)品的多個(gè)特性。講解好處可以幫助用戶確定相關(guān)產(chǎn)品是否真的對(duì)他們有用,這意味著這些類型的視頻具有巨大的銷售增長潛力。

    • 教育(教程、操作方法)視頻——操作方法視頻的起點(diǎn)通常與產(chǎn)品視頻非常相似,但它們比這更進(jìn)一步。也就是說,這些類型的視頻通過讓觀眾學(xué)習(xí)實(shí)用的、通常是針對(duì)特定領(lǐng)域的技能,更重要的是,幫助他們解決問題,從而為觀眾提供了價(jià)值。它們可用于教觀眾如何詳細(xì)使用特定產(chǎn)品(或服務(wù)),甚至可以專注于某一個(gè)目標(biāo)市場(chǎng)。例如,您的教育視頻可以解釋如何使用技巧學(xué)習(xí)英語,或者它可以是關(guān)于更廣泛類型的主題,例如“提升英語口語發(fā)音的10個(gè)策略”。

    • 推薦– 從本質(zhì)上講,這些類型的視頻是將您的產(chǎn)品推廣工作提升到一個(gè)全新水平的好方法。正如他們的名字所暗示的那樣,這些視頻關(guān)注的是一個(gè)真實(shí)的事件、真實(shí)的客戶,他們嘗試過使用你的產(chǎn)品,并對(duì)它有自己的積極印象。

    • 品牌/幕后視頻——這些視頻非常適合讓您的觀眾更好地與您的品牌建立聯(lián)系。他們通常專注于幕后的真實(shí)人物及其動(dòng)態(tài),從而以某種方式“人性化”您的品牌并使其更接近潛在客戶。這些可以是員工分享工作經(jīng)驗(yàn)的簡單視頻,可以是對(duì)其中一個(gè)會(huì)議的回顧,甚至可以是公司團(tuán)建、聚會(huì)等。只要它能讓觀眾看到品牌背后的面孔并成功地為您的業(yè)務(wù)帶來積極的影響,那么您在制作這些類型的視頻時(shí)的選擇是無限的。

    當(dāng)然,您可以制作許多其他類型的視頻內(nèi)容來成功營銷您的品牌,例如訪談、網(wǎng)絡(luò)研討會(huì)和直播視頻等。但是這一次,我們決定只列出幾個(gè)示例,讓您簡要了解您的選擇。

    創(chuàng)作可轉(zhuǎn)化的視頻內(nèi)容的最佳技巧

    現(xiàn)在我們已經(jīng)確定了什么是視頻營銷并討論了幾種不同的營銷視頻類型,是時(shí)候看看一些有用的視頻創(chuàng)作技巧了。以下是最佳策略,可讓您創(chuàng)作吸引人的視頻內(nèi)容,以提高轉(zhuǎn)化率并提升您的整體營銷策略:

    • 讓事情變得有趣——從頭到尾

    • 保持簡短——在 10 秒內(nèi)介紹你的觀點(diǎn)

    • 添加一些動(dòng)畫素材

    • 優(yōu)化您的音頻

    • 添加號(hào)召性用語 (CTA)

    • 介紹一個(gè)令人難忘的角色

    總結(jié)

    如果您看到這里那么您已經(jīng)了解了本指南所有關(guān)于數(shù)字營銷的技術(shù)教程。

    通過利用這些技巧來進(jìn)行數(shù)字營銷活動(dòng),您的公司最終將建立更高的品牌知名度,品牌忠誠度,并為您的產(chǎn)品和服務(wù)帶來更多轉(zhuǎn)化。

    二、這些運(yùn)營專業(yè)術(shù)語,你知道多少?(一)

    1. KPI

    全稱:Key Performance Indicator 關(guān)鍵績效指標(biāo)

    KPI考核就是通過一系列客觀的制度和程序考察員工對(duì)公司價(jià)值的真正有效的貢獻(xiàn)。

    它的優(yōu)勢(shì)在于可以將員工的精3力從無關(guān)緊要的瑣事中解脫出來,從而更加關(guān)注公司整體業(yè)績指標(biāo)、部門重要工作領(lǐng)域及個(gè)人關(guān)鍵工作任務(wù)。同時(shí)還可以減少主觀考核帶來的不公。

    對(duì)于運(yùn)營工作來說,KPI就顯得非常重要了,因?yàn)檫\(yùn)營是一項(xiàng)以結(jié)果為導(dǎo)向的工作。比如,用戶運(yùn)營,最終目的是為了促活轉(zhuǎn)化從而增加產(chǎn)品價(jià)值。那么從拉新到留存到轉(zhuǎn)化,每一級(jí)的轉(zhuǎn)化率是多少,最終到底從所獲取的流量中實(shí)現(xiàn)多少付費(fèi)轉(zhuǎn)化,此時(shí)為了實(shí)現(xiàn)預(yù)期目標(biāo),就需要KPI來進(jìn)行衡量。

    但是KPI也要合理制定,避免出現(xiàn)員工只關(guān)注眼前工作或者為了達(dá)到指標(biāo)不擇手段的現(xiàn)象,千萬不要適得其反哦。

    2. KOL

    全稱:Key Opinion Leader 關(guān)鍵意見領(lǐng)袖

    通常被定義為:擁有更多、更準(zhǔn)確的產(chǎn)品信息,且為相關(guān)群體所接受或信任,并對(duì)該群體的購買行為有較大影響力的人。比如某些網(wǎng)絡(luò)紅人,大V等,在某個(gè)特定的圈層和領(lǐng)域很有影響力和號(hào)召力。

    KOL營銷,就是通過那些在特定領(lǐng)域擁有影響力的人物,讓自己的品牌和產(chǎn)品和受眾建立聯(lián)系,并且保持互動(dòng)。如果運(yùn)作良好,可以給推廣計(jì)劃帶來可信度,增強(qiáng)品牌屬性,獲得潛在客戶。不過,如果運(yùn)轉(zhuǎn)的不好,就會(huì)引起用戶反感,可能會(huì)造成用戶的流失。

    3. DAU

    全稱:Daily Activ User 日活躍用戶量

    DAU通常統(tǒng)計(jì)一日之內(nèi),登錄或使用了某個(gè)產(chǎn)品的用戶數(shù)(去除重復(fù)登錄的用戶)。常用于反映網(wǎng)站、互聯(lián)網(wǎng)應(yīng)用或網(wǎng)絡(luò)游戲的運(yùn)營情況??梢燥@示出短期內(nèi)網(wǎng)站的用戶活躍程度。

    比如今天登錄該網(wǎng)站的賬號(hào)有500個(gè),不管有的賬號(hào)是不是重復(fù)登陸,它今天的DAU就是500.

    如果拿一段時(shí)間的DAU來看,那么我們就可以看出一個(gè)趨勢(shì),活躍用戶是有增加還是減少的趨勢(shì),老用戶多還是新用戶多。

    4. MAU

    全稱:Monthly Active User 月活躍用戶量

    這個(gè)反應(yīng)30天內(nèi)登錄的用戶數(shù),也就是說30天的DAU加起來就是MAU(去除重復(fù)登錄賬號(hào))。它展示了活躍用戶的長期趨勢(shì)。

    一般在游戲領(lǐng)域,如果DAU/MAU這個(gè)比值低于0.2,就說明沒什么老用戶登錄,每天新玩家比較多,從而反應(yīng)用戶黏度低,對(duì)于一個(gè)互聯(lián)網(wǎng)產(chǎn)品來說可不是個(gè)好現(xiàn)象。

    5. PV

    全稱:Page View 頁面瀏覽量

    這個(gè)反應(yīng)這個(gè)網(wǎng)站頁面的總瀏覽量是多少,也就是說同一個(gè)網(wǎng)站里面用戶點(diǎn)擊了多少次頁面。比如說,你打開一個(gè)網(wǎng)站,刷新同一個(gè)頁面3次,那么你制造出來的PV就是3。

    所以我們可以看出,PV一定程度上并不能反應(yīng)真實(shí)有效的用戶流量,因?yàn)槿绻粋€(gè)用戶反復(fù)刷新頁面,他一個(gè)人也可以制造出很高的PV值。

    6.VV

    全稱:Visit View  訪問網(wǎng)站的次數(shù)

    這個(gè)不同于PV,它計(jì)算的用戶訪問該網(wǎng)站的次數(shù),而不是點(diǎn)擊打開一個(gè)頁面的次數(shù)。簡單的說,當(dāng)你瀏覽了這個(gè)網(wǎng)站的5個(gè)頁面,然后關(guān)掉了這個(gè)網(wǎng)站,那么你制造的VV就等于1,而PV為5.

    7. UV

    全稱:Unique Visitor 獨(dú)立訪客數(shù)

    為什么叫“獨(dú)立”訪客數(shù)呢?就是因?yàn)檫@個(gè)只計(jì)算瀏覽賬號(hào)的個(gè)數(shù),不管你打開這個(gè)網(wǎng)站幾次,瀏覽了多少個(gè)頁面,你的UV就是1。所以相比于PV,VV,該指標(biāo)可以更真實(shí)的反應(yīng)用戶數(shù)量。

    8. SEO

    全稱:Search Engine Optimization 搜索引擎優(yōu)化

    在了解搜索引擎自然排名機(jī)制的基礎(chǔ)上,對(duì)網(wǎng)站進(jìn)行內(nèi)部及外部的調(diào)整優(yōu)化,改進(jìn)網(wǎng)站在搜索引擎中的關(guān)鍵詞自然排名,獲得更多流量,從而達(dá)成網(wǎng)站銷售及品牌建設(shè)的預(yù)期目標(biāo)。

    9. SEM

    全稱:Search Engine Marketing 搜索引擎營銷

    簡單來說,搜索引擎營銷就是基于搜索引擎平臺(tái)的網(wǎng)絡(luò)營銷,利用人們對(duì)搜索引擎的依賴和使用習(xí)慣,在人們檢索信息的時(shí)候?qū)⑿畔鬟f給目標(biāo)用戶。搜索引擎營銷的基本思想是讓用戶發(fā)現(xiàn)信息,并通過點(diǎn)擊進(jìn)入網(wǎng)頁,進(jìn)一步了解所需要的信息。

    它是一種更高層面的系統(tǒng)技術(shù),是一種市場(chǎng)營銷行為,這一點(diǎn)我們從它的英文全稱中可以看出。它可以包括SEO,付費(fèi)推廣等具體形式。

    10. CPC

    全稱:Cost Per Click 每次點(diǎn)擊付費(fèi)廣告

    當(dāng)用戶點(diǎn)擊某個(gè)網(wǎng)站上的CPC廣告后,這個(gè)站的站長就會(huì)獲得相應(yīng)的收入。

    但也有不少經(jīng)營廣告的網(wǎng)站覺得不公平,比如,雖然瀏覽者沒有點(diǎn)擊,但是他已經(jīng)看到了廣告,對(duì)于這些看到廣告卻沒有點(diǎn)擊的流量來說,網(wǎng)站成了白忙活,所以有很多網(wǎng)站并不太樂意做這樣的廣告。

    11. UGC

    全稱:User Generated Content 用戶生成內(nèi)容

    也就是一個(gè)網(wǎng)站的內(nèi)容由用戶去自己生產(chǎn)創(chuàng)造,用戶之間形成一個(gè)社區(qū),去交流討論,而不是由某一些人去制定內(nèi)容。

    比如豆瓣,對(duì)于書籍電影感興趣的用戶自發(fā)的把自己的觀點(diǎn)和評(píng)價(jià)發(fā)布上去,其他用戶可以進(jìn)行評(píng)論,這就提供了一種以"興趣愛好"為紐帶擴(kuò)展人際關(guān)系的可能。一般來說,這種方式會(huì)有利于增加用戶的粘性。

    12. UED

    全稱:user experience design 用戶體驗(yàn)設(shè)計(jì)

    通常的理解就是我們做的一切都是為了呈現(xiàn)在您眼前的頁面。它是以用戶為中心的一種設(shè)計(jì)手段,以用戶需求為目標(biāo)而進(jìn)行的設(shè)計(jì)。設(shè)計(jì)過程注重以用戶為中心,用戶體驗(yàn)的概念從開發(fā)的最早期就開始進(jìn)入整個(gè)流程,并貫穿始終。

    三、常用的搜索引擎有哪些?

    索引擎(search engines)是對(duì)互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢的系統(tǒng),它包括信息搜集、信息整理和用戶查詢?nèi)糠帧? 搜索引擎是一個(gè)為你提供信息“檢索”服務(wù)的網(wǎng)站,它使用某些程序把因特網(wǎng)上的所有信息歸類以幫助人們?cè)诿C>W(wǎng)海中搜尋到所需要的信息。 早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候。隨著因特網(wǎng)信息按幾何式增長,出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁的開始,隨后搜索因特網(wǎng)上的所有超級(jí)鏈接,把代表超級(jí)鏈接的所有詞匯放入一個(gè)數(shù)據(jù)庫。這就是現(xiàn)在搜索引擎的原型。 隨著yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時(shí)代,相比以前其性能更加優(yōu)越?,F(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁的信息了,它們已經(jīng)變得更加綜合化,完美化了。以搜索引擎權(quán)威yahoo!為例,從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦yahoo!開始,到現(xiàn)在,他們從一個(gè)單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個(gè)人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù),充分說明了搜索引擎的發(fā)展從單一到綜合的過程。 然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來越不滿意。例如,搜索“電腦”這個(gè)詞匯,就可能有數(shù)百萬頁的結(jié)果。這是由于搜索引擎通過對(duì)網(wǎng)站的相關(guān)性來優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、 標(biāo)簽等公式來決定的。這就是使搜索引擎搜索結(jié)果多而雜的原因。而搜索引擎中的數(shù)據(jù)庫因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。 這篇文章中,我們介紹了google,它是一個(gè)大型的搜索引擎(of a large-scale search engine)的原型,搜索引擎在超文本中應(yīng)用廣泛。Google的設(shè)計(jì)能夠高效地抓網(wǎng)頁并建立索引,它的查詢結(jié)果比其它現(xiàn)有系統(tǒng)都高明。這個(gè)原型的全文和超連接的數(shù)據(jù)庫至少包含24‘000‘000個(gè)網(wǎng)頁。我們可以從http://google.stanford.edu/ 下載。 設(shè)計(jì)搜索引擎是一項(xiàng)富有挑戰(zhàn)性的工作。搜索引擎為上億個(gè)網(wǎng)頁建立索引,其中包含大量迥然不同的詞匯。而且每天要回答成千上萬個(gè)查詢。在網(wǎng)絡(luò)中,盡管大型搜索引擎非常重要,但是學(xué)術(shù)界卻很少研究它。此外由于技術(shù)的快速發(fā)展和網(wǎng)頁的大量增加,現(xiàn)在建立一個(gè)搜索引擎和三年前完全不同。 本文詳細(xì)介紹了我們的大型搜索引擎,據(jù)我們所知,在公開發(fā)表的論文中,這是第一篇描述地如此詳細(xì)。除了把傳統(tǒng)數(shù)據(jù)搜索技術(shù)應(yīng)用到如此大量級(jí)網(wǎng)頁中所遇到的問題,還有許多新的技術(shù)挑戰(zhàn),包括應(yīng)用超文本中的附加信息改進(jìn)搜索結(jié)果。 本文將解決這個(gè)問題,描述如何運(yùn)用超文本中的附加信息,建立一個(gè)大型實(shí)用系統(tǒng)。任何人都可以在網(wǎng)上隨意發(fā)布信息,如何有效地處理這些無組織的超文本集合,也是本文要關(guān)注的問題。 關(guān)鍵詞 World Wide Web,搜索引擎,信息檢索,PageRank, Google 1 緒論 Web 給信息檢索帶來了新的挑戰(zhàn)。Web上的信息量快速增長,同時(shí)不斷有毫無經(jīng)驗(yàn)的新用戶來體驗(yàn)Web這門藝術(shù)。人們喜歡用超級(jí)鏈接來網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。大家認(rèn)為List(目錄)有效地包含了大家感興趣的主題,但是它具有主觀性,建立和維護(hù)的代價(jià)高,升級(jí)慢,不能包括所有深?yuàn)W的主題?;陉P(guān)鍵詞的自動(dòng)搜索引擎通常返回太多的低質(zhì)量的匹配。使問題更遭的是,一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動(dòng)搜索引擎。 我們建立了一個(gè)大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。應(yīng)用超文本結(jié)構(gòu),大大提高了查詢質(zhì)量。我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標(biāo)建立一個(gè)大型搜索引擎不謀而合。 1.1網(wǎng)絡(luò)搜索引擎—升級(jí)換代(scaling up):1994-2000 搜索引擎技術(shù)不得不快速升級(jí)(scale dramatically)跟上成倍增長的web數(shù)量。1994年,第一個(gè)Web搜索引擎,World Wide Web Worm(WWWW)可以檢索到110,000個(gè)網(wǎng)頁和Web的文件。到1994年11月,頂級(jí)的搜索引擎聲稱可以檢索到2‘000’000(WebCrawler)至100‘000’000個(gè)網(wǎng)絡(luò)文件(來自 Search Engine Watch)??梢灶A(yù)見到2000年,可檢索到的網(wǎng)頁將超過1‘000’000‘000。同時(shí),搜索引擎的訪問量也會(huì)以驚人的速度增長。在1997年的三四月份,World Wide Web Worm 平均每天收到1500個(gè)查詢。 在1997年11月,Altavista 聲稱它每天要處理大約20’000’000個(gè)查詢。隨著網(wǎng)絡(luò)用戶的增長,到2000年,自動(dòng)搜索引擎每天將處理上億個(gè)查詢。我們系統(tǒng)的設(shè)計(jì)目標(biāo)要解決許多問題,包括質(zhì)量和可升級(jí)性,引入升級(jí)搜索引擎技術(shù)(scaling search engine technology),把它升級(jí)到如此大量的數(shù)據(jù)上。 1.2 Google:跟上Web的步伐(Scaling with the Web)建立一個(gè)能夠和當(dāng)今web規(guī)模相適應(yīng)的搜索引擎會(huì)面臨許多挑戰(zhàn)。抓網(wǎng)頁技術(shù)必須足夠快,才能跟上網(wǎng)頁變化的速度(keep them up to date)。存儲(chǔ)索引和文檔的空間必須足夠大。索引系統(tǒng)必須能夠有效地處理上千億的數(shù)據(jù)。處理查詢必須快,達(dá)到每秒能處理成百上千個(gè)查詢(hundreds to thousands per second.)。隨著Web的不斷增長,這些任務(wù)變得越來越艱巨。然而硬件的執(zhí)行效率和成本也在快速增長,可以部分抵消這些困難。 還有幾個(gè)值得注意的因素,如磁盤的尋道時(shí)間(disk seek time),操作系統(tǒng)的效率(operating system robustness)。在設(shè)計(jì)Google的過程中,我們既考慮了Web的增長速度,又考慮了技術(shù)的更新。Google的設(shè)計(jì)能夠很好的升級(jí)處理海量數(shù)據(jù)集。它能夠有效地利用存儲(chǔ)空間來存儲(chǔ)索引。優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存?。▍⒖?.2節(jié))。進(jìn)一步,我們希望,相對(duì)于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言,存儲(chǔ)和建立索引的代價(jià)盡可能的小(參考附錄B)。對(duì)于象Google這樣的集中式系統(tǒng),采取這些措施得到了令人滿意的系統(tǒng)可升級(jí)性(scaling properties)。 1. 3設(shè)計(jì)目標(biāo) 1.3.1提高搜索質(zhì)量我們的主要目標(biāo)是提高Web搜索引擎的質(zhì)量。1994年,有人認(rèn)為建立全搜索索引(a complete search index)可以使查找任何數(shù)據(jù)都變得容易。根據(jù)Best of the Web 1994 -- Navigators ,“最好的導(dǎo)航服務(wù)可以使在Web上搜索任何信息都很容易(當(dāng)時(shí)所有的數(shù)據(jù)都可以被登錄)”。然而1997年的Web就迥然不同。近來搜索引擎的用戶已經(jīng)證實(shí)索引的完整性不是評(píng)價(jià)搜索質(zhì)量的唯一標(biāo)準(zhǔn)。用戶感興趣的搜索結(jié)果往往湮沒在“垃圾結(jié)果Junk result”中。實(shí)際上,到1997年11月為止,四大商業(yè)搜索引擎中只 有一個(gè)能夠找到它自己(搜索自己名字時(shí)返回的前十個(gè)結(jié)果中有它自己)。導(dǎo)致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個(gè)數(shù)量級(jí),但是用戶能夠看的文檔數(shù)卻沒有增加。用戶仍然只希望看前面幾十個(gè)搜索結(jié)果。因此,當(dāng)集合增大時(shí),我們就需要工具使結(jié)果精確(在返回的前幾十個(gè)結(jié)果中,有關(guān)文檔的數(shù)量)。由于是從成千上萬個(gè)有點(diǎn)相關(guān)的文檔中選出幾十個(gè),實(shí)際上,相關(guān)的概念就是指最好的文檔。高精確非常重要,甚至以響應(yīng)(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價(jià)。令人高興的是利用超文本鏈接提供的信息有助于改進(jìn)搜索和其它應(yīng)用 。尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量的過濾提供了大量的信息。Google既利用了鏈接結(jié)構(gòu)又用到了anchor文本(見2.1和2.2節(jié))。 1.3.2搜索引擎的學(xué)術(shù)研究隨著時(shí)間的流逝,除了發(fā)展迅速,Web越來越商業(yè)化。1993年,只有1.5%的Web服務(wù)是來自.com域名。到1997年,超過了60%。同時(shí),搜索引擎從學(xué)術(shù)領(lǐng)域走進(jìn)商業(yè)。到現(xiàn)在大多數(shù)搜索引擎被公司所有,很少技公開術(shù)細(xì)節(jié)。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(見附錄A)。Google的主要目標(biāo)是推動(dòng)學(xué)術(shù)領(lǐng)域在此方面的發(fā)展,和對(duì)它的了解。另一個(gè)設(shè)計(jì)目標(biāo)是給大家一個(gè)實(shí)用的系統(tǒng)。應(yīng)用對(duì)我們來說非常重要,因?yàn)楝F(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)(us because we think some of the most interesting research will involve leveraging the vast amount of usage data that is available from modern web systems)。例如,每天有幾千萬個(gè)研究。然而,得到這些數(shù)據(jù)卻非常困難,主要因?yàn)樗鼈儧]有商業(yè)價(jià)值。我們最后的設(shè)計(jì)目標(biāo)是建立一個(gè)體系結(jié)構(gòu)能夠支持新的關(guān)于海量Web數(shù)據(jù)的研究。為了支持新研究,Google以壓縮的形式保存了實(shí)際所抓到的文檔。設(shè)計(jì)google的目標(biāo)之一就是要建立一個(gè)環(huán)境使其他研究者能夠很快進(jìn)入這個(gè)領(lǐng)域,處理海量Web數(shù)據(jù),得到滿意的結(jié)果,而通過其它方法卻很難得到結(jié)果。系統(tǒng)在短時(shí)間內(nèi)被建立起來,已經(jīng)有幾篇論文用到了Google建的數(shù)據(jù)庫,更多的在起步中。我們的另一個(gè)目標(biāo)是建立一個(gè)宇宙空間實(shí)驗(yàn)室似的環(huán)境,在這里研究者甚至學(xué)生都可以對(duì)我們的海量Web數(shù)據(jù)設(shè)計(jì)或做一些實(shí)驗(yàn)。 2. 系統(tǒng)特點(diǎn) Google搜索引擎有兩個(gè)重要特點(diǎn),有助于得到高精度的搜索結(jié)果。 第一點(diǎn),應(yīng)用Web的鏈接結(jié)構(gòu)計(jì)算每個(gè)網(wǎng)頁的Rank值,稱為PageRank,將在98頁詳細(xì)描述它。 第二點(diǎn),Google利用超鏈接改進(jìn)搜索結(jié)果。 2.1 PageRank:給網(wǎng)頁排序 Web的引用(鏈接)圖是重要的資源,卻被當(dāng)今的搜索引擎很大程度上忽視了。我們建立了一個(gè)包含518‘000’000個(gè)超鏈接的圖,它是一個(gè)具有重要意義的樣本。這些圖能夠快速地計(jì)算網(wǎng)頁的PageRank值,它是一個(gè)客觀的標(biāo)準(zhǔn),較好的符合人們心目中對(duì)一個(gè)網(wǎng)頁重要程度的評(píng)價(jià),建立的基礎(chǔ)是通過引用判斷重要性。因此在web中,PageRank能夠優(yōu)化關(guān)鍵詞查詢的結(jié)果。對(duì)于大多數(shù)的主題,在網(wǎng)頁標(biāo)題查詢中用PageRank優(yōu)化簡單文本匹配,我們得到了令人驚嘆的結(jié)果(從google.stanford.edu可以得到演示)。對(duì)于Google主系統(tǒng)中的全文搜索,PageRank也幫了不少忙。 2.1.1計(jì)算PageRank 文獻(xiàn)檢索中的引用理論用到Web中,引用網(wǎng)頁的鏈接數(shù),一定程度上反映了該網(wǎng)頁的重要性和質(zhì)量。PageRank發(fā)展了這種思想,網(wǎng)頁間的鏈接是不平等的。 PageRank定義如下: 我們假設(shè)T1…Tn指向網(wǎng)頁A(例如,被引用)。參數(shù)d是制動(dòng)因子,使結(jié)果在0,1之間。通常d等于0.85。在下一節(jié)將詳細(xì)介紹d。C(A)定義為網(wǎng)頁A指向其它網(wǎng)頁的鏈接數(shù),網(wǎng)頁A的PageRank值由下式給出: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 注意PageRank的形式,分布到各個(gè)網(wǎng)頁中,因此所有網(wǎng)頁的PageRank和是1。 PageRank或PR(A)可以用簡單的迭代算法計(jì)算,相應(yīng)規(guī)格化Web鏈接矩陣的主特征向量。中等規(guī)模的網(wǎng)站計(jì)算26‘000’000網(wǎng)頁的PageRank值要花費(fèi)幾小時(shí)。還有一些技術(shù)細(xì)節(jié)超出了本文論述的范圍。 2.1.2直覺判斷 PageRank被看作用戶行為的模型。我們假設(shè)網(wǎng)上沖浪是隨機(jī)的,不斷點(diǎn)擊鏈接,從不返回,最終煩了,另外隨機(jī)選一個(gè)網(wǎng)頁重新開始沖浪。隨機(jī)訪問一個(gè)網(wǎng)頁的可能性就是它的PageRank值。制動(dòng)因子d是隨機(jī)訪問一個(gè)網(wǎng)頁煩了的可能性,隨機(jī)另選一個(gè)網(wǎng)頁。對(duì)單個(gè)網(wǎng)頁或一組網(wǎng)頁,一個(gè)重要的變量加入到制動(dòng)因子d中。這允許個(gè)人可以故意地誤導(dǎo)系統(tǒng),以得到較高的PageRank值。我們還有其它的PageRank算法,見98頁。 另外的直覺判斷是一個(gè)網(wǎng)頁有很多網(wǎng)頁指向它,或者一些PageRank值高的網(wǎng)頁指向它,則這個(gè)網(wǎng)頁很重要。直覺地,在Web中,一個(gè)網(wǎng)頁被很多網(wǎng)頁引用,那么這個(gè)網(wǎng)頁值得一看。一個(gè)網(wǎng)頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。如果一個(gè)網(wǎng)頁的質(zhì)量不高,或者是死鏈接,象Yahoo這樣的主頁不會(huì)鏈向它。PageRank處理了這兩方面因素,并通過網(wǎng)絡(luò)鏈接遞歸地傳遞。 & nbsp; 2.2鏈接描述文字(Anchor Text)我們的搜索引擎對(duì)鏈接文本進(jìn)行了特殊的處理。大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁(the page that the link is on)聯(lián)系起來。另外,把它和鏈接所指向的網(wǎng)頁聯(lián)系起來。這有幾點(diǎn)好處。 第一,通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。 第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數(shù)據(jù)庫。有可能使返回的網(wǎng)頁不能被抓到。注意哪些抓不到的網(wǎng)頁將會(huì)帶來一些問題。在返回給用戶前檢測(cè)不了它們的有效性。這種情況搜索引擎可能返回一個(gè)根本不存在的網(wǎng)頁,但是有超級(jí)鏈接指向它。然而這種結(jié)果可以被挑出來的,所以此類的問題很少發(fā)生。鏈接描述文字是對(duì)被鏈向網(wǎng)頁的宣傳,這個(gè)思想被用在World Wide Web Worm 中,主要因?yàn)樗兄谒阉鞣俏谋拘畔ⅲ軌蛴蒙倭康囊严螺d文檔擴(kuò)大搜索范圍。我們大量應(yīng)用鏈接描述文字,因?yàn)樗兄谔岣咚阉鹘Y(jié)果的質(zhì)量。有效地利用鏈接描述文字技術(shù)上存在一些困難,因?yàn)楸仨毺幚泶罅康臄?shù)據(jù)。現(xiàn)在我們能抓到24‘000’000個(gè)網(wǎng)頁,已經(jīng)檢索到259‘000’000多個(gè)鏈接描述文字。 2.3其它特點(diǎn)除了PageRank和應(yīng)用鏈接描述文字外,Google還有一些其它特點(diǎn)。 第一,所有hit都有位置信息,所以它可以在搜索中廣泛應(yīng)用鄰近性(proximity)。 第二,Google跟蹤一些可視化外表細(xì)節(jié),例如字號(hào)。黑體大號(hào)字比其它文字更重要。 第三,知識(shí)庫存儲(chǔ)了原始的全文html網(wǎng)頁。 3有關(guān)工作 Web檢索研究的歷史簡短。World Wide Web Worm()是最早的搜索引擎之一。后來出現(xiàn)了一些用于學(xué)術(shù)研究的搜索引擎,現(xiàn)在它們中的大多數(shù)被上市公司擁有。與Web的增長和搜索引擎的重要性相比,有關(guān)當(dāng)今搜索引擎技術(shù)的優(yōu)秀論文相當(dāng)少。根據(jù)Michael Mauldin(Lycos Inc的首席科學(xué)家)) ,“各種各樣的服務(wù)(包括Lycos)非常關(guān)注這些數(shù)據(jù)庫的細(xì)節(jié)?!彪m然在搜索引擎的某些特點(diǎn)上做了大量工作。具有代表性的工作有,對(duì)現(xiàn)有商業(yè)搜索引擎的結(jié)果進(jìn)行傳遞,或建立小型的個(gè)性化的搜索引擎。最后有關(guān)信息檢索系統(tǒng)的研究很多,尤其在有組織機(jī)構(gòu)集合(well controlled collections)方面。在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進(jìn)以便更好的工作在Web上。 3.1信息檢索信息檢索系統(tǒng)誕生在幾年前,并發(fā)展迅速。然而大多數(shù)信息檢索系統(tǒng)研究的對(duì)象是小規(guī)模的單一的有組織結(jié)構(gòu)的集合,例如科學(xué)論文集,或相關(guān)主題的新聞故事。實(shí)際上,信息檢索的主要基準(zhǔn),the Text Retrieval Conference(),用小規(guī)模的、有組織結(jié)構(gòu)的集合作為它們的基準(zhǔn)。 大型文集基準(zhǔn)只有20GB,相比之下,我們抓到的24000000個(gè)網(wǎng)頁占147GB。在TREC上工作良好的系統(tǒng),在Web上卻不一定產(chǎn)生好的結(jié)果。例如,標(biāo)準(zhǔn)向量空間模型企圖返回和查詢請(qǐng)求最相近的文檔,把查詢請(qǐng)求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。在Web環(huán)境下,這種策略常常返回非常短的文檔,這些文檔往往是查詢?cè)~再加幾個(gè)字。例如,查詢“Bill Clinton”,返回的網(wǎng)頁只包含“Bill Clinton Sucks”,這是我們從一個(gè)主要搜索引擎中看到的。網(wǎng)絡(luò)上有些爭議,用戶應(yīng)該更準(zhǔn)確地表達(dá)他們想查詢什么,在他們的查詢請(qǐng)求中用更多的詞。我們強(qiáng)烈反對(duì)這種觀點(diǎn)。如果用戶提出象“Bill Clinton”這樣的查詢請(qǐng)求,應(yīng)該得到理想的查詢結(jié)果,因?yàn)檫@個(gè)主題有許多高質(zhì)量的信息。象所給的例子,我們認(rèn)為信息檢索標(biāo)準(zhǔn)需要發(fā)展,以便有效地處理Web數(shù)據(jù)。 3.2有組織結(jié)構(gòu)的集合(Well Controlled Collections)與Web的不同點(diǎn) Web是完全無組織的異構(gòu)的大量文檔的集合。Web中的文檔無論內(nèi)在信息還是隱含信息都存在大量的異構(gòu)性。例如,文檔內(nèi)部就用了不同的語言(既有人類語言又有程序),詞匯([email]地址,鏈接,郵政編碼,電話號(hào)碼,產(chǎn)品號(hào)),類型(文本,HTML,PDF,圖像,聲音),有些甚至是機(jī)器創(chuàng)建的文件(log文件,或數(shù)據(jù)庫的輸出)??梢詮奈臋n中推斷出來,但并不包含在文檔中的信息稱為隱含信息。隱含信息包括來源的信譽(yù),更新頻率,質(zhì)量,訪問量和引用。不但隱含信息的可能來源各種各樣,而且被檢測(cè)的信息也大不相同,相差可達(dá)好幾個(gè)數(shù)量級(jí)。例如,一個(gè)重要主頁的使用量,象Yahoo 每天瀏覽數(shù)達(dá)到上百萬次,于此相比無名的歷史文章可能十年才被訪問一次。很明顯,搜索引擎對(duì)這兩類信息的處理是不同的。 Web與有組織結(jié)構(gòu)集合之間的另外一個(gè)明顯區(qū)別是,事實(shí)上,向Web上傳信息沒有任何限制。靈活利用這點(diǎn)可以發(fā)布任何對(duì)搜索引擎影響重大的信息,使路由阻塞,加上為牟利故意操縱搜索引擎,這些已經(jīng)成為一個(gè)嚴(yán)重的問題。這些問題還沒有被傳統(tǒng)的封閉的信息檢索系統(tǒng)所提出來。它關(guān)心的是元數(shù)據(jù)的努力,這在Web搜索引擎中卻不適用,因?yàn)榫W(wǎng)頁中的任何文本都不會(huì)向用戶聲稱企圖操縱搜索引擎。甚至有些公司為牟利專門操縱搜索引擎。 4 系統(tǒng)分析(System Anatomy)首先,我們提供高水平的有關(guān)體系結(jié)構(gòu)的討論。然后 ,詳細(xì)描述重要的數(shù)據(jù)結(jié)構(gòu)。最后,主要應(yīng)用:抓網(wǎng)頁,索引,搜索將被嚴(yán)格地檢查。 Figure 1. High Level Google Architecture 4.1Google體系結(jié)構(gòu)概述這一節(jié),我們將看看整個(gè)系統(tǒng)是如何工作的(give a high level),見圖1。本節(jié)不討論應(yīng)用和數(shù)據(jù)結(jié)構(gòu),在后幾節(jié)中討論。為了效率大部分Google是用c或c++實(shí)現(xiàn)的,既可以在Solaris也可以在Linux上運(yùn)行。 Google系統(tǒng)中,抓網(wǎng)頁(下載網(wǎng)頁)是由幾個(gè)分布式crawlers完成的。一個(gè)URL服務(wù)器負(fù)責(zé)向crawlers提供URL列表。抓來的網(wǎng)頁交給存儲(chǔ)服務(wù)器storeserver。然后,由存儲(chǔ)服務(wù)器壓縮網(wǎng)頁并把它們存到知識(shí)庫repository中。每個(gè)網(wǎng)頁都有一個(gè)ID,稱作docID,當(dāng)新URL從網(wǎng)頁中分析出時(shí),就被分配一個(gè)docID。由索引器和排序器負(fù)責(zé)建立索引index function。索引器從知識(shí)庫中讀取文檔,對(duì)其解壓縮和分析。每個(gè)文檔被轉(zhuǎn)換成一組詞的出現(xiàn)情況,稱作命中hits。Hits紀(jì)錄了詞,詞在文檔中的位置,最接近的字號(hào),大小寫。索引器把這些hits分配到一組桶barrel中,產(chǎn)生經(jīng)過部分排序后的索引。索引器的另一個(gè)重要功能是分析網(wǎng)頁中所有的鏈接,將有關(guān)的重要信息存在鏈接描述anchors文件中。該文件包含了足夠的信息,可以用來判斷每個(gè)鏈接鏈出鏈入節(jié)點(diǎn)的信息,和鏈接文本。 URL分解器resolver閱讀鏈接描述anchors文件,并把相對(duì)URL轉(zhuǎn)換成絕對(duì)URL,再轉(zhuǎn)換成docID。為鏈接描述文本編制索引,并與它所指向的docID關(guān)聯(lián)起來。同時(shí)建立由docID對(duì)組成的鏈接數(shù)據(jù)庫。用于計(jì)算所有文檔的PageRank值。用docID分類后的barrels,送給排序器sorter,再根據(jù)wordID進(jìn)行分類,建立反向索引inverted index。這個(gè)操作要恰到好處,以便幾乎不需要暫存空間。排序器還給出docID和偏移量列表,建立反向索引。一個(gè)叫DumpLexicon的程序把這個(gè)列表和由索引器產(chǎn)生的字典結(jié)合在一起,建立一個(gè)新的字典,供搜索器使用。這個(gè)搜索器就是利用一個(gè)Web服務(wù)器,使用由DumpLexicon所生成的字典,利用上述反向索引以及頁面等級(jí)PageRank來回答用戶的提問。 4.2主要數(shù)據(jù)結(jié)構(gòu)經(jīng)過優(yōu)化的Google數(shù)據(jù)結(jié)構(gòu),能夠用較小的代價(jià)抓取大量文檔,建立索引和查詢。雖然近幾年CPU和輸入輸出速率迅速提高。磁盤尋道仍然需要10ms。任何時(shí)候Google系統(tǒng)的設(shè)計(jì)都盡可能地避免磁盤尋道。這對(duì)數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)影響很大。 4.2.1大文件大文件BigFiles是指虛擬文件生成的多文件系統(tǒng),用長度是64位的整型數(shù)據(jù)尋址。多文件系統(tǒng)之間的空間分配是自動(dòng)完成的。BigFiles包也處理已分配和未分配文件描述符。由于操縱系統(tǒng)不能滿足我們的需要,BigFiles也支持基本的壓縮選項(xiàng)。 4.2.2知識(shí)庫 Figure 2. Repository Data Structure 知識(shí)庫包含每個(gè)網(wǎng)頁的全部HTML。每個(gè)網(wǎng)頁用zlib(見RFC1950)壓縮。壓縮技術(shù)的選擇既要考慮速度又要考慮壓縮率。我們選擇zlib的速度而不是壓縮率很高的bzip。知識(shí)庫用bzip的壓縮率接近4:1。而用zlib的壓縮率是3:1。文檔一個(gè)挨著一個(gè)的存儲(chǔ)在知識(shí)庫中,前綴是docID,長度,URL,見圖2。訪問知識(shí)庫不需要其它的數(shù)據(jù)結(jié)構(gòu)。這有助于數(shù)據(jù)一致性和升級(jí)。用其它數(shù)據(jù)結(jié)構(gòu)重構(gòu)系統(tǒng),我們只需要修改知識(shí)庫和crawler錯(cuò)誤列表文件。 4.2.3文件索引文件索引保存了有關(guān)文檔的一些信息。索引以docID的順序排列,定寬ISAM(Index sequential access mode)。每條記錄包括當(dāng)前文件狀態(tài),一個(gè)指向知識(shí)庫的指針,文件校驗(yàn)和,各種統(tǒng)計(jì)表。如果一個(gè)文檔已經(jīng)被抓到,指針指向docinfo文件,該文件的寬度可變,包含了URL和標(biāo)題。否則指針指向包含這個(gè)URL的URL列表。這種設(shè)計(jì)考慮到簡潔的數(shù)據(jù)結(jié)構(gòu),以及在查詢中只需要一個(gè)磁盤尋道時(shí)間就能夠訪問一條記錄。還有一個(gè)文件用于把URL轉(zhuǎn)換成docID。它是URL校驗(yàn)和與相應(yīng)docID的列表,按校驗(yàn)和排序。要想知道某個(gè)URL的docID,需要計(jì)算URL的校驗(yàn)和,然后在校驗(yàn)和文件中執(zhí)行二進(jìn)制查找,找到它的docID。通過對(duì)這個(gè)文件進(jìn)行合并,可以把一批URL轉(zhuǎn)換成對(duì)應(yīng)的docID。URL分析器用這項(xiàng)技術(shù)把URL轉(zhuǎn)換成docID。這種成批更新的模式是至關(guān)重要的,否則每個(gè)鏈接都需要一次查詢,假如用一塊磁盤,322‘000’000個(gè)鏈接的數(shù)據(jù)集合將花費(fèi)一個(gè)多月的時(shí)間。 4.2.4詞典詞典有幾種不同的形式。和以前系統(tǒng)的重要不同是,詞典對(duì)內(nèi)存的要求可以在合理的價(jià)格內(nèi)?,F(xiàn)在實(shí)現(xiàn)的系統(tǒng),一臺(tái)256M內(nèi)存的機(jī)器就可以把詞典裝入到內(nèi)存中?,F(xiàn)在的詞典包含14000000詞匯(雖然一些很少用的詞匯沒有加入到詞典中)。它執(zhí)行分兩部分—詞匯表(用null分隔的連續(xù)串)和指針的哈希表。不同的函數(shù),詞匯表有一些輔助信息,這超出了本文論述的范圍。 4.2.5 hit list hit list是一篇文檔中所出現(xiàn)的詞的列表,包括位置,字號(hào),大小寫。Hit list占很大空間,用在正向和反向索引中。因此,它的表示形式越有效越好。我們考慮了幾種方案來編碼位置,字號(hào),大小寫—簡單編碼(3個(gè)整型數(shù)),緊湊編碼(支持優(yōu)化分配比特位),哈夫曼編碼。Hit的詳細(xì)信息見圖3。我們的緊湊編碼每個(gè)hit用2字節(jié)。有兩種類型hit,特殊hit和普通hit。特殊hit包含URL,標(biāo)題,鏈接描述文字,meta tag。普通hit包含其它每件事。它包括大小寫特征位,字號(hào),12比特用于描述詞在文檔中的位置(所有超過4095的位置標(biāo)記為4096)。字號(hào)采用相對(duì)于文檔的其它部分的相對(duì)大小表示,占3比特(實(shí)際只用7個(gè)值,因?yàn)?11標(biāo)志是特殊hit)。特殊hit由大小寫特征位,字號(hào)位為7表示它是特殊hit,用4比特表示特殊hit的類型,8比特表示位置。對(duì)于anchor hit八比特位置位分出4比特用來表示在anchor中的位置,4比特用于表明anchor出現(xiàn)的哈希表hash of the docID。短語查詢是有限的,對(duì)某些詞沒有足夠多的anchor。我們希望更新anchor hit的存儲(chǔ)方式,以便解決地址位和docIDhash域位數(shù)不足的問題。

    四、搜索引擎包含與不包含哪些內(nèi)容

    搜索引擎的正確使用方法

    網(wǎng)絡(luò)真可謂是信息的海洋。在因特網(wǎng)上獲取信息量的多少,往往取決于查詢的方法適當(dāng)與否。如果想要及時(shí)而又準(zhǔn)確地找出自己需要的資料,搜索引擎就是一件必不可少的上網(wǎng)利器。

    近幾年,因特網(wǎng)在我國的發(fā)展可謂一日千里,速度之快、新網(wǎng)民數(shù)量之多都處在世界前列。剛剛上網(wǎng)的“菜鳥”,第一件該做的事情,就是學(xué)會(huì)使用搜索引擎。也許有人要問:搜索很簡單嘛,不就是在搜索欄中敲入自己想要找的東東不就得了,有必要學(xué)嗎?當(dāng)然。實(shí)際上,很多網(wǎng)蟲對(duì)搜索引擎的使用是相當(dāng)有限的,甚至是不正確的。而且搜索引擎的升級(jí)換代速度很快,不學(xué)就會(huì)出現(xiàn)用老秤稱新貨的情況。既然要學(xué),我們就來學(xué)個(gè)徹底,由淺入深地細(xì)細(xì)過它一遍。

    搜索引擎的最大用途就是搜索,而說到搜索就不能不提到 keyword (關(guān)鍵字),每一個(gè)搜索引擎的制作過程都離不開 keyword ,無論是給一個(gè)主類別做分目錄,還是管理個(gè)人站點(diǎn),都需要這些關(guān)鍵字,目錄下包括的關(guān)鍵字越多、越精確,搜索也就越方便、越準(zhǔn)確。這就是有的搜索引擎好用,有的不好用的原因。所以在進(jìn)行搜索之前,找對(duì)、找準(zhǔn) keyword 至關(guān)重要。

    使用搜索引擎的分類索引沒什么技巧,只要找準(zhǔn)類別后,一層一層打開即可。下面重點(diǎn)要說的是現(xiàn)有著名搜索引擎的搜索器的使用方法。希望能免去大家的查找之苦,同時(shí)也能為大家省點(diǎn)上網(wǎng)費(fèi)用。

    雅虎中國

    首先在檢索欄內(nèi)輸入你所需要的關(guān)鍵字,按下 Search 鍵, YAHOO! 就會(huì)自動(dòng)搜尋其中的分類類目、網(wǎng)站、資料庫信息及新聞資料庫,并依此為你列出所找到的信息。列出資料的排列次序是根據(jù)與 keyword 的匹配程度高低為序,而新聞資料的排列還綜合了更新時(shí)間的因素。除了這種簡單的查詢方式之外, YAHOO !還支持進(jìn)階檢索方式,想使用這種檢索就要先了解它特定的語法:

    1 .使用雙引號(hào)查詢網(wǎng)站,例如輸入了“電腦音樂”之后,就只會(huì)出現(xiàn)電腦音樂的網(wǎng)站,而忽略包含“電腦與MP3音樂”的網(wǎng)站,注意雙引號(hào)必須是半角字符。

    2 .加字母指定關(guān)鍵字出現(xiàn)的段落,如在關(guān)鍵字前加“ t : " ,搜索引擎僅會(huì)查詢網(wǎng)站的名稱 ; 而在關(guān)鍵字前加“ u : " ,搜索引擎就會(huì)只查詢所需的網(wǎng)址。

    3 .利用“+”、“-”號(hào)來限定結(jié)果,加了“+”號(hào)的關(guān)鍵字一定要在結(jié)果中出現(xiàn);而加了“-”號(hào)的關(guān)鍵字就一定不要出現(xiàn)在查詢結(jié)果中。

    搜狐

    升級(jí)后的中文搜狐檢索系統(tǒng)又增加了新的功能,解決了中文的分詞問題,如輸入“電腦”之后,以前會(huì)把帶有“電子”、“大腦”的詞的網(wǎng)站也檢索出來。而現(xiàn)在就能精確定位,節(jié)省了使用者的時(shí)間和精力。該系統(tǒng)還設(shè)有用戶字典,允許自行定義詞的名稱、詞性及對(duì)應(yīng)的大五碼字體,并將該詞加入到詞庫中。具體的使用方法是:在檢索文本欄中輸入要查詢的關(guān)鍵字,在按下“搜索”鈕后,搜狐中文檢索系統(tǒng)會(huì)從以下四方面檢索結(jié)果:

    搜狐分類:查詢符合條件的分類類目。

    搜狐網(wǎng)站:查詢符合條件的搜狐數(shù)據(jù)庫中收錄的網(wǎng)站。

    全球網(wǎng)頁:搜索 Internet 上符合條件的網(wǎng)頁。

    搜狐新聞:查詢符合條件的搜狐新聞的內(nèi)容。

    影響檢索結(jié)果的因素,是關(guān)鍵字出現(xiàn)在頁面的位置、頻率及關(guān)鍵字本身的詞性等。對(duì)于新聞而言則要參考其更新的日期了,一般新聞檢索只包含近三個(gè)月的內(nèi)容。與雅虎相同的是,搜狐也包含了自己的檢索語法:

    1 .在前后兩個(gè)關(guān)鍵字之間加上 AND ,表示這兩個(gè)詞是“與”的邏輯關(guān)系,搜索出的結(jié)果就會(huì)是同時(shí)包含了這兩個(gè)關(guān)鍵字的頁面。

    2 .在前后兩個(gè)關(guān)鍵字間加 OR ,就表示這兩個(gè)詞是“或”的邏輯關(guān)系,搜索的結(jié)果更多、更廣,只要是包含了這兩個(gè)關(guān)鍵字中任何一個(gè)關(guān)鍵字的頁面都會(huì)出現(xiàn),這對(duì)查詢概念模糊的內(nèi)容十分適用。

    新浪搜索

    新浪搜索目前共分 15 大類,一萬多細(xì)目十余萬個(gè)站點(diǎn)。新浪網(wǎng)的搜索器查詢順序依次為:目錄搜索、網(wǎng)站搜索、網(wǎng)頁全文檢索。

    1 .新浪搜索引擎在關(guān)鍵字查詢框中允許單個(gè)詞或多個(gè)詞查詢,有多種符號(hào)都是表示“且”的關(guān)系,如 : 空格、逗號(hào)、加號(hào)和 & 。

    2 .新浪搜索引擎還包含了進(jìn)階搜索方式 : 在 keyword 前加“ t : " ,表示僅搜索網(wǎng)站標(biāo)題 ; 在 keyword 前加“ u : " ,則表示搜索網(wǎng)站的網(wǎng)址。除此之外,新浪搜索還能更好地支持對(duì)數(shù)字的查詢。

    中文 Excite

    中文 Excite 搜索引擎目前只進(jìn)行網(wǎng)頁的搜索,這一點(diǎn)對(duì)要找資料的網(wǎng)友很方便,但對(duì)于想查找網(wǎng)站的人來說,就毫無用處了。雖然如此,但我還是要詳細(xì)介紹中文 Excite ,因?yàn)樗悄壳百Y料及信息最全的網(wǎng)頁搜索引擎。這里收集了共兩百萬個(gè)網(wǎng)頁,并提供了五個(gè)“高性能檢索平臺(tái)”幫助查詢者進(jìn)行查找。最有特點(diǎn)的是檢索結(jié)果是按你提問的相關(guān)程度來排序,一般來說,越排在前面,相關(guān)程度越高。如果你發(fā)現(xiàn)某一檢索結(jié)果很符合你的檢索要求,按一下 " 檢索更多類似該網(wǎng)頁的文獻(xiàn)”鍵, Excite 中文檢索引擎會(huì)檢索出更多與此類似的網(wǎng)頁。使用比較專指的提問詞進(jìn)行檢索,就可以搜索到更多想要找的文獻(xiàn)。例如:“電腦雜志”比“報(bào)刊雜志”能檢索到更多有關(guān)電腦信息的資料。有時(shí),許多檢索結(jié)果都是來自同一網(wǎng)站,但分散在不同的目錄下。只要按一下“按網(wǎng)站顯示檢索結(jié)果”功能鍵,檢索結(jié)果就會(huì)變成一個(gè)按網(wǎng)站排列的目錄,在每個(gè)網(wǎng)站名稱下面,按相關(guān)程度列出該網(wǎng)站內(nèi)所有與提問相關(guān)的網(wǎng)頁。利用“高性能檢索平臺(tái)”,還能像職業(yè)信息專家一樣快捷準(zhǔn)確地搜索到更多相關(guān)的文獻(xiàn)。我們還可以自己指定檢索數(shù)據(jù)庫(全部中文網(wǎng)頁數(shù)據(jù)庫,中國網(wǎng)頁數(shù)據(jù)庫,香港網(wǎng)頁數(shù)據(jù)庫,臺(tái)灣網(wǎng)頁數(shù)據(jù)庫,新加坡網(wǎng)頁數(shù)據(jù)庫,以及西方語言網(wǎng)頁)來控制檢索結(jié)果的數(shù)量和顯示方式,并能十分容易地使用所有高級(jí)檢索功能。檢索時(shí)最常用的技巧如下:

    1 .輸入關(guān)鍵字, Excite 的搜索引擎會(huì)自定檢索到符合信息需求的文獻(xiàn)。

    2 .“詞組檢索”也稱“完全符合檢索”,檢索結(jié)果必須含有與提問式完全一樣 ( 包括次序 ) 的字串。在搜索比較專指的文獻(xiàn)時(shí),就要使用雙引號(hào)進(jìn)行詞組檢索。

    3 .在檢索詞或字前面加上“+”來表示該詞或字一定要出現(xiàn)在檢索結(jié)果中;在檢索詞或字前面加上“-”來表示該詞或字一定不能出現(xiàn)在檢索結(jié)果中。使用時(shí)有一點(diǎn)十分重要,在“+”和“-”與其后面的檢索詞之間不能留有空格。

    4 .使用布爾檢索符號(hào)。布爾檢索符號(hào)包括 AND (檢索結(jié)果必須含有所有用 AND 連接起來的關(guān)鍵字), OR (檢索結(jié)果必須至少含有一個(gè)用 OR 連接起來的關(guān)鍵字), NOT (檢索結(jié)果不能含有緊接在 NOT 后面的關(guān)鍵字)和()(表示要求檢索結(jié)果含有所有輸入的關(guān)鍵字)。這些符號(hào)必須大寫,而且前后要有一個(gè)空格。如果你使用了布爾檢索式, Excite 檢索引擎會(huì)自動(dòng)停止概念分析的檢索功能,而檢索到與關(guān)鍵字吻合的網(wǎng)頁。

    以上介紹了幾個(gè)最常用的搜索引擎使用技巧及方法,相信通過上述的學(xué)習(xí),絕大部分網(wǎng)蟲都能正確而且高效率的使用這些搜索引擎。參考資料:http://www.acms.com.cn/news/25/2005-10-29_35126.html

    以上就是關(guān)于以下哪些是與搜索引擎相關(guān)的術(shù)語相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    以下哪些技術(shù)是未來電商使用方向(以下哪些技術(shù)是未來電商使用方向之一)

    以下景觀設(shè)計(jì)出自于哪里(哪些屬于景觀設(shè)計(jì))

    以下選項(xiàng)中最有可能是老客戶營銷(以下選項(xiàng)中最可能屬于老客戶營銷的是)

    抖音短網(wǎng)頁在線(抖音短視頻網(wǎng)頁版在線看)

    庭院生態(tài)景觀設(shè)計(jì)公司排名