-
當(dāng)前位置:首頁 > 創(chuàng)意學(xué)院 > 營銷推廣 > 專題列表 > 正文
關(guān)鍵詞詞頻統(tǒng)計(關(guān)鍵詞詞頻統(tǒng)計意義)
大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于關(guān)鍵詞詞頻統(tǒng)計的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。
創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,相關(guān)業(yè)務(wù)請撥打電話:175-8598-2043,或添加微信:1454722008
本文目錄:
一、如何用r語言實現(xiàn)對已經(jīng)分好的詞作詞頻統(tǒng)計
如果你已經(jīng)做過分詞了,那么一篇文章在R里面呈現(xiàn)的結(jié)構(gòu)應(yīng)該是一個vector,你只需要使用table這個函數(shù)就可以對所有詞語出來的頻數(shù)進行統(tǒng)計,然后根據(jù)你的關(guān)鍵詞提取對應(yīng)部分就可以了啊。
二、Python編程實現(xiàn)csv文件某一列的詞頻統(tǒng)計
import re
import collections
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
#為避免出問題,文件名使用全路徑
data = pd.read_csv('XXX.csv')
trainheadlines = []
for row in range(0, len(data.index)):
trainheadlines.append(' '.join(str(x) for x in data.iloc[row, m:n]))
#上面的m:n代表取那一列,或者那幾列。
advancedvectorizer = TfidfVectorizer(
min_df=0, max_df=1, max_features=20000, ngram_range=(1, 1))
advancedtrain = advancedvectorizer.fit_transform(trainheadlines)
print(advancedtrain.shape)
三、什么是關(guān)鍵詞詞頻?
什么是關(guān)鍵詞詞頻?
關(guān)鍵字詞頻是指某個關(guān)鍵詞在頁面中出現(xiàn)的頻率。
概念:
也即關(guān)鍵詞在頁面出現(xiàn)的次數(shù),從一定程度上反映了頁面與該關(guān)鍵詞之間的相關(guān)性。
四、如何對關(guān)鍵詞和對應(yīng)的網(wǎng)頁進行加權(quán)搜索
2.1基于詞頻統(tǒng)計——詞位置加權(quán)的搜索引擎
利用關(guān)鍵詞在文檔中出現(xiàn)的頻率和位置排序是搜索引擎最早期排序的主要思想,其技術(shù)發(fā)展也最為成熟,是第一階段搜索引擎的主要排序技術(shù),應(yīng)用非常廣泛,至今仍是許多搜索引擎的核心排序技術(shù)。其基本原理是:關(guān)鍵詞在文檔中詞頻越高,出現(xiàn)的位置越重要,則被認(rèn)為和檢索詞的相關(guān)性越好。
1)詞頻統(tǒng)計
文檔的詞頻是指查詢關(guān)鍵詞在文檔中出現(xiàn)的頻率。查詢關(guān)鍵詞詞頻在文檔中出現(xiàn)的頻率越高,其相關(guān)度越大。但當(dāng)關(guān)鍵詞為常用詞時,使其對相關(guān)性判斷的意義非常小。TF/IDF很好的解決了這個問題。TF/IDF算法被認(rèn)為是信息檢索中最重要的發(fā)明。TF(Term
Frequency):單文本詞匯頻率,用關(guān)鍵詞的次數(shù)除以網(wǎng)頁的總字?jǐn)?shù),其商稱為“關(guān)鍵詞的頻率”。IDF(Inverse Document
Frequency):逆文本頻率指數(shù),其原理是,一個關(guān)鍵詞在N個網(wǎng)頁中出現(xiàn)過,那么N越大,此關(guān)鍵詞的權(quán)重越小,反之亦然。當(dāng)關(guān)鍵詞為常用詞時,其權(quán)重極小,從而解決詞頻統(tǒng)計的缺陷。
2)詞位置加權(quán)
在搜索引擎中,主要針對網(wǎng)頁進行詞位置加權(quán)。所以,頁面版式信息的分析至關(guān)重要。通過對檢索關(guān)鍵詞在Web頁面中不同位置和版式,給予不同的權(quán)值,從而根據(jù)權(quán)值來確定所搜索結(jié)果與檢索關(guān)鍵詞相關(guān)程度??梢钥紤]的版式信息有:是否是標(biāo)題,是否為關(guān)鍵詞,是否是正文,字體大小,是否加粗等等。同時,錨文本的信息也是非常重要的,它一般能精確的描述所指向的頁面的內(nèi)容。
2.2基于鏈接分析排序的第二代搜索引擎
鏈接分析排序的思想起源于文獻引文索引機制,即論文被引用的次數(shù)越多或被越權(quán)威的論文引用,其論文就越有價值。鏈接分析排序的思路與其相似,網(wǎng)頁被別的網(wǎng)頁引用的次數(shù)越多或被越權(quán)威的網(wǎng)頁引用,其價值就越大。被別的網(wǎng)頁引用的次數(shù)越多,說明該網(wǎng)頁越受歡迎,被越權(quán)威的網(wǎng)頁引用,說明該網(wǎng)頁質(zhì)量越高。鏈接分析排序算法大體可以分為以下幾類:基于隨機漫游模型的,比如PageRank和Repution算法;基于概率模型的,如SALSA、PHITS;基于Hub和Authority相互加強模型的,如HITS及其變種;基于貝葉斯模型的,如貝葉斯算法及其簡化版本。所有的算法在實際應(yīng)用中都結(jié)合傳統(tǒng)的內(nèi)容分析技術(shù)進行了優(yōu)化。本文主要介紹以下幾種經(jīng)典排序算法:
1)PageRank算法
PageRank算法由斯坦福大學(xué)博士研究生Sergey Brin和Lwraence
Page等提出的。PageRank算法是Google搜索引擎的核心排序算法,是Google成為全球最成功的搜索引擎的重要因素之一,同時開啟了鏈接分析研究的熱潮。
PageRank算法的基本思想是:頁面的重要程度用PageRank值來衡量,PageRank值主要體現(xiàn)在兩個方面:引用該頁面的頁面?zhèn)€數(shù)和引用該頁面的頁面重要程度。一個頁面P(A)被另一個頁面P(B)引用,可看成P(B)推薦P(A),P(B)將其重要程度(PageRank值)平均的分配P(B)所引用的所有頁面,所以越多頁面引用P(A),則越多的頁面分配PageRank值給P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的頁面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其計算公式為:
PR(A):頁面A的PageRank值;
d:阻尼系數(shù),由于某些頁面沒有入鏈接或者出鏈接,無法計算PageRank值,為避免這個問題(即LinkSink問題),而提出的。阻尼系數(shù)常指定為0.85。
R(Pi):頁面Pi的PageRank值;
C(Pi):頁面鏈出的鏈接數(shù)量;
PageRank值的計算初始值相同,為了不忽視被重要網(wǎng)頁鏈接的網(wǎng)頁也是重要的這一重要因素,需要反復(fù)迭代運算,據(jù)張映海撰文的計算結(jié)果,需要進行10次以上的迭代后鏈接評價值趨于穩(wěn)定,如此經(jīng)過多次迭代,系統(tǒng)的PR值達到收斂。
PageRank是一個與查詢無關(guān)的靜態(tài)算法,因此所有網(wǎng)頁的PageRank值均可以通過離線計算獲得。這樣,減少了用戶檢索時需要的排序時間,極大地降低了查詢響應(yīng)時間。但是PageRank存在兩個缺陷:首先PageRank算法嚴(yán)重歧視新加入的網(wǎng)頁,因為新的網(wǎng)頁的出鏈接和入鏈接通常都很少,PageRank值非常低。另外PageRank算法僅僅依靠外部鏈接數(shù)量和重要度來進行排名,而忽略了頁面的主題相關(guān)性,以至于一些主題不相關(guān)的網(wǎng)頁(如廣告頁面)獲得較大的PageRank值,從而影響了搜索結(jié)果的準(zhǔn)確性。為此,各種主題相關(guān)算法紛紛涌現(xiàn),其中以以下幾種算法最為典型。
2)Topic-Sensitive PageRank算法
由于最初PageRank算法中是沒有考慮主題相關(guān)因素的,斯坦福大學(xué)計算機科學(xué)系Taher
Haveli-wala提出了一種主題敏感(Topic-Sensitive)的PageRank算法解決了“主題漂流”問題。該算法考慮到有些頁面在某些領(lǐng)域被認(rèn)為是重要的,但并不表示它在其它領(lǐng)域也是重要的。
網(wǎng)頁A鏈接網(wǎng)頁B,可以看作網(wǎng)頁A對網(wǎng)頁B的評分,如果網(wǎng)頁A與網(wǎng)頁B屬于相同主題,則可認(rèn)為A對B的評分更可靠。因為A與B可形象的看作是同行,同行對同行的了解往往比不是同行的要多,所以同行的評分往往比不是同行的評分可靠。遺憾的是TSPR并沒有利用主題的相關(guān)性來提高鏈接得分的準(zhǔn)確性。
3)HillTop算法
HillTop是Google的一個工程師Bharat在2001年獲得的專利。HillTop是一種查詢相關(guān)性鏈接分析算法,克服了的PageRank的查詢無關(guān)性的缺點。HillTop算法認(rèn)為具有相同主題的相關(guān)文檔鏈接對于搜索者會有更大的價值。在Hilltop中僅考慮那些用于引導(dǎo)人們?yōu)g覽資源的專家頁面(Export
Sources)。Hilltop在收到一個查詢請求時,首先根據(jù)查詢的主題計算出一列相關(guān)性最強的專家頁面,然后根據(jù)指向目標(biāo)頁面的非從屬專家頁面的數(shù)量和相關(guān)性來對目標(biāo)頁面進行排序。
HillTop算法確定網(wǎng)頁與搜索關(guān)鍵詞的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權(quán)威頁面的方法,避免了許多想通過增加許多無效鏈接來提高網(wǎng)頁PageRank值的作弊方法。HillTop算法通過不同等級的評分確保了評價結(jié)果對關(guān)鍵詞的相關(guān)性,通過不同位置的評分確保了主題(行業(yè))的相關(guān)性,通過可區(qū)分短語數(shù)防止了關(guān)鍵詞的堆砌。
但是,專家頁面的搜索和確定對算法起關(guān)鍵作用,專家頁面的質(zhì)量對算法的準(zhǔn)確性起著決定性作用,也就忽略了大多數(shù)非專家頁面的影響。專家頁面在互聯(lián)網(wǎng)中占的比例非常低(1.79%),無法代表互聯(lián)網(wǎng)全部網(wǎng)頁,所以HillTop存在一定的局限性。同時,不同于PageRank算法,HillTop算法的運算是在線運行的,對系統(tǒng)的響應(yīng)時間產(chǎn)生極大的壓力。
4)HITS
HITS(Hyperlink Induced Topic
Search)算法是Kleinberg在1998年提出的,是基于超鏈接分析排序算法中另一個最著名的算法之一。該算法按照超鏈接的方向,將網(wǎng)頁分成兩種類型的頁面:Authority頁面和Hub頁面。Authority頁面又稱權(quán)威頁面,是指與某個查詢關(guān)鍵詞和組合最相近的頁面,Hub頁面又稱目錄頁,該頁面的內(nèi)容主要是大量指向Authority頁面的鏈接,它的主要功能就是把這些Authority頁面聯(lián)合在一起。對于Authority頁面P,當(dāng)指向P的Hub頁面越多,質(zhì)量越高,P的Authority值就越大;而對于Hub頁面H,當(dāng)H指向的Authority的頁面越多,Authority頁面質(zhì)量越高,H的Hub值就越大。對整個Web集合而言,Authority和Hub是相互依賴、相互促進,相互加強的關(guān)系。Authority和Hub之間相互優(yōu)化的關(guān)系,即為HITS算法的基礎(chǔ)。
HITS基本思想是:算法根據(jù)一個網(wǎng)頁的入度(指向此網(wǎng)頁的超鏈接)和出度(從此網(wǎng)頁指向別的網(wǎng)頁)來衡量網(wǎng)頁的重要性。在限定范圍之后根據(jù)網(wǎng)頁的出度和入度建立一個矩陣,通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量Authority和Hub值進行更新直至收斂。
實驗數(shù)據(jù)表明,HITS的排名準(zhǔn)確性要比PageRank高,HITS算法的設(shè)計符合網(wǎng)絡(luò)用戶評價網(wǎng)絡(luò)資源質(zhì)量的普遍標(biāo)準(zhǔn),因此能夠為用戶更好的利用網(wǎng)絡(luò)信息檢索工具訪問互聯(lián)網(wǎng)資源帶來便利。
但卻存在以下缺陷:首先,HITS算法只計算主特征向量,處理不好主題漂移問題;其次,進行窄主題查詢時,可能產(chǎn)生主題泛化問題;第三,HITS算法可以說一種實驗性質(zhì)的嘗試。它必須在網(wǎng)絡(luò)信息檢索系統(tǒng)進行面向內(nèi)容的檢索操作之后,基于內(nèi)容檢索的結(jié)果頁面及其直接相連的頁面之間的鏈接關(guān)系進行計算。盡管有人嘗試通過算法改進和專門設(shè)立鏈接結(jié)構(gòu)計算服務(wù)器(Connectivity
Server)等操作,可以實現(xiàn)一定程度的在線實時計算,但其計算代價仍然是不可接受的。
2.3基于智能化排序的第三代搜索引擎
排序算法在搜索引擎中具有特別重要的地位,目前許多搜索引擎都在進一步研究新的排序方法,來提升用戶的滿意度。但目前第二代搜索引擎有著兩個不足之處,在此背景下,基于智能化排序的第三代搜索引擎也就應(yīng)運而生。
1)相關(guān)性問題
相關(guān)性是指檢索詞和頁面的相關(guān)程度。由于語言復(fù)雜,僅僅通過鏈接分析及網(wǎng)頁的表面特征來判斷檢索詞與頁面的相關(guān)性是片面的。例如:檢索“稻瘟病”,有網(wǎng)頁是介紹水稻病蟲害信息的,但文中沒有“稻瘟病”這個詞,搜索引擎根本無法檢索到。正是以上原因,造成大量的搜索引擎作弊現(xiàn)象無法解決。解決相關(guān)性的的方法應(yīng)該是增加語意理解,分析檢索關(guān)鍵詞與網(wǎng)頁的相關(guān)程度,相關(guān)性分析越精準(zhǔn),用戶的搜索效果就會越好。同時,相關(guān)性低的網(wǎng)頁可以剔除,有效地防止搜索引擎作弊現(xiàn)象。檢索關(guān)鍵詞和網(wǎng)頁的相關(guān)性是在線運行的,會給系統(tǒng)相應(yīng)時間很大的壓力,可以采用分布式體系結(jié)構(gòu)可以提高系統(tǒng)規(guī)模和性能。
2)搜索結(jié)果的單一化問題
在搜索引擎上,任何人搜索同一個詞的結(jié)果都是一樣。這并不能滿足用戶的需求。不同的用戶對檢索的結(jié)果要求是不一樣的。例如:普通的農(nóng)民檢索“稻瘟病”,只是想得到稻瘟病的相關(guān)信息以及防治方法,但農(nóng)業(yè)專家或科技工作者可能會想得到稻瘟病相關(guān)的論文。
解決搜索結(jié)果單一的方法是提供個性化服務(wù),實現(xiàn)智能搜索。通過Web數(shù)據(jù)挖掘,建立用戶模型(如用戶背景、興趣、行為、風(fēng)格),提供個性化服務(wù)。
以上就是關(guān)于關(guān)鍵詞詞頻統(tǒng)計相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。
推薦閱讀:
做好銷售的關(guān)鍵詞(做好銷售的關(guān)鍵詞是什么)
用幾個關(guān)鍵詞介紹自己(用幾個關(guān)鍵詞介紹自己英語)
設(shè)計元素網(wǎng)(設(shè)計元素網(wǎng)站)