正文

關(guān)鍵詞詞頻統(tǒng)計（關(guān)鍵詞詞頻統(tǒng)計意義）

發(fā)布時間：2023-03-08 02:06:51 稿源：創(chuàng)意嶺閱讀： 245 問大家

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于關(guān)鍵詞詞頻統(tǒng)計的問題，以下是小編對此問題的歸納整理，讓我們一起來看看吧。

創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè)，服務(wù)客戶遍布全球各地，相關(guān)業(yè)務(wù)請撥打電話：175-8598-2043，或添加微信：1454722008

本文目錄:

1、如何用r語言實現(xiàn)對已經(jīng)分好的詞作詞頻統(tǒng)計
2、Python編程實現(xiàn)csv文件某一列的詞頻統(tǒng)計
3、什么是關(guān)鍵詞詞頻?
4、如何對關(guān)鍵詞和對應(yīng)的網(wǎng)頁進行加權(quán)搜索

關(guān)鍵詞詞頻統(tǒng)計（關(guān)鍵詞詞頻統(tǒng)計意義）

一、如何用r語言實現(xiàn)對已經(jīng)分好的詞作詞頻統(tǒng)計

如果你已經(jīng)做過分詞了，那么一篇文章在R里面呈現(xiàn)的結(jié)構(gòu)應(yīng)該是一個vector,你只需要使用table這個函數(shù)就可以對所有詞語出來的頻數(shù)進行統(tǒng)計，然后根據(jù)你的關(guān)鍵詞提取對應(yīng)部分就可以了啊。

二、Python編程實現(xiàn)csv文件某一列的詞頻統(tǒng)計

import re

import collections

import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer

#為避免出問題，文件名使用全路徑

data = pd.read_csv('XXX.csv')

trainheadlines = []

for row in range(0, len(data.index)):

trainheadlines.append(' '.join(str(x) for x in data.iloc[row, m:n]))

#上面的m:n代表取那一列，或者那幾列。

advancedvectorizer = TfidfVectorizer(

min_df=0, max_df=1, max_features=20000, ngram_range=(1, 1))

advancedtrain = advancedvectorizer.fit_transform(trainheadlines)

print(advancedtrain.shape)

三、什么是關(guān)鍵詞詞頻?

什么是關(guān)鍵詞詞頻？

關(guān)鍵字詞頻是指某個關(guān)鍵詞在頁面中出現(xiàn)的頻率。

概念：

也即關(guān)鍵詞在頁面出現(xiàn)的次數(shù)，從一定程度上反映了頁面與該關(guān)鍵詞之間的相關(guān)性。

四、如何對關(guān)鍵詞和對應(yīng)的網(wǎng)頁進行加權(quán)搜索

2.1基于詞頻統(tǒng)計——詞位置加權(quán)的搜索引擎

利用關(guān)鍵詞在文檔中出現(xiàn)的頻率和位置排序是搜索引擎最早期排序的主要思想，其技術(shù)發(fā)展也最為成熟，是第一階段搜索引擎的主要排序技術(shù)，應(yīng)用非常廣泛，至今仍是許多搜索引擎的核心排序技術(shù)。其基本原理是：關(guān)鍵詞在文檔中詞頻越高，出現(xiàn)的位置越重要，則被認為和檢索詞的相關(guān)性越好。

1）詞頻統(tǒng)計

文檔的詞頻是指查詢關(guān)鍵詞在文檔中出現(xiàn)的頻率。查詢關(guān)鍵詞詞頻在文檔中出現(xiàn)的頻率越高，其相關(guān)度越大。但當(dāng)關(guān)鍵詞為常用詞時，使其對相關(guān)性判斷的意義非常小。TF/IDF很好的解決了這個問題。TF/IDF算法被認為是信息檢索中最重要的發(fā)明。TF（Term

Frequency）：單文本詞匯頻率，用關(guān)鍵詞的次數(shù)除以網(wǎng)頁的總字數(shù)，其商稱為“關(guān)鍵詞的頻率”。IDF（Inverse Document

Frequency）：逆文本頻率指數(shù)，其原理是，一個關(guān)鍵詞在N個網(wǎng)頁中出現(xiàn)過，那么N越大，此關(guān)鍵詞的權(quán)重越小，反之亦然。當(dāng)關(guān)鍵詞為常用詞時，其權(quán)重極小，從而解決詞頻統(tǒng)計的缺陷。

2）詞位置加權(quán)

在搜索引擎中，主要針對網(wǎng)頁進行詞位置加權(quán)。所以，頁面版式信息的分析至關(guān)重要。通過對檢索關(guān)鍵詞在Web頁面中不同位置和版式，給予不同的權(quán)值，從而根據(jù)權(quán)值來確定所搜索結(jié)果與檢索關(guān)鍵詞相關(guān)程度?？梢钥紤]的版式信息有：是否是標(biāo)題，是否為關(guān)鍵詞，是否是正文，字體大小，是否加粗等等。同時，錨文本的信息也是非常重要的，它一般能精確的描述所指向的頁面的內(nèi)容。

2.2基于鏈接分析排序的第二代搜索引擎

鏈接分析排序的思想起源于文獻引文索引機制，即論文被引用的次數(shù)越多或被越權(quán)威的論文引用，其論文就越有價值。鏈接分析排序的思路與其相似，網(wǎng)頁被別的網(wǎng)頁引用的次數(shù)越多或被越權(quán)威的網(wǎng)頁引用，其價值就越大。被別的網(wǎng)頁引用的次數(shù)越多，說明該網(wǎng)頁越受歡迎，被越權(quán)威的網(wǎng)頁引用，說明該網(wǎng)頁質(zhì)量越高。鏈接分析排序算法大體可以分為以下幾類：基于隨機漫游模型的，比如PageRank和Repution算法；基于概率模型的，如SALSA、PHITS；基于Hub和Authority相互加強模型的，如HITS及其變種；基于貝葉斯模型的，如貝葉斯算法及其簡化版本。所有的算法在實際應(yīng)用中都結(jié)合傳統(tǒng)的內(nèi)容分析技術(shù)進行了優(yōu)化。本文主要介紹以下幾種經(jīng)典排序算法：

1）PageRank算法

PageRank算法由斯坦福大學(xué)博士研究生Sergey Brin和Lwraence

Page等提出的。PageRank算法是Google搜索引擎的核心排序算法，是Google成為全球最成功的搜索引擎的重要因素之一，同時開啟了鏈接分析研究的熱潮。

PageRank算法的基本思想是：頁面的重要程度用PageRank值來衡量，PageRank值主要體現(xiàn)在兩個方面：引用該頁面的頁面?zhèn)€數(shù)和引用該頁面的頁面重要程度。一個頁面P（A）被另一個頁面P（B）引用，可看成P（B）推薦P（A），P（B）將其重要程度（PageRank值）平均的分配P（B）所引用的所有頁面，所以越多頁面引用P（A），則越多的頁面分配PageRank值給P（A），PageRank值也就越高，P（A）越重要。另外，P(B)越重要，它所引用的頁面能分配到的PageRank值就越多，P（A）的PageRank值也就越高，也就越重要。

其計算公式為：

PR（A）：頁面A的PageRank值；

d：阻尼系數(shù)，由于某些頁面沒有入鏈接或者出鏈接，無法計算PageRank值，為避免這個問題（即LinkSink問題），而提出的。阻尼系數(shù)常指定為0.85。

R（Pi）：頁面Pi的PageRank值；

C（Pi）：頁面鏈出的鏈接數(shù)量；

PageRank值的計算初始值相同，為了不忽視被重要網(wǎng)頁鏈接的網(wǎng)頁也是重要的這一重要因素，需要反復(fù)迭代運算，據(jù)張映海撰文的計算結(jié)果，需要進行10次以上的迭代后鏈接評價值趨于穩(wěn)定，如此經(jīng)過多次迭代，系統(tǒng)的PR值達到收斂。

PageRank是一個與查詢無關(guān)的靜態(tài)算法，因此所有網(wǎng)頁的PageRank值均可以通過離線計算獲得。這樣，減少了用戶檢索時需要的排序時間，極大地降低了查詢響應(yīng)時間。但是PageRank存在兩個缺陷：首先PageRank算法嚴重歧視新加入的網(wǎng)頁，因為新的網(wǎng)頁的出鏈接和入鏈接通常都很少，PageRank值非常低。另外PageRank算法僅僅依靠外部鏈接數(shù)量和重要度來進行排名，而忽略了頁面的主題相關(guān)性，以至于一些主題不相關(guān)的網(wǎng)頁（如廣告頁面）獲得較大的PageRank值，從而影響了搜索結(jié)果的準(zhǔn)確性。為此，各種主題相關(guān)算法紛紛涌現(xiàn)，其中以以下幾種算法最為典型。

2）Topic-Sensitive PageRank算法

由于最初PageRank算法中是沒有考慮主題相關(guān)因素的，斯坦福大學(xué)計算機科學(xué)系Taher

Haveli-wala提出了一種主題敏感（Topic-Sensitive）的PageRank算法解決了“主題漂流”問題。該算法考慮到有些頁面在某些領(lǐng)域被認為是重要的，但并不表示它在其它領(lǐng)域也是重要的。

網(wǎng)頁A鏈接網(wǎng)頁B，可以看作網(wǎng)頁A對網(wǎng)頁B的評分，如果網(wǎng)頁A與網(wǎng)頁B屬于相同主題，則可認為A對B的評分更可靠。因為A與B可形象的看作是同行，同行對同行的了解往往比不是同行的要多，所以同行的評分往往比不是同行的評分可靠。遺憾的是TSPR并沒有利用主題的相關(guān)性來提高鏈接得分的準(zhǔn)確性。

3）HillTop算法

HillTop是Google的一個工程師Bharat在2001年獲得的專利。HillTop是一種查詢相關(guān)性鏈接分析算法，克服了的PageRank的查詢無關(guān)性的缺點。HillTop算法認為具有相同主題的相關(guān)文檔鏈接對于搜索者會有更大的價值。在Hilltop中僅考慮那些用于引導(dǎo)人們?yōu)g覽資源的專家頁面（Export

Sources）。Hilltop在收到一個查詢請求時，首先根據(jù)查詢的主題計算出一列相關(guān)性最強的專家頁面，然后根據(jù)指向目標(biāo)頁面的非從屬專家頁面的數(shù)量和相關(guān)性來對目標(biāo)頁面進行排序。

HillTop算法確定網(wǎng)頁與搜索關(guān)鍵詞的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權(quán)威頁面的方法，避免了許多想通過增加許多無效鏈接來提高網(wǎng)頁PageRank值的作弊方法。HillTop算法通過不同等級的評分確保了評價結(jié)果對關(guān)鍵詞的相關(guān)性，通過不同位置的評分確保了主題（行業(yè)）的相關(guān)性，通過可區(qū)分短語數(shù)防止了關(guān)鍵詞的堆砌。

但是，專家頁面的搜索和確定對算法起關(guān)鍵作用，專家頁面的質(zhì)量對算法的準(zhǔn)確性起著決定性作用，也就忽略了大多數(shù)非專家頁面的影響。專家頁面在互聯(lián)網(wǎng)中占的比例非常低（1.79%），無法代表互聯(lián)網(wǎng)全部網(wǎng)頁，所以HillTop存在一定的局限性。同時，不同于PageRank算法，HillTop算法的運算是在線運行的，對系統(tǒng)的響應(yīng)時間產(chǎn)生極大的壓力。

4）HITS

HITS（Hyperlink Induced Topic

Search）算法是Kleinberg在1998年提出的，是基于超鏈接分析排序算法中另一個最著名的算法之一。該算法按照超鏈接的方向，將網(wǎng)頁分成兩種類型的頁面：Authority頁面和Hub頁面。Authority頁面又稱權(quán)威頁面，是指與某個查詢關(guān)鍵詞和組合最相近的頁面，Hub頁面又稱目錄頁，該頁面的內(nèi)容主要是大量指向Authority頁面的鏈接，它的主要功能就是把這些Authority頁面聯(lián)合在一起。對于Authority頁面P，當(dāng)指向P的Hub頁面越多，質(zhì)量越高，P的Authority值就越大；而對于Hub頁面H，當(dāng)H指向的Authority的頁面越多，Authority頁面質(zhì)量越高，H的Hub值就越大。對整個Web集合而言，Authority和Hub是相互依賴、相互促進，相互加強的關(guān)系。Authority和Hub之間相互優(yōu)化的關(guān)系，即為HITS算法的基礎(chǔ)。

HITS基本思想是：算法根據(jù)一個網(wǎng)頁的入度（指向此網(wǎng)頁的超鏈接）和出度（從此網(wǎng)頁指向別的網(wǎng)頁）來衡量網(wǎng)頁的重要性。在限定范圍之后根據(jù)網(wǎng)頁的出度和入度建立一個矩陣，通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量Authority和Hub值進行更新直至收斂。

實驗數(shù)據(jù)表明，HITS的排名準(zhǔn)確性要比PageRank高，HITS算法的設(shè)計符合網(wǎng)絡(luò)用戶評價網(wǎng)絡(luò)資源質(zhì)量的普遍標(biāo)準(zhǔn)，因此能夠為用戶更好的利用網(wǎng)絡(luò)信息檢索工具訪問互聯(lián)網(wǎng)資源帶來便利。

但卻存在以下缺陷：首先，HITS算法只計算主特征向量，處理不好主題漂移問題；其次，進行窄主題查詢時，可能產(chǎn)生主題泛化問題；第三，HITS算法可以說一種實驗性質(zhì)的嘗試。它必須在網(wǎng)絡(luò)信息檢索系統(tǒng)進行面向內(nèi)容的檢索操作之后，基于內(nèi)容檢索的結(jié)果頁面及其直接相連的頁面之間的鏈接關(guān)系進行計算。盡管有人嘗試通過算法改進和專門設(shè)立鏈接結(jié)構(gòu)計算服務(wù)器（Connectivity

Server）等操作，可以實現(xiàn)一定程度的在線實時計算，但其計算代價仍然是不可接受的。

2.3基于智能化排序的第三代搜索引擎

排序算法在搜索引擎中具有特別重要的地位，目前許多搜索引擎都在進一步研究新的排序方法，來提升用戶的滿意度。但目前第二代搜索引擎有著兩個不足之處，在此背景下，基于智能化排序的第三代搜索引擎也就應(yīng)運而生。

1）相關(guān)性問題

相關(guān)性是指檢索詞和頁面的相關(guān)程度。由于語言復(fù)雜，僅僅通過鏈接分析及網(wǎng)頁的表面特征來判斷檢索詞與頁面的相關(guān)性是片面的。例如：檢索“稻瘟病”，有網(wǎng)頁是介紹水稻病蟲害信息的，但文中沒有“稻瘟病”這個詞，搜索引擎根本無法檢索到。正是以上原因，造成大量的搜索引擎作弊現(xiàn)象無法解決。解決相關(guān)性的的方法應(yīng)該是增加語意理解，分析檢索關(guān)鍵詞與網(wǎng)頁的相關(guān)程度，相關(guān)性分析越精準(zhǔn)，用戶的搜索效果就會越好。同時，相關(guān)性低的網(wǎng)頁可以剔除，有效地防止搜索引擎作弊現(xiàn)象。檢索關(guān)鍵詞和網(wǎng)頁的相關(guān)性是在線運行的，會給系統(tǒng)相應(yīng)時間很大的壓力，可以采用分布式體系結(jié)構(gòu)可以提高系統(tǒng)規(guī)模和性能。

2）搜索結(jié)果的單一化問題

在搜索引擎上，任何人搜索同一個詞的結(jié)果都是一樣。這并不能滿足用戶的需求。不同的用戶對檢索的結(jié)果要求是不一樣的。例如：普通的農(nóng)民檢索“稻瘟病”，只是想得到稻瘟病的相關(guān)信息以及防治方法，但農(nóng)業(yè)專家或科技工作者可能會想得到稻瘟病相關(guān)的論文。

解決搜索結(jié)果單一的方法是提供個性化服務(wù)，實現(xiàn)智能搜索。通過Web數(shù)據(jù)挖掘，建立用戶模型（如用戶背景、興趣、行為、風(fēng)格），提供個性化服務(wù)。

以上就是關(guān)于關(guān)鍵詞詞頻統(tǒng)計相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進行咨詢，客服也會為您講解更多精彩的知識和內(nèi)容。