HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運營
CASE 服務(wù)案例
NEWS 熱點資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    評論關(guān)鍵詞提取(評論關(guān)鍵詞提取論文)

    發(fā)布時間:2023-04-19 09:44:24     稿源: 創(chuàng)意嶺    閱讀: 87        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于評論關(guān)鍵詞提取的問題,以下是小編對此問題的歸納整理,讓我們一起來看看吧。

    開始之前先推薦一個非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計劃、工作報告、論文、代碼、作文、做題和對話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫出的就越詳細,有微信小程序端、在線網(wǎng)頁版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    評論關(guān)鍵詞提取(評論關(guān)鍵詞提取論文)

    一、小紅書中可以搜索人家評論的關(guān)鍵字嗎

    :1、小紅書app端尋找達人小紅書app端的達人尋找就是我們可以通過小紅書app的搜索框輸入我們的目標(biāo)達人名稱或者品牌所在的品類相關(guān)詞等進行尋找,比如輸入關(guān)鍵詞“狗糧”然后就可以看到相關(guān)內(nèi)容筆記,接著就可以找到相應(yīng)的內(nèi)容了哦😊

    二、如何通過評論熱詞搜索B站UP主?

    飛瓜數(shù)據(jù)B站有【按評論熱詞】搜索UP主的功能,輸入評論關(guān)鍵詞,可以是某個輿情熱詞、某個商品名稱、某個場景詞等,會匹配到對應(yīng)的UP主。

    三、手機評論文本挖掘與數(shù)據(jù)分析(Python)

    目的

            各大電商競爭越來激烈,為了提升客戶服務(wù)質(zhì)量,除了打價格戰(zhàn)外,了解客戶的需求點,對消費者的文本評論進行數(shù)據(jù)挖掘,傾聽客戶的心聲越來越重要。

    工具

    1、貝殼采集器

    2、Google瀏覽器

    3、Python3.7 + Pycharm

    數(shù)據(jù)采集

    ①本文對京東平臺的手機進行爬蟲,首先進入京東商城,選擇一款手機,這里以華為Mate 30 Pro 5G為例

    ②在采集平臺輸入網(wǎng)址,點擊貝殼采集開始配置信息

    ③因為是采集評論所以還需要進行下預(yù)操作配置切換頁面:點擊預(yù)操作按鈕-->添加點擊元素按鈕-->左鍵點擊流程圖中添加元素按鈕(懸浮顯示操作鍵)-->點擊懸浮顯示操作鍵<選擇按鈕>  -->點擊網(wǎng)頁商品評論TAB頁切換按鈕 -->點擊保存

    ④沒有識別出評論信息,手工操作下:清空字段-->更改頁面類型為手工識別列表 --> 選中兩個一樣元素(這里兩個用戶名稱) -->下一頁未自動識別成功-->更改分頁類型為手動點擊下一頁-->配置完成-->開始采集

    數(shù)據(jù)預(yù)處理

    當(dāng)我們通過爬蟲獲取到我們想要的數(shù)據(jù)之后,進行簡單的觀察,可以發(fā)現(xiàn)評論的一些特點:

    文本短,基本上大量的評論就是一句話.

    情感傾向明顯:明顯的詞匯如”好” “可以”

    語言不規(guī)范:會出現(xiàn)一些網(wǎng)絡(luò)用詞,符號,數(shù)字等

    重復(fù)性大:一句話出現(xiàn)詞語重復(fù)

    數(shù)據(jù)量大.

    故我們需要對這些數(shù)據(jù)進行數(shù)據(jù)預(yù)處理

    數(shù)據(jù)預(yù)處理包括:去重、分詞等

    下面我們將進行數(shù)據(jù)清洗

    import jieba

    #評論內(nèi)容進行去重

    def quchong(infile, outfile):

        infopen = open(infile, 'r', encoding='utf-8')

        outopen = open(outfile, 'w', encoding='utf-8')

        lines = infopen.readlines()

        list_1 = []

        for line in lines:

            if line not in list_1:

                list_1.append(line)

                outopen.write(line)

        infopen.close()

        outopen.close()

    quchong("E:/comments/華為P30.txt", "E:/comments/P30去重.txt")

    # jieba.load_userdict('userdict.txt')

    #創(chuàng)建停用詞list

    def stopwordslist(filepath):

        stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

        return stopwords

    #對評論內(nèi)容進行分詞

    def seg_sentence(sentence):

        sentence_seged = jieba.cut(sentence.strip())

    stopwords = stopwordslist('stopwords.txt')  #這里加載停用詞的路徑

        outstr = ''

        for word in sentence_seged:

            if word not in stopwords:

                if word != '\t':

                    outstr += word

                    outstr += " "

        return outstr

    inputs = open('E:/comments/P30去重.txt', 'r', encoding='utf-8')

    outputs = open('E:/comments/P30分詞.txt', 'w')

    for line in inputs:

    line_seg = seg_sentence(line)  #這里的返回值是字符串

        outputs.write(line_seg + '\n')

    outputs.close()

    inputs.close()

    print('分詞完畢')

    數(shù)據(jù)分析

    上面我們已經(jīng)通過去重和jieba分詞將爬取的內(nèi)容進行了預(yù)處理,接下來就開始對處理過的數(shù)據(jù)進行分析,包括詞頻統(tǒng)計、關(guān)鍵詞提取以及詞云的生成等

    #詞頻統(tǒng)計

    import jieba.analyse

    from collections import Counter  #詞頻統(tǒng)計

    with open('E:/comments/P30分詞.txt', 'r', encoding='utf-8') as fr:

        data = jieba.cut(fr.read())

    data = dict(Counter(data))

    with open('E:/comments/P30詞頻.txt', 'w', encoding='utf-8') as fw:  # 讀入存儲wordcount的文件路徑

        for k, v in data.items():

            fw.write('%s, %d\n' % (k, v))

    import jieba.analyse

    import matplotlib.pyplot as plt

    from wordcloud import WordCloud

    #生成詞云

    with open('E:/comments/P30詞頻.txt') as f:

    #提取關(guān)鍵詞

        data = f.read()

        keyword = jieba.analyse.extract_tags(data, topK=50, withWeight=False)

        wl = " ".join(keyword)

    #設(shè)置詞云

        wc = WordCloud(

    #設(shè)置背景顏色

            background_color = "white",

    #設(shè)置最大顯示的詞云數(shù)

            max_words=2000,

    #這種字體都在電腦字體中,一般路徑

            font_path='C:/Windows/Fonts/simfang.ttf',

            height=1200,

            width=1600,

    #設(shè)置字體最大值

            max_font_size=100,

    #設(shè)置有多少種隨機生成狀態(tài),即有多少種配色方案

            random_state=30,

        )

    myword = wc.generate(wl)  #生成詞云

    #展示詞云圖

        plt.imshow(myword)

        plt.axis("off")

        plt.show()

    wc.to_file('E:/comments/P30.png')  #把詞云保存下

    四、微博爬蟲系列之關(guān)鍵詞及指定用戶博文爬取

    近期的一些微博爬蟲內(nèi)容,本篇主要將怎么根據(jù)關(guān)鍵詞或指定用戶進行博文爬取。

    準(zhǔn)備寫的內(nèi)容:

    定向詞及指定用戶博文爬取方面,用的是微博網(wǎng)頁版( https://weibo.cn )。對于微博網(wǎng)頁版中相關(guān)博文的爬取,需要使用到 cookies 。這方面的爬取參考了github上的資源:

    寫的時候發(fā)現(xiàn)網(wǎng)頁版的關(guān)鍵詞檢索接口已經(jīng)不見了···可能是微博刪除了網(wǎng)頁版的接口吧···之后再看看怎么在pc端爬取。

    這里先介紹怎么指定用戶進行博文爬取吧···

    指定用戶的時候,需要有用戶的用戶id。通常用戶id是一串?dāng)?shù)字,也有一些賬號更改后是字符串,舉個例子,何同學(xué)跟央視新聞的微博:

    在這里何同學(xué)的 uid = 6529876887 ,央視新聞的 uid = cctvxinwen 。當(dāng)然也可以獲取到央視新聞以數(shù)字存儲的id,之后再講怎么獲取,這里直接放出來就是 uid = 2656274875 ,點擊可以發(fā)現(xiàn)確實是央視新聞的微博 https://weibo.cn/2656274875

    這個問題在爬取用戶博文方面沒有影響,不過在爬取用戶信息時會有影響,后面寫用戶信息爬取再說這個情況怎么解決。

    下面以央視新聞為例看看怎么爬用戶的博文。

    點擊進入 央視新聞 的微博,可以看到這個賬號發(fā)布了很多很多微博,在網(wǎng)頁版觀看就會顯示很多頁,那么要爬取的時候就要先獲取他的頁數(shù)。

    當(dāng)點擊第二頁時,會發(fā)現(xiàn) url 會變成 https://weibo.cn/cctvxinwen?page=2 。也就是說這個翻頁是以 page 這個字段進行翻頁的,這就好辦很多了。

    將 page 改成 1 可以發(fā)現(xiàn)網(wǎng)頁跳轉(zhuǎn)到所有博文的第1頁,接下來那我們就先獲取到所有的頁面url。

    首先進入 https://weibo.cn/cctvxinwen?page=1 ,打開開發(fā)者模式,在文件中找到自己的 cookies 。

    在網(wǎng)頁開發(fā)者模式下,點開文件可以發(fā)現(xiàn)沒有json格式的數(shù)據(jù)輸出。因此這里不能直接通過解析json數(shù)據(jù)獲取到頁面數(shù)據(jù)。

    這里就需要查看網(wǎng)頁返回的文本信息了。這里再定位具體信息時,我用的是 lxml 庫里的 etree 方法。

    這里要查看具體要定位到哪里,可以在網(wǎng)頁上的源碼進行定位,比如我們要定位到頁數(shù),找到頁數(shù)所在的地方:

    拿到用戶的所有博文網(wǎng)頁后,就可以進行博文的爬取了。這里每一頁的數(shù)據(jù)是一樣的,所以直接用第一頁為例就可以了。同樣的將頁面數(shù)據(jù)爬下來:

    還是在網(wǎng)頁上看,定位到某一條博文,可以看到源碼是這樣子的:

    可以看到第1頁這里展示了11條博文(這個不一定),每條博文放在 div class="c" id="" 的控件里,這里的id是對應(yīng)的博文id,于是我們就可以拿到博文的控件:

    選擇其中一個博文來看

    這里我們可以看到要的信息全在這里了,接著就按著控件抓信息。這里拿其中一個節(jié)點為例。

    首先獲取微博的url以及微博id,這個從上面看到,可以從點贊、轉(zhuǎn)發(fā)、評論處的鏈接獲取,這里選擇最簡單的轉(zhuǎn)發(fā)鏈接,對應(yīng)的點贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評論數(shù)也可以順便爬下來了:

    接下來看下微博的創(chuàng)建時間,這里我們看到還有微博的來源,有一些可能會沒有這個信息:

    接下來就是博文的主體了:

    博文方面的內(nèi)容提取基本就是從github上搬過來的,對內(nèi)容部分字符串進行了一些匹配清洗:

    上面是比較簡單的博文情況,有一些可能有圖片、視頻、轉(zhuǎn)發(fā)等情況,這里直接放GitHub的做法,具體爬取方式是一樣的,定位控件,找信息:

    到這里,指定用戶的博文爬取就結(jié)束了,主要還是參考了GitHub的大神~

    以上就是關(guān)于評論關(guān)鍵詞提取相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進行咨詢,客服也會為您講解更多精彩的知識和內(nèi)容。


    推薦閱讀:

    真正的情人抖音會評論嗎(情人有新歡還吊著你怎么辦)

    2022社會熱點話題及評論(2022十大熱點事件及評析)

    抖音下拉式評論怎么變橫向了(抖音評論橫在下面)

    房地產(chǎn)全年營銷方案(房地產(chǎn)全年營銷方案策劃)

    景觀設(shè)計的計劃怎么寫(景觀設(shè)計的計劃怎么寫的)