HOME 首頁(yè)
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營(yíng)
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    爬蟲(chóng)人民日?qǐng)?bào)關(guān)鍵詞(人民日?qǐng)?bào) 關(guān)鍵詞)

    發(fā)布時(shí)間:2023-04-18 19:55:18     稿源: 創(chuàng)意嶺    閱讀: 78        

    大家好!今天讓創(chuàng)意嶺的小編來(lái)大家介紹下關(guān)于爬蟲(chóng)人民日?qǐng)?bào)關(guān)鍵詞的問(wèn)題,以下是小編對(duì)此問(wèn)題的歸納整理,讓我們一起來(lái)看看吧。

    開(kāi)始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,越精準(zhǔn),寫(xiě)出的就越詳細(xì),有微信小程序端、在線網(wǎng)頁(yè)版、PC客戶端

    官網(wǎng):https://ai.de1919.com。

    創(chuàng)意嶺作為行業(yè)內(nèi)優(yōu)秀的企業(yè),服務(wù)客戶遍布全球各地,如需了解SEO相關(guān)業(yè)務(wù)請(qǐng)撥打電話175-8598-2043,或添加微信:1454722008

    本文目錄:

    爬蟲(chóng)人民日?qǐng)?bào)關(guān)鍵詞(人民日?qǐng)?bào) 關(guān)鍵詞)

    一、關(guān)于java新聞網(wǎng)站的算法

    (一) 算法倫理的研究

    1.算法內(nèi)涵界定。算法源于數(shù)學(xué),但現(xiàn)代算法又遠(yuǎn)遠(yuǎn)不止于傳統(tǒng)數(shù)學(xué)的計(jì)算范疇。算法多被理解為是計(jì)算機(jī)用于解決問(wèn)題的程序或步驟,是現(xiàn)代人工智能系統(tǒng)的運(yùn)行支柱?!队?jì)算主義:一種新的世界觀》(李建會(huì)等,2012)中將算法定義為能行的方法,在外界的常識(shí)性理解中所謂算法就是能感受到的一套運(yùn)算規(guī)則,這個(gè)規(guī)則的特點(diǎn)在于運(yùn)算時(shí)間的有限性、計(jì)算步驟的有窮性、輸入結(jié)果的確切性,它是機(jī)械步驟或能行可算計(jì)程序。該定義點(diǎn)明了算法應(yīng)具備的兩個(gè)基本屬性——有限性與有窮性?!队糜?jì)算的觀點(diǎn)看世界》( 酈全民,2016) 則從信息傳播的角度解讀算法,認(rèn)為算法實(shí)質(zhì)上是信息處理方法。

    2.算法倫理研究

    倫理關(guān)乎道德價(jià)值真理及其判斷。存在于自然界、社會(huì)中的人,其行為應(yīng)遵循一定的倫理道德規(guī)范。倫理的效應(yīng)要導(dǎo)向善。倫理道德關(guān)注對(duì)個(gè)體存在的尊重、個(gè)體的自由、公平正義以及組織團(tuán)體的延續(xù)與發(fā)展等問(wèn)題。在一定程度上可以說(shuō),當(dāng)今的人類社會(huì)已經(jīng)不能脫離智能算法系統(tǒng)而運(yùn)行了。

    算法無(wú)時(shí)無(wú)處不在對(duì)世界產(chǎn)生影響,因而算法也會(huì)必然的觸碰到倫理道德。和鴻鵬(2017)已指出,算法系統(tǒng)在人類社會(huì)生活中的廣泛應(yīng)用,會(huì)陷入諸多如人類面臨且無(wú)法回避的倫理兩難選擇困境之中。而當(dāng)算法與倫理發(fā)生關(guān)聯(lián)時(shí),學(xué)界一般認(rèn)為會(huì)引出職業(yè)倫理和技術(shù)倫理兩種倫理問(wèn)題。

    職業(yè)倫理主要與算法系統(tǒng)的開(kāi)發(fā)者有關(guān),指開(kāi)發(fā)者是帶有個(gè)性價(jià)值觀、倫理道德觀去研發(fā)算法系統(tǒng)的行為體,因而算法系統(tǒng)一開(kāi)始便會(huì)摻雜著設(shè)計(jì)人主觀性的倫理道德觀。設(shè)計(jì)者出于何種目的開(kāi)發(fā)某算法系統(tǒng)、面對(duì)不同問(wèn)題設(shè)計(jì)者持有的倫理道德態(tài)度,這些都會(huì)在算法系統(tǒng)的運(yùn)行中得到體現(xiàn)。

    技術(shù)倫理是算法系統(tǒng)在一定意義上可稱之為一種科學(xué)技術(shù),這種技術(shù)自身及其運(yùn)作結(jié)果都會(huì)負(fù)載著倫理價(jià)值。其實(shí)在一些情況下,職業(yè)倫理與技術(shù)倫理之間并沒(méi)有很明確的界別,關(guān)于這一點(diǎn),劉則淵跟王國(guó)豫已做過(guò)論述。

    本文將主要從技術(shù)倫理的角度對(duì)算法關(guān)涉?zhèn)惱磉@一問(wèn)題嘗試做深入研究。

    (二)網(wǎng)絡(luò)新聞傳播的算法倫理研究

    算法與技術(shù)的融合不斷英語(yǔ)于網(wǎng)絡(luò)新聞傳播領(lǐng)域中,從數(shù)據(jù)新聞到機(jī)器寫(xiě)作,從算法推送到輿情到分析,國(guó)內(nèi)新聞傳媒領(lǐng)域的機(jī)器新聞和相關(guān)研究逐漸發(fā)展,金兼斌在《機(jī)器新聞寫(xiě)作:一場(chǎng)正在發(fā)生的革命》(2014),作者較早的將眼光聚焦于基于算法的新聞內(nèi)容生產(chǎn)和編輯。認(rèn)為在自動(dòng)化新聞生產(chǎn)大發(fā)展的前提下,諸如新聞生產(chǎn)或分發(fā)中勞動(dòng)密集型的基礎(chǔ)性工作與環(huán)節(jié)都將被技術(shù)取代。張超、鐘新在《從比特到人工智能:數(shù)字新聞生產(chǎn)的算法轉(zhuǎn)向》(2017) 認(rèn)為算法正在從比特形式走向人工智能階段,這種轉(zhuǎn)向使得數(shù)字新聞與傳統(tǒng)新聞的邊界進(jìn)一步明晰,促使數(shù)字新聞生產(chǎn)也產(chǎn)生了變革。胡萬(wàn)鵬在《智能算法推薦的倫理風(fēng)險(xiǎn)及防范策略》中總結(jié)了從算法推送方面:針對(duì)新聞的價(jià)值觀所受到的負(fù)面影響;以及新聞的公共性、客觀性和真實(shí)性受到的削弱進(jìn)行分析;從受眾方面:將具體對(duì)信息繭房現(xiàn)象以及受眾的知情權(quán)和被遺忘權(quán)展開(kāi)探討;從社會(huì)影響方面,則針對(duì)社會(huì)群體、社會(huì)公共領(lǐng)域和社會(huì)文化所受到的消極影響展開(kāi)論述。

    根據(jù)以上文獻(xiàn)的梳理可以看出,國(guó)內(nèi)目前對(duì)網(wǎng)絡(luò)新聞傳播的算法倫理研究主要集中在新聞業(yè)態(tài)算法倫理失范的相關(guān)問(wèn)題,因?yàn)榕c其他失范問(wèn)題相比,這是比較容易發(fā)現(xiàn)的。但目前關(guān)于網(wǎng)絡(luò)新聞傳播的算法倫理的國(guó)內(nèi)研究還存在不足:國(guó)內(nèi)算法倫理和網(wǎng)絡(luò)新聞傳播算法倫理的研究還是在起步階段,比較成熟的系統(tǒng)性研究還未出現(xiàn);關(guān)于算法開(kāi)發(fā)人員和平臺(tái)的責(zé)任機(jī)制的研究都比較薄弱,總上所述,算法推送新聞的倫理問(wèn)題研究是有必要繼續(xù)加強(qiáng)的。

    2.新聞推薦算法的興起、發(fā)展與原理

    2.1 新聞推薦算法的興起

    隨著計(jì)算機(jī)技術(shù)的信息處理的維度越來(lái)越高,信息處理的能力不斷提升,算法技術(shù)可以從大數(shù)據(jù)中篩選出用戶最關(guān)心最感興趣的信息,改變了原有的新聞信息傳播方式,重塑了新的媒介生態(tài)和傳播格局。

    但反過(guò)來(lái)看,在人人都能生產(chǎn)信息的背景下,信息的生產(chǎn)、傳播和反饋的速度都是呈幾何倍數(shù)增長(zhǎng),用戶面對(duì)的信息越來(lái)越多。由于設(shè)備的局限性和信息海量,用戶無(wú)法集中注意力看自己感興趣的內(nèi)容,也無(wú)法及時(shí)抓取對(duì)自己有用的信息,于是出現(xiàn)了“注意力經(jīng)濟(jì)”。美國(guó)經(jīng)濟(jì)學(xué)家邁克爾·戈德海伯(1997)認(rèn)為,當(dāng)今社會(huì)是一個(gè)信息極大豐富甚至泛濫的社會(huì),而互聯(lián)網(wǎng)的出現(xiàn),加快了這一進(jìn)程,信息非但不是稀缺資源,相反是過(guò)剩的。相對(duì)于過(guò)剩的信息,只有一種資源是稀缺的,那就是人們的注意力。換句話說(shuō),信息不能夠一味追求量,還要有價(jià)值,價(jià)值就在于用戶對(duì)信息的注意力,誰(shuí)獲得了用戶的注意力就可以有市場(chǎng)的發(fā)展空間,通過(guò)“販賣”用戶的注意力能夠使新媒體聚合平臺(tái)獲得利潤(rùn),維持發(fā)展。再加上現(xiàn)在生活節(jié)奏越來(lái)越快,人們對(duì)信息獲取的量和效率要求提高,不想把時(shí)間浪費(fèi)在自己不感興趣的信息,從而用戶獲取信息的“個(gè)性化”特征變得明顯起來(lái)。

    基于此背景下,算法推送新聞的傳播機(jī)制應(yīng)運(yùn)而生,用戶不需要特意搜索自己需要的信息,而是海量的信息會(huì)自行“找到”用戶,為用戶節(jié)省搜索時(shí)間之余,又能做到真正為用戶提供有用的信息。

    2.2新聞推薦算法的發(fā)展現(xiàn)狀

    算法推薦是依據(jù)用戶數(shù)據(jù)為用戶推薦特定領(lǐng)域的信息,根據(jù)受眾使用反饋不斷修正并完善推薦方案。目前主要有兩類新聞機(jī)構(gòu)使用算法推送,其一是新型的互聯(lián)網(wǎng)新聞聚合類平臺(tái),國(guó)內(nèi)主要是以今日頭條和一點(diǎn)資訊等算法類平臺(tái)為代表,在我國(guó)新聞客戶端市場(chǎng)上擁有極高的占有率。張一鳴創(chuàng)建今日頭條是依靠大數(shù)據(jù)和算法為用戶推薦信息,提供連接人與信息的服務(wù),算法會(huì)以關(guān)鍵詞等元素判斷用戶的興趣愛(ài)好,從全網(wǎng)抓取內(nèi)容實(shí)現(xiàn)個(gè)性化推薦。國(guó)外則是以Facebook、Instagram等平臺(tái)為代表,這些APP都是通過(guò)算法挖掘用戶的數(shù)據(jù),以用戶個(gè)性化需求為導(dǎo)向?qū)τ脩暨M(jìn)行新聞推送。另一種則是專業(yè)新聞生產(chǎn)的傳統(tǒng)媒體,為積極應(yīng)對(duì)新聞市場(chǎng)的競(jìng)爭(zhēng)和提高技術(shù)水平而轉(zhuǎn)型到新聞全媒體平臺(tái),如國(guó)內(nèi)的“人民日?qǐng)?bào)”等,國(guó)外利用算法推送向用戶推送新聞的傳統(tǒng)媒體則有美國(guó)的美聯(lián)社、華盛頓郵報(bào)和英國(guó)的BBC等,他們利用算法監(jiān)督受眾的數(shù)量還有閱讀行為,使他們的新聞報(bào)道能夠更加受受眾的喜歡,增加用戶的粘性。

    2.2 新聞推薦算法的原理

    2.2.1 新聞推薦算法的基本要素

    算法推送有三個(gè)基本要素,分別是用戶、內(nèi)容和算法。用戶是算法推送系統(tǒng)的服務(wù)對(duì)象,對(duì)用戶的理解和認(rèn)知越是透徹,內(nèi)容分法的準(zhǔn)確性和有效性就越準(zhǔn)確。內(nèi)容是算法推送系統(tǒng)的基本生產(chǎn)資料,對(duì)多種形式內(nèi)通的分析、組織、儲(chǔ)存和分發(fā)都需要科學(xué)的手段與方法。算法是算法推送技術(shù)上的支持,也是最核心的。系統(tǒng)中大量用戶與海量的信息是無(wú)法自行匹配的,需要推送算法把用戶和內(nèi)容連接起來(lái),在用戶和內(nèi)容之間發(fā)揮橋梁作用,高效把合適的內(nèi)容推薦給合適的用戶。

    2.2.2 新聞推薦算法的基本原理

    算法推送的出現(xiàn)需要具備兩個(gè)條件:足夠的信息源和精確的算法框架。其中,算法的內(nèi)容生產(chǎn)源與信息分發(fā)最終效果密切相關(guān):是否有足夠多的信息可供抓取與信息是否有足夠的品質(zhì)令用戶滿意都將對(duì)信息的傳播效果產(chǎn)生影響。與此同時(shí),分發(fā)環(huán)節(jié)也在向前追溯,改變著整個(gè)傳播的生態(tài)。目前,國(guó)內(nèi)新聞傳播領(lǐng)域所使用的算法推送主要有三大類——協(xié)同過(guò)濾推送、基于內(nèi)容推送和關(guān)聯(lián)規(guī)則推送。

    協(xié)同過(guò)濾推送分為基于用戶的協(xié)同過(guò)濾和基于模型的協(xié)同過(guò)濾。前者主要考慮的是用戶和用戶之間的相似度,只要找出相似用戶喜歡的新聞文章類別,并預(yù)測(cè)目標(biāo)用戶對(duì)該文章的喜歡程度,就可以將其他文章推薦給用戶;后者和前者是類似的,區(qū)別在此時(shí)轉(zhuǎn)向找到文章和文章之間的相似度,只有找到了目標(biāo)用戶對(duì)某類文章的喜愛(ài)程度,那么我們就可以對(duì)相似度高的類似文章進(jìn)行預(yù)測(cè),將喜愛(ài)程度相當(dāng)?shù)南嗨莆恼峦扑]給用戶。因此,前者利用用戶歷史數(shù)據(jù)在整個(gè)用戶數(shù)據(jù)庫(kù)中尋找相似的推送文章進(jìn)行推薦,后者通過(guò)用戶歷史數(shù)據(jù)構(gòu)造預(yù)測(cè)模型,再通過(guò)模型進(jìn)行預(yù)測(cè)并推送。

    基于內(nèi)容的推送即根據(jù)用戶歷史進(jìn)行文本信息特征抽取、過(guò)濾,生成模型,向用戶推薦與歷史項(xiàng)目?jī)?nèi)容相似的信息。它的優(yōu)點(diǎn)之一就是解決了協(xié)同過(guò)濾中數(shù)據(jù)稀少時(shí)無(wú)法準(zhǔn)確判斷分發(fā)的問(wèn)題。但如果長(zhǎng)期只根據(jù)用戶歷史數(shù)據(jù)推薦信息,會(huì)造成過(guò)度個(gè)性化,容易形成“信息繭房”。

    關(guān)聯(lián)規(guī)則推送就是基于用戶歷史數(shù)據(jù)挖掘用戶數(shù)據(jù)背后的關(guān)聯(lián),以分析用戶的潛在需求,向用戶推薦其可能感興趣的信息?;谠撍惴ǖ男畔⑼扑]流程主要分為兩個(gè)步驟,第一步是根據(jù)當(dāng)前用戶閱讀過(guò)的感興趣的內(nèi)容,通過(guò)規(guī)則推導(dǎo)出用戶還沒(méi)有閱讀過(guò)的可能感興趣的內(nèi)容;第二是根據(jù)規(guī)則的重要程度,對(duì)內(nèi)容排序并展現(xiàn)給用戶。關(guān)聯(lián)規(guī)則推送的效果依賴規(guī)則的數(shù)量和質(zhì)量,但隨著規(guī)則數(shù)量的增多,對(duì)系統(tǒng)的要求也會(huì)提高。

    2.2.3 算法推送的實(shí)現(xiàn)流程

    在信息過(guò)載的時(shí)代,同一個(gè)新聞選題有很多同質(zhì)化的報(bào)道,因此分發(fā)前需要對(duì)新聞內(nèi)容進(jìn)行消重,消重后的新聞內(nèi)容便等待推送,此時(shí)的推送有三個(gè)類別:?jiǎn)?dòng)推送、擴(kuò)大推送和限制推送。

    第一類是啟動(dòng)推送,先對(duì)用戶精準(zhǔn)推送,即將其訂閱賬號(hào)的更新內(nèi)容第一時(shí)間向用戶推薦;然后根據(jù)用戶的歷史瀏覽數(shù)據(jù),把相似的文本特征歸類后推送給其他用戶;最后是給關(guān)注用戶的相似人群進(jìn)行推薦。第二類擴(kuò)大推送是指對(duì)于某個(gè)點(diǎn)擊率、閱讀時(shí)長(zhǎng)都明顯高于平均水平的新聞內(nèi)容,系統(tǒng)會(huì)將它自動(dòng)篩選出來(lái),并向更多的人進(jìn)行推薦。但在擴(kuò)大推薦的過(guò)程中,系統(tǒng)會(huì)依據(jù)用戶的反饋進(jìn)行調(diào)整。第三為限制推送,指某個(gè)點(diǎn)擊率、閱讀時(shí)長(zhǎng)都明顯低于平均水平的新聞內(nèi)容,會(huì)被系統(tǒng)自動(dòng)篩選出來(lái),遏制推送,這樣的內(nèi)容會(huì)被縮小推薦范圍。

    3. “今日頭條”新聞推薦算法分析

    “今日頭條”是國(guó)內(nèi)一款資訊類的媒體聚合平臺(tái),每天有超過(guò)1.2億人使用。從“你關(guān)心的,才是頭條!”到如今的“信息創(chuàng)造價(jià)值!”,產(chǎn)品slogan的變化也意味著今日頭條正逐漸擺脫以往單一、粗暴的流量思維,而開(kāi)始注重人與信息的連接,在促進(jìn)信息高效、精準(zhǔn)傳播的同時(shí)注重正確的價(jià)值引導(dǎo)。

    在2018年初,“今日頭條”的資深算法架構(gòu)師曹歡歡博士在一場(chǎng)分享交流會(huì)上公開(kāi)了其算法運(yùn)行原理。在他的敘述中,非常詳細(xì)地介紹了“今日頭條”的算法推薦系統(tǒng)概述以及算法推薦系統(tǒng)的操作原理。

    3.1.1-1 曹歡歡博士的今日頭條算法建模

    上圖用數(shù)學(xué)形式化的方法去描述“今日頭條”的算法推送,實(shí)際上就是一個(gè)能夠得出用戶對(duì)內(nèi)容滿意程度的函數(shù):即y為用戶對(duì)內(nèi)容的滿意度,Xi,Xc,Xu分別是今日頭條公開(kāi)的算法推送的三個(gè)維度:Xi是用戶,包括用戶的性別、年齡、職業(yè)和興趣標(biāo)簽,還有其他算法模型刻畫(huà)的隱形用戶偏好等;Xc是環(huán)境,這也是移動(dòng)互聯(lián)網(wǎng)時(shí)代新聞推送的特點(diǎn),由于用戶隨時(shí)隨地在不停移動(dòng),移動(dòng)終端也在移動(dòng),用戶在不同的工作場(chǎng)合、旅行等場(chǎng)景信息推送偏好也會(huì)不同;Xu是內(nèi)容,今日頭條本身就是信息聚合類平臺(tái),平臺(tái)上涵蓋各種不同形式的內(nèi)容。本章將以該函數(shù)為基礎(chǔ),逐一分析今日頭條的推薦算法。

    3.1 推薦維度之一:內(nèi)容分析

    內(nèi)容分析原指第二次世界大戰(zhàn)期間,傳播學(xué)家拉斯韋爾等研究學(xué)家組織了“戰(zhàn)士通訊研究”的工作,以德國(guó)公開(kāi)出版的戰(zhàn)時(shí)報(bào)紙為分析研究對(duì)象,弄清報(bào)紙內(nèi)容本質(zhì)性的事實(shí)和趨勢(shì),揭示隱含的隱性情報(bào)內(nèi)容,獲取了許多軍情機(jī)密情報(bào)并且對(duì)事態(tài)發(fā)展作出情報(bào)預(yù)測(cè)。在“今日頭條”中,內(nèi)容分析則是對(duì)文章、視頻內(nèi)容提取關(guān)鍵要素,通過(guò)對(duì)文本、視頻標(biāo)題關(guān)鍵字進(jìn)行語(yǔ)義識(shí)別,給內(nèi)容進(jìn)行分類。“今日頭條”的推送系統(tǒng)是典型的層次化文本分類算法,來(lái)幫助每篇新聞?wù)业胶线m的分類,比如:第一大分類是政治、科技、財(cái)經(jīng)、娛樂(lè)、體育等,體育類可以下分籃球、足球、網(wǎng)球等,足球又可以下分中國(guó)足球和國(guó)際足球,中國(guó)足球最后下分為甲、中超、國(guó)家隊(duì)等。這一步是對(duì)文章進(jìn)行對(duì)這個(gè)工作主要目的是對(duì)文章進(jìn)行分類,方便以后對(duì)客戶推薦。

    想要內(nèi)容分析實(shí)現(xiàn)效果,則需要海量的內(nèi)容信息給算法系統(tǒng)提供有效的篩選和分類?!敖袢疹^條”既然是依賴于算法推送新聞,那它背后的數(shù)據(jù)庫(kù)必然是強(qiáng)大的,“網(wǎng)頁(yè)蜘蛛”和“頭條號(hào)”就是支撐今日頭條平臺(tái)消息來(lái)源的重要渠道,其消息來(lái)源極其豐富,何時(shí)何地有何新鮮事,都能高效率抓取信息。

    第一個(gè)消息來(lái)源的渠道是“網(wǎng)頁(yè)蜘蛛”,“網(wǎng)頁(yè)蜘蛛”又叫網(wǎng)頁(yè)爬蟲(chóng),頭條使用的就是搜索引擎爬蟲(chóng)叫“Bytespider”。它能按照一定的規(guī)則,自動(dòng)爬行抓取互聯(lián)網(wǎng)的信息或腳本,就像蜘蛛通過(guò)蛛網(wǎng)進(jìn)行捕食,當(dāng)發(fā)現(xiàn)新的信息資源,蜘蛛會(huì)立刻出動(dòng)抓取信息內(nèi)容并將其收入自己的數(shù)據(jù)庫(kù)中。和微信的垂直搜索不同,Bytespider是能夠抓取全網(wǎng)內(nèi)容的全新搜索引擎,因此“今日頭條”的搜索引擎功能很全面,搜索的資源很廣,資源包容性極高。

    Bytespider信息抓取的基本流程如下:首先是網(wǎng)頁(yè)抓取。Bytespider順著網(wǎng)頁(yè)中的超鏈接,從這個(gè)網(wǎng)站爬到另一個(gè)網(wǎng)站,通過(guò)超鏈接分析連續(xù)訪問(wèn)抓取更多網(wǎng)頁(yè)。被抓取的網(wǎng)頁(yè)被稱之為網(wǎng)頁(yè)快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁(yè)出發(fā),就能搜集到絕大多數(shù)的網(wǎng)頁(yè)。第二步是處理網(wǎng)頁(yè)。搜索引擎抓到網(wǎng)頁(yè)后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引庫(kù)和索引。其他還包括消除重復(fù)網(wǎng)頁(yè)、判斷網(wǎng)頁(yè)類型、分析超鏈接、計(jì)算網(wǎng)頁(yè)的重要度、豐富度等。第三步提供檢索服務(wù)。用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫(kù)中找到匹配該關(guān)鍵詞的網(wǎng)頁(yè),為了用戶便于判斷,除了網(wǎng)頁(yè)標(biāo)題和URL外,還會(huì)提供一段來(lái)自網(wǎng)頁(yè)的摘要以及其他信息。

    第二個(gè)消息來(lái)源渠道是“頭條號(hào)”。與“今日頭條”不同,它是今日頭條針對(duì)媒體、國(guó)家機(jī)構(gòu)、企業(yè)以及自媒體推出的專業(yè)信息發(fā)布平臺(tái)。致力于幫助生產(chǎn)者在移動(dòng)互聯(lián)網(wǎng)上高效率地獲得更多的曝光和關(guān)注。簡(jiǎn)單來(lái)說(shuō)頭條號(hào)是媒體在上面撰寫(xiě)并發(fā)布文章、視頻后,會(huì)在今日頭條(包括今日頭條極速版)平臺(tái)展示。通過(guò)頭條號(hào)后臺(tái),媒體可以看到具體文章推薦量、閱讀量、粉絲閱讀量、評(píng)論量、轉(zhuǎn)發(fā)量和收藏量,最后通過(guò)這些可以量化的用戶閱讀行為的反饋,算法系統(tǒng)進(jìn)一步對(duì)目標(biāo)用戶進(jìn)行內(nèi)容推薦。

    3.2 推薦維度之二:用戶分析

    用戶分析通過(guò)提取用戶的有效數(shù)據(jù),如用戶經(jīng)常瀏覽的文字類型、經(jīng)常搜索的關(guān)鍵字、注冊(cè)時(shí)登記信息的內(nèi)容等,算法系統(tǒng)可以將每個(gè)用戶的瀏覽記錄、瀏覽時(shí)間、留言、評(píng)論和轉(zhuǎn)發(fā)等行為進(jìn)行關(guān)鍵字提取,最終形成用戶畫(huà)像,以便之后對(duì)用戶進(jìn)行文章和視頻的精準(zhǔn)推送。舉個(gè)例子,給喜歡閱讀“體育”的用戶標(biāo)上“體育”標(biāo)簽;給喜歡“娛樂(lè)”的用戶標(biāo)上“娛樂(lè)”的標(biāo)簽,這一步的作用是給用戶的興趣進(jìn)行建模,包括用戶對(duì)文章和視頻的全局熱度、分類熱度,主題熱度,以及關(guān)鍵詞熱度等。熱度信息在大的推薦系統(tǒng)能夠解決新聞冷啟動(dòng)問(wèn)題,幫助新聞實(shí)現(xiàn)推送。

    用戶分析還具有協(xié)同特征,它可以在部分程度上幫助解決所謂算法越推越窄的問(wèn)題。協(xié)同特征也就是“聯(lián)想式”的推送方法,并非只考慮用戶已有歷史,而是通過(guò)用戶行為分析不同用戶間相似性,比如點(diǎn)擊相似、興趣分類相似、主題相似、興趣詞相似,甚至向量相似,從而擴(kuò)展模型的探索能力。根據(jù)用戶之間計(jì)算數(shù)據(jù)的相似程度,把用戶細(xì)化分類成為不同的目標(biāo)群體,再向目標(biāo)群體集中的推送其感興趣的新聞內(nèi)容

    內(nèi)容分析和用戶分析是相輔相成的,如果沒(méi)有分析的文本標(biāo)簽,無(wú)法得到用戶興趣標(biāo)簽,沒(méi)有用戶的興趣標(biāo)簽就無(wú)法給用戶定位實(shí)現(xiàn)精準(zhǔn)推送。

    3.3 推薦維度之三:環(huán)境分析

    環(huán)境分析就是根據(jù)文章的時(shí)效性和接近性推送給相應(yīng)的用戶,比如獲取用戶當(dāng)前所在位置是否在旅游區(qū),這個(gè)可以通過(guò)獲取用戶的實(shí)時(shí)位置來(lái)實(shí)現(xiàn)。還會(huì)不斷與用戶之前經(jīng)常出現(xiàn)的所在地進(jìn)行對(duì)比等方式確認(rèn)當(dāng)前狀態(tài),分析出用戶是在常住地區(qū)還是在旅行。這時(shí)若系統(tǒng)檢測(cè)到用戶正在泰山及周邊游玩,則可能會(huì)相應(yīng)推送泰山的相關(guān)文章、周邊的交通新聞和天氣信息等等。

    通過(guò)上面三個(gè)推薦維度可以作為數(shù)據(jù)基礎(chǔ),分析當(dāng)前用戶處于什么環(huán)境,結(jié)合用戶畫(huà)像以及文章的內(nèi)容分類來(lái)推薦,盡量做到推送的內(nèi)容都是用戶所感興趣的。算法系統(tǒng)還會(huì)通過(guò)內(nèi)容分類、分析抽取,把文本相似度高的文章,包括新聞主題、內(nèi)容相似的文章進(jìn)行消重,解決推送重復(fù)的問(wèn)題,進(jìn)一步對(duì)目標(biāo)用戶進(jìn)行精確且不重復(fù)的內(nèi)容推薦。最后過(guò)濾質(zhì)量低俗色情的內(nèi)容,以免造成平臺(tái)會(huì)有負(fù)面傾向。

    3.4 “今日頭條”新聞推薦算法的價(jià)值取向

    3.4.1 “用戶為上”

    “今日頭條”的算法推送是站在用戶的立場(chǎng)上的,以滿足用戶個(gè)性化和推送的精準(zhǔn)性,“今日頭條”也重新衡量了新聞價(jià)值標(biāo)準(zhǔn):以用戶為上,用戶對(duì)新聞內(nèi)容和閱讀方式的滿意度便是平臺(tái)推送新聞的價(jià)值宗旨。傳統(tǒng)媒體時(shí)代,只有報(bào)紙和電視,有什么受眾就得看什么,而如今“今日頭條”根據(jù)用戶興趣去進(jìn)行推送。算法推送平臺(tái)用戶范圍廣,很多用戶熱衷關(guān)注負(fù)面,也有許多用戶都有窺視欲和好奇心,喜歡無(wú)聊八卦和無(wú)聊新聞,而且在好奇心作用下用戶都有從眾心理。這使得生產(chǎn)者過(guò)度去迎合受眾,只要是用戶喜歡看就可以發(fā)表在“今日頭條”上。

    3.4.2 “算法主導(dǎo)”

    “今日頭條”更注重技術(shù)分發(fā),生產(chǎn)者是用戶,受眾者也是用戶,這樣一來(lái)內(nèi)容監(jiān)管和分發(fā)就很困難。算法推送機(jī)制根據(jù)用戶愛(ài)好進(jìn)行推送,這樣生產(chǎn)的內(nèi)容快、也無(wú)疑會(huì)加速內(nèi)容配送效率。在算法推送模型中,用戶點(diǎn)擊頻率、閱讀時(shí)間、點(diǎn)贊評(píng)論以及轉(zhuǎn)發(fā)在算法時(shí)代都是可以進(jìn)行量化的目標(biāo)。在這樣情況下生產(chǎn)的內(nèi)容,想要獲得較大點(diǎn)擊率和推送率,需要標(biāo)題才能吸引用戶,因?yàn)橛脩粼谄脚_(tái)一眼能看到的就是標(biāo)題和配圖。標(biāo)題和配圖決定用戶是否會(huì)打開(kāi)你的內(nèi)容,這導(dǎo)致許多內(nèi)容生產(chǎn)者在編輯新聞標(biāo)題時(shí)陷入標(biāo)題黨的怪圈,還有導(dǎo)致低俗內(nèi)容的呈現(xiàn),以制造沖突制造懸念貼標(biāo)簽等方式引用戶點(diǎn)擊,意圖把自己的文章做成爆文。對(duì)于海量的信息內(nèi)容,即使今日頭條數(shù)據(jù)和智能推薦做的再好,目前來(lái)說(shuō)也難以抵擋海量的垃圾信息。

    4.算法推送新聞引發(fā)的倫理問(wèn)題

    在如今網(wǎng)絡(luò)時(shí)代的傳播思維中,“用戶為上”、“算法主導(dǎo)”的新聞價(jià)值取向已經(jīng)在算法聚合類平臺(tái)成為了普遍,算法推送技術(shù)作為吸引用戶的手段,搭建起一個(gè)充滿誘導(dǎo)的媒介環(huán)境,以此增加用戶對(duì)平臺(tái)的粘性。算法推送技術(shù)在獲取信息、傳播速度等方面與以往相比有著跨時(shí)代的進(jìn)步,但與此同時(shí),由于算法推送技術(shù)的加入,衍生出新的倫理問(wèn)題,并且日漸復(fù)雜化。

    4.1 算法推送引發(fā)的倫理問(wèn)題

    4.1.1 算法推送過(guò)于機(jī)械化,沒(méi)有思考能力

    單向的算法推薦對(duì)用戶來(lái)說(shuō)經(jīng)常會(huì)帶來(lái)內(nèi)容雜亂無(wú)章、信息量過(guò)大、信息價(jià)值低等問(wèn)題。從邏輯講,算法只是從關(guān)鍵字的檢索匹配來(lái)完成統(tǒng)計(jì)推薦,但對(duì)新聞報(bào)道或文學(xué)作品具有藝術(shù)性、專業(yè)性的內(nèi)容來(lái)說(shuō),是不能保證推送的質(zhì)量的。算法方面,目前主要基于匹配檢索與統(tǒng)計(jì),大部分都是個(gè)人關(guān)注的信息類型和標(biāo)簽,難以達(dá)到較好的推送效果。一千個(gè)人眼里有一千個(gè)哈姆雷特,但是計(jì)算機(jī)只有只有一個(gè)。算法技術(shù)過(guò)于注重機(jī)械化的統(tǒng)計(jì),只根據(jù)關(guān)鍵詞來(lái)推薦用戶,對(duì)我們中國(guó)具有博大精深的中國(guó)文字文化底蘊(yùn),推薦算法是遠(yuǎn)遠(yuǎn)不夠的。整個(gè)新聞客戶端顯得像是一個(gè)菜市場(chǎng),沒(méi)有態(tài)度、沒(méi)有風(fēng)格,閱讀感受單一化,呈現(xiàn)了碎片化的特點(diǎn)。新聞不只是讓用戶能夠了解身邊發(fā)生的新鮮事,還有宣傳正面思想和傳播正能量的作用,新聞應(yīng)該還要給人們帶來(lái)新的思考。讓機(jī)器做出正確判斷很簡(jiǎn)單,但是讓機(jī)器綜合心理學(xué)、社會(huì)學(xué)、乃至某細(xì)分領(lǐng)域內(nèi)的規(guī)則做出判斷還要正確地引導(dǎo)受眾則很難,正如現(xiàn)在算法技術(shù)還不能完成一篇富有人文性、文學(xué)性和批判性的深度報(bào)道,它止步在了碎片式的、表層的傳播范疇。

    4.1.2 容易引起“信息繭房”效應(yīng)

    “信息繭房”這一概念是凱斯.桑斯坦在《信息烏托邦》一書(shū)中提出的。意指受眾在過(guò)度的信息自我選擇之中,這樣會(huì)降低接觸外界其他信息的可能,從而將自己的生活桎梏于蠶繭一般的“蠶房”中的現(xiàn)象。人們的信息領(lǐng)域會(huì)習(xí)慣性被自己的興趣引導(dǎo),信息窄化帶來(lái)了受眾對(duì)信息接收的單一性,這種單一性的可能會(huì)使受眾陷入循環(huán),加重受眾信息同質(zhì)化。

    在互聯(lián)網(wǎng)的普及初期,受眾主要是從主流媒體和門戶網(wǎng)站獲取新聞信息,主流媒體能夠保障新聞的質(zhì)量;對(duì)于其他資訊的獲取,由于技術(shù)的限制,此時(shí)的繭房并沒(méi)有過(guò)度被放大,受眾是有適當(dāng)?shù)淖灾鬟x擇性閱讀新聞的。但到了如今以智能技術(shù)的互聯(lián)網(wǎng)時(shí)代,情況發(fā)生了改變,信息繭房的現(xiàn)象越來(lái)越明顯,用戶被標(biāo)簽的情況下,算法系統(tǒng)進(jìn)行大量的主動(dòng)推送,使受眾被動(dòng)地成為信息的接收者。用戶的閱讀興趣不可能涵蓋所有的知識(shí)領(lǐng)域,算法分發(fā)的核心邏輯是根據(jù)用戶的行為數(shù)據(jù)來(lái)進(jìn)行精確推薦的,但同時(shí)算法又會(huì)自動(dòng)過(guò)濾掉“不感興趣”“不認(rèn)同”的信息,實(shí)現(xiàn)“看我想看,聽(tīng)我想聽(tīng)”。在此過(guò)程中,因?yàn)樗惴夹g(shù)的力量將用戶的信息選擇效果放大了倍數(shù),進(jìn)而將受眾困住在信息繭房當(dāng)中,受眾也很難憑借自身力量打破繭房,甚至在不知覺(jué)中受到更多負(fù)面的影響。

    4.1.3 算法推送的“偽中立性”

    客觀和全面是新聞倫理的基本要求,新聞從業(yè)者必須從可好信息源來(lái)獲取真實(shí)的信息,以客觀的態(tài)度反應(yīng)現(xiàn)實(shí)。我們慣常認(rèn)為,互聯(lián)網(wǎng)技術(shù)服務(wù)商是技術(shù)中立者,不需要承擔(dān)約束大眾媒體的社會(huì)責(zé)任,然而當(dāng)信息把關(guān)人又新聞編輯轉(zhuǎn)變?yōu)樗惴üこ處?,傳統(tǒng)的媒介倫理似乎已經(jīng)失效。算法具有商業(yè)傾向性,“中立性”是算法平臺(tái)用以逃避媒體責(zé)任的理由,給大眾媒介造成傳播亂象,如此一來(lái)更像是一場(chǎng)算法平臺(tái)“肆意妄為又不想負(fù)責(zé)”的詭辯。

    算法平臺(tái)的信息源是經(jīng)過(guò)選擇和過(guò)濾的,“頭條號(hào)”的內(nèi)容占“今日頭條”整個(gè)信息系統(tǒng)的絕大部分,然而在“人人都可以做新聞人”的時(shí)代,頭條號(hào)平臺(tái)是一個(gè)開(kāi)放的網(wǎng)絡(luò)媒介環(huán)境,存在大量的偏見(jiàn)和錯(cuò)誤的認(rèn)知。無(wú)論是“今日頭條”平臺(tái)設(shè)立的算法規(guī)則,還是其他爬蟲(chóng)的抓取的關(guān)鍵詞,算法系統(tǒng)的信息源很多是具有目的性的、有偏見(jiàn)和非客觀的信息,所以信息源不能直接作用于用戶。因此,篩選算法系統(tǒng)的信息源與傳統(tǒng)的人工編輯相比較,范圍極廣且很難把關(guān),若算法被惡意利用,那么使整個(gè)傳播系統(tǒng)將會(huì)被輕易控制。

    4.1.4 算法推送里的“議程設(shè)置”

    原議程設(shè)置功能揭示的重要內(nèi)涵是:“受眾對(duì)新聞的看法雖然被大眾媒體議程設(shè)置功能所主導(dǎo),但其更深刻的是議程設(shè)置給大眾媒體新聞帶來(lái)放大與延伸,從而使受眾對(duì)新聞選擇做出能動(dòng)性修正,讓受眾在滿足需求和媒介依賴中逐漸培養(yǎng)出的潛在認(rèn)同感”。

    推送算法技術(shù)在互聯(lián)網(wǎng)平臺(tái)的運(yùn)用,使原來(lái)傳統(tǒng)媒體主導(dǎo)的議程設(shè)置過(guò)程發(fā)生了變化,伴隨著傳播權(quán)的轉(zhuǎn)移、公眾參與度的提高和信息量劇增等原因?qū)е伦h程設(shè)置功逐漸能減弱。過(guò)往傳統(tǒng)新聞的內(nèi)容是由編輯有選擇地進(jìn)行報(bào)道后再呈現(xiàn)在受眾面前的,而個(gè)性化新聞推送是用戶自己來(lái)選擇看哪一方面的內(nèi)容,而這一環(huán)節(jié)中,天然的技術(shù)賦權(quán)將傳播權(quán)從傳統(tǒng)媒體下放至平臺(tái)的用戶,使得受眾和社會(huì)的連接無(wú)需依賴傳統(tǒng)媒介,新聞媒體作為把關(guān)人的作用和議程設(shè)置功能都在減弱。

    4.2 算法新聞治理缺陷下的算法權(quán)利異化

    算法作為人工智能的基石之一,是“一種有限、確定、有效并適合用計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)的解決問(wèn)題的方法,是計(jì)算機(jī)科學(xué)的基礎(chǔ)”。近年來(lái),伴隨人工智能深度學(xué)習(xí)算法取得的重大突破和大數(shù)據(jù)時(shí)代的到來(lái),人工智能的應(yīng)用場(chǎng)景不斷拓展,人工智能時(shí)代正逐漸從想象成為現(xiàn)實(shí)。借助于海量的大數(shù)據(jù)和具備強(qiáng)大計(jì)算能力的硬件設(shè)備,擁有深度學(xué)習(xí)算法的人工智能機(jī)器可以通過(guò)自主學(xué)習(xí)和強(qiáng)化訓(xùn)練來(lái)不斷提升自身的能力,解決很多人類難以有效應(yīng)對(duì)的治理難題。伴隨人工能算法在國(guó)家和社會(huì)治理中重要性的日漸凸顯,國(guó)家和社會(huì)對(duì)于算法的依賴也逐漸加深,一種新型的權(quán)力形態(tài)——算法權(quán)力也隨之出現(xiàn)。

    可以把算法權(quán)利分為四種:數(shù)據(jù)主權(quán)、算法設(shè)計(jì)權(quán)、研發(fā)的資本權(quán)和算法控制權(quán)。由于前三種權(quán)利都是單向的、算法開(kāi)發(fā)者賦予算法的權(quán)利,是屬于算法開(kāi)發(fā)者的,與算法分發(fā)平臺(tái)呈現(xiàn)的效果沒(méi)有直接的影響,所以本文將著重論述算法控制權(quán)。

    算法控制權(quán)是雙向的,用戶是算法技術(shù)數(shù)據(jù)行為的提供者,同時(shí)又是被算法技術(shù)控制的受害者。例如我們看到“今日頭條”會(huì)通過(guò)推送算法來(lái)監(jiān)管用戶的發(fā)布和瀏覽行為,同時(shí)平臺(tái)會(huì)通過(guò)算法決策系統(tǒng)來(lái)實(shí)現(xiàn)內(nèi)容的發(fā)布去引導(dǎo)用戶。算法控制權(quán)當(dāng)然是一種天然技術(shù)賦予的權(quán)利,但算法控制權(quán)是在用戶提供數(shù)據(jù)行為的情況下才得以實(shí)現(xiàn)的,因此算法控制權(quán)既存在內(nèi)容生產(chǎn)權(quán),同時(shí)有要尊重和保護(hù)算法相對(duì)人的義務(wù)。

    正因?yàn)槿绱?,算法技術(shù)被認(rèn)為是一種雙刃劍,一方面算法能夠做出精準(zhǔn)的行為預(yù)測(cè),可以為管理者提供非常好的循環(huán)干預(yù)機(jī)制;對(duì)于公共行為主體來(lái)說(shuō),可以通過(guò)對(duì)大數(shù)據(jù)的應(yīng)用來(lái)解決社會(huì)治理問(wèn)題,對(duì)于私人主體來(lái)說(shuō)可以借助數(shù)據(jù)來(lái)提供個(gè)性化和定制化的服務(wù);另一方面,算法技術(shù)存在著諸如利益和風(fēng)險(xiǎn)不對(duì)稱等問(wèn)題,而且由于算法技術(shù)發(fā)展的超前性,新科技的創(chuàng)造者具備不對(duì)稱的信息和技術(shù)優(yōu)勢(shì),能夠按照自身利益的需求來(lái)塑造在平臺(tái)上的算法推送邏輯和社會(huì)系統(tǒng),這帶來(lái)了監(jiān)管的不確定性。人們要通過(guò)集體行為去承擔(dān)社會(huì)責(zé)任,通過(guò)這樣的方式規(guī)制算法權(quán)利,可以讓我們能夠?qū)λ惴ǚ职l(fā)系統(tǒng)的意義和價(jià)值得到更深刻的思考。

    二、人民搜索是什么

    人民搜索網(wǎng)絡(luò)股份公司,于2010年5月31日由人民日?qǐng)?bào)社和人民網(wǎng)共同出資組建。人民搜索即Goso.cn于2010年6月20日正式上線測(cè)試。2010年9月25日,鄧亞萍正式擔(dān)任人民搜索網(wǎng)絡(luò)股份公司總經(jīng)理。2010年12月20日,人民搜索正式推出第一個(gè)產(chǎn)品“新聞搜索1.0”。2011年6月20日人民搜索改版更名為“即刻搜索”,新域名為www.jike.com。

    人民搜索是由人民日?qǐng)?bào)社和人民網(wǎng)共同出資組建的搜索運(yùn)營(yíng)企業(yè)。

    人民搜索依托人民日?qǐng)?bào)社與人民網(wǎng)在新聞媒體領(lǐng)域的優(yōu)勢(shì)與資源,從新聞搜索作為切入點(diǎn),騰空出世,進(jìn)入到搜索引擎的產(chǎn)業(yè)中。新聞搜索是一個(gè)切入點(diǎn),也是一個(gè)起點(diǎn),人民搜索還將不斷推出新的搜索服務(wù)。

    人民搜索從創(chuàng)立之初,即強(qiáng)調(diào)“共建、共贏”的開(kāi)放理念,愿與產(chǎn)業(yè)鏈中相關(guān)的機(jī)構(gòu)與企業(yè)共同構(gòu)建具有公信力、有創(chuàng)新力、有影響力的搜索平臺(tái)。公司不僅通過(guò)校園招聘、社會(huì)招聘等多種渠道廣泛吸納了優(yōu)秀的創(chuàng)新人才,而且從創(chuàng)立之初就建立在一個(gè)產(chǎn)學(xué)研用一體化的機(jī)制之上,人民搜索與中科院計(jì)算所等建立了密切的戰(zhàn)略合作關(guān)系,并計(jì)劃與國(guó)內(nèi)具有相關(guān)技術(shù)專長(zhǎng)的科研機(jī)構(gòu),為中國(guó)實(shí)踐產(chǎn)學(xué)研用一體化的運(yùn)作模式作出了積極而有成效的探索。

    人民搜索的頁(yè)面上提供了新聞、網(wǎng)頁(yè)、圖片、博客、論壇、財(cái)經(jīng)、時(shí)政 等搜索分類。2010年12月20日上線的新聞搜索1.0版,改變了過(guò)去以關(guān)鍵詞為核心的信息檢索模式,而是通過(guò)關(guān)鍵詞聚焦為新聞事件,再對(duì)每一個(gè)新聞事件通過(guò)新聞、信息、評(píng)論、博客、論壇、微博、圖片、視頻等多個(gè)維度來(lái)立體展現(xiàn)——對(duì)海量信息進(jìn)行了“縮”和“放”的處理,這與過(guò)去完全平鋪式的簡(jiǎn)單信息檢索模式相比,還是作出了有益的探索性創(chuàng)新。

    新聞搜索1.0,以對(duì)媒體從業(yè)者需求的深度把握,還推出了“媒體轉(zhuǎn)載率”、“傳播熱度”等特色指標(biāo),讓網(wǎng)友能夠感受到新聞的生命力、新聞的傳播過(guò)程和傳播的溫度,讀新聞不再是讀信息,而是在讀故事。

    新版通用搜索引擎平臺(tái)——即刻搜索以網(wǎng)頁(yè)搜索為默認(rèn)結(jié)果,致力于成為大眾探索求知的工具、工作生活的助手和文化交流的平臺(tái)。

    三、人民日?qǐng)?bào)批評(píng)網(wǎng)絡(luò)虛假流量,虛假流量是如何做出來(lái)的?

    機(jī)器作弊常見(jiàn)的手段有:通過(guò)機(jī)器發(fā)送假流量、肉食機(jī)訪問(wèn)網(wǎng)頁(yè)、 DNS/IP訪問(wèn)網(wǎng)頁(yè)、爬蟲(chóng)技術(shù)訪問(wèn)網(wǎng)頁(yè)等手段制造假流量,以模擬瀏覽行為產(chǎn)生大量的瀏覽痕跡或點(diǎn)擊,從而提高了流量,機(jī)器作弊的成本相對(duì)較低,但都離不開(kāi)編碼程序。當(dāng)前更有效的防范措施,是通過(guò)基本的用戶行為分析來(lái)識(shí)別出這類假流量,再通過(guò)補(bǔ)量、屏蔽來(lái)減少這類假流量。比如:頻繁更換用戶身份,在一家 cookie上猛薅羊毛,一位用戶展示了上千次;“人為欺騙”場(chǎng)景的手段有,通過(guò)雇傭、誘騙等方式大量雇傭人員點(diǎn)擊廣告,下載 APP,訪問(wèn)網(wǎng)頁(yè),因?yàn)閷儆谌藶椴僮鳌?/p>

    爬蟲(chóng)人民日?qǐng)?bào)關(guān)鍵詞(人民日?qǐng)?bào) 關(guān)鍵詞)

    這種虛假流量很難屏蔽,但是成本比較高。這類虛假流量可以通過(guò)深入的用戶行為分析,如轉(zhuǎn)化等來(lái)識(shí)別,可以通過(guò)增加“人工作弊”的運(yùn)營(yíng)成本來(lái)減少這類虛假流量。說(shuō)到虛假流量的盈利形式,與上述廣告支付形式密不可分。每一個(gè)廣告都會(huì)有相應(yīng)的結(jié)算和考核指標(biāo),這已經(jīng)成為虛假流量欺詐的痛點(diǎn)之一。每一個(gè)廣告都有對(duì)應(yīng)的付費(fèi)形式,每一個(gè)付費(fèi)形式都有一個(gè)虛假流量利益的主張點(diǎn),構(gòu)成了虛假流量利益的形式。這些虛假流量的出現(xiàn)通常具有明顯的特征,比如頻繁點(diǎn)擊卻沒(méi)有有效互動(dòng),同一個(gè)人在一段時(shí)間內(nèi)頻繁訪問(wèn)廣告等等。

    爬蟲(chóng)人民日?qǐng)?bào)關(guān)鍵詞(人民日?qǐng)?bào) 關(guān)鍵詞)

    虛假流量之所以能夠成為生態(tài)圈,是因?yàn)楣┣箅p方都有共同的利益。在這個(gè)生態(tài)圈中,虛假流量的提供者、虛假流量的獲得者是兩個(gè)重要的角色。面對(duì)審查指標(biāo)的壓力:企業(yè)(廣告主)過(guò)度追求的KPI和效果指標(biāo)時(shí),根據(jù)審查指標(biāo)的壓力越來(lái)越大,暴露、點(diǎn)擊等指標(biāo)無(wú)法完成時(shí),無(wú)意識(shí)地忽視廣告刷量的影響。

    爬蟲(chóng)人民日?qǐng)?bào)關(guān)鍵詞(人民日?qǐng)?bào) 關(guān)鍵詞)

    歸因分析可以幫助企業(yè)識(shí)別最終轉(zhuǎn)型來(lái)自于哪個(gè)渠道,但企業(yè)往往忽略了這一功能。常見(jiàn)的原因是在預(yù)算充足,客戶情況符合KPI的情況下,企業(yè)的營(yíng)銷運(yùn)作會(huì)忽略不同渠道的虛假流量。但是,有些渠道有混合流量。如果不追蹤每個(gè)渠道的流量質(zhì)量,就會(huì)縱容虛假流量對(duì)營(yíng)銷效果的長(zhǎng)期影響。這對(duì)于針對(duì)效果的營(yíng)銷來(lái)說(shuō)是最重要的,尤其是每年復(fù)盤(pán)的時(shí)候,才發(fā)現(xiàn)虧損不是小數(shù)目。

    虛假流量沒(méi)有先進(jìn)的技術(shù)含量,流量詐騙的成本極低。相關(guān)數(shù)據(jù)顯示,刷流量的成本不到正常流量成本的十分之一。廣告主對(duì)流量質(zhì)量的評(píng)價(jià),除出版者提供的報(bào)道外,沒(méi)有直接證據(jù)證明對(duì)方存在欺詐行為,因此很難追究虛假流量維權(quán)。

    四、人民日?qǐng)?bào)的的投稿要求

    大多數(shù)報(bào)刊雜志都有相對(duì)穩(wěn)定的作者群和稿源,要在激烈的用稿競(jìng)爭(zhēng)中獲勝,為自己爭(zhēng)得一席之地,使自己的作品盡可能變成鉛字,讓你的研究成果為更多的人認(rèn)可和受益,也讓大家與你共同分享成功的喜悅,投稿時(shí)須注意以下5個(gè)問(wèn)題:

    1.投稿要對(duì)路

    每種報(bào)刊雜志都有自己特定的辦報(bào)(刊)方針和宗旨,有自己的讀者對(duì)象,投稿前必須先對(duì)此進(jìn)行了解,搞清它的發(fā)行出版周期是雙月刊、季刊、月刊還是半月刊、周刊,如果是報(bào)紙的話,是日?qǐng)?bào)、周二報(bào)、周報(bào)還是半月報(bào)、月報(bào),接下來(lái)要了解各種報(bào)刊都開(kāi)設(shè)了哪些欄目,各欄目都發(fā)表些什么樣的文章,可能的話還應(yīng)該了解一下報(bào)刊的辦刊歷史,看看近年都發(fā)表過(guò)什么樣的文章,對(duì)照一下你研究的問(wèn)題以及撰寫(xiě)的論文原來(lái)有沒(méi)有人研究過(guò)寫(xiě)過(guò),研究現(xiàn)狀如何,原來(lái)發(fā)表過(guò)的此類文章是從哪些角度寫(xiě)的,你的文章有無(wú)創(chuàng)新發(fā)展。此外,還應(yīng)對(duì)報(bào)刊的發(fā)稿動(dòng)態(tài)和走向以及下一步熱點(diǎn)稿件是哪一類進(jìn)行研究,最后看看你撰寫(xiě)的文章適合于哪些報(bào)刊的哪些欄目,投寄時(shí)最好在信封上注明欄目名稱,以便于編輯人員及時(shí)準(zhǔn)確地處理稿件。要做到這一點(diǎn),平時(shí)對(duì)有關(guān)報(bào)刊必須多看、多翻閱, 至少對(duì)近期目錄做到心中有數(shù),這樣投稿時(shí)才能做到有的放矢,不致于把中學(xué)化學(xué)教學(xué)方面的稿件寄給適合小學(xué)生閱讀的報(bào)刊。

    例如:中學(xué)化學(xué)教學(xué)研究的權(quán)威雜志——《化學(xué)教育》是中國(guó)化學(xué)會(huì)主辦的綜合性學(xué)術(shù)月刊。經(jīng)常在每年第一期刊登《化學(xué)教育》欄目簡(jiǎn)介,《化學(xué)教育》征稿簡(jiǎn)則。如果要向這家雜志投稿,就必須仔細(xì)研究這兩篇文章。其它幾家雜志如:中學(xué)化學(xué)教學(xué)參考、中學(xué)化學(xué)等也會(huì)對(duì)其讀者對(duì)象、投稿要求、雜志欄目等方面進(jìn)行介紹。

    2.注意把握時(shí)機(jī)

    教研論文按時(shí)效性大體可分為兩類:一類時(shí)效性強(qiáng),與教學(xué)進(jìn)度配合(例如《中學(xué)化學(xué)教學(xué)參考》的新教材教學(xué)參考,各種同步練習(xí)等),另一類時(shí)效性不強(qiáng),與教學(xué)進(jìn)度無(wú)關(guān)。后者什么時(shí)候投稿都行, 而前者必須掌握一定的提前量,到底提前多長(zhǎng)時(shí)間投稿,一般報(bào)刊都會(huì)通過(guò)報(bào)刊啟示提醒讀者和作者。正常情況下,如果報(bào)刊沒(méi)有規(guī)定,與教學(xué)進(jìn)度配合的稿件,雙月刊、月刊應(yīng)提前4—6個(gè)月??偟恼f(shuō)來(lái),新聞?lì)惛寮郊皶r(shí)越好,報(bào)刊發(fā)行周期越短,提前量相應(yīng)要小些。投稿最忌諱“馬后炮”,一般不是很出色的稿子,“馬后炮”是很難發(fā)表的,比如:與下學(xué)期一開(kāi)學(xué)要學(xué)的內(nèi)容有關(guān)的稿件, 一般在上學(xué)期期末最遲在假期當(dāng)中就要發(fā),這樣才能給教師備課提供借鑒和參考,如果你等到教完這部分內(nèi)容后再寫(xiě)出來(lái)投出去,那就成了“馬后炮”,這類稿件不是極有價(jià)值一般不會(huì)保留到第二年再發(fā)。這便產(chǎn)生了矛盾,因?yàn)榇蠖鄶?shù)與教學(xué)進(jìn)度有關(guān)的稿件都是在教學(xué)后發(fā)現(xiàn)了問(wèn)題才研究撰寫(xiě)出來(lái)的,而此時(shí)已經(jīng)錯(cuò)過(guò)了投稿時(shí)機(jī)。怎么辦?筆者的經(jīng)驗(yàn)是可以先寫(xiě)出來(lái)慢慢加工仔細(xì)斟酌,到第二年合適的時(shí)候再投出去,這樣經(jīng)過(guò)冷加工后,稿件會(huì)更成熟。有些報(bào)刊采用期長(zhǎng)達(dá)幾個(gè)月甚至半年,即使只有一個(gè)月,由于不能一稿多投,等到收到答復(fù),再投給其它報(bào)刊也已錯(cuò)過(guò)了時(shí)機(jī)。這種情況下也可以采用上述辦法,只是最好有個(gè)發(fā)稿記錄,記下何時(shí)發(fā)給誰(shuí)?結(jié)果如何?再投稿時(shí)心中有數(shù)。

    3.注意格式要規(guī)范

    如果稿件是手寫(xiě)的,要注意書(shū)寫(xiě)認(rèn)真規(guī)范,整潔清楚,無(wú)錯(cuò)別字,標(biāo)點(diǎn)符號(hào)準(zhǔn)確無(wú)誤,而且必須使用方格稿紙謄清,注明每頁(yè)字?jǐn)?shù)。如果是打印稿,還應(yīng)注意字不可太小,一般正文部分以三號(hào)字或小三號(hào)字為宜,頁(yè)腳須注明頁(yè)數(shù)與字?jǐn)?shù),便于編輯排版時(shí)參考。一般報(bào)刊編輯部都不收復(fù)寫(xiě)稿和復(fù)印稿。不少報(bào)刊編輯部對(duì)稿件格式都有詳細(xì)而明確的要求,投稿前要認(rèn)真研究。正規(guī)論文的格式應(yīng)該是標(biāo)題、標(biāo)題之下是通訊地址、通訊地址之后是加小括號(hào)的郵政編碼,然后空格后是作者姓名。較長(zhǎng)的論文在正文之前應(yīng)有200—300字的“摘要”,和不超過(guò)5個(gè)的關(guān)鍵詞,以便于編輯閱稿時(shí)節(jié)約時(shí)間,了解要點(diǎn),通常正文之后還應(yīng)注明“引文出處”或“備注”以及主要參考書(shū)目,參考書(shū)目要寫(xiě)清書(shū)名、出版社名、版本、編著者等。如果是第一次投稿,最好文后加“作者簡(jiǎn)介”,以方便編輯了解情況,建立作者檔案,同時(shí)這也是自我推銷的需要。當(dāng)然,簡(jiǎn)介必須實(shí)事求是,不可海吹,因?yàn)楦寮詈竽芊癫捎?,不是看你的?jiǎn)介來(lái)決定,關(guān)鍵還是稿件的質(zhì)量,提高命中率的根本還在于稿件質(zhì)量。

    4.適當(dāng)控制字?jǐn)?shù)

    不同的刊物,對(duì)論文字?jǐn)?shù)的要求不同,而且差別很大,有的喜歡長(zhǎng)篇大論,有的喜歡短小精悍,投稿時(shí)應(yīng)對(duì)各刊物發(fā)表的文章進(jìn)行研究,總結(jié)歸納出一些規(guī)律,這樣投稿才有針對(duì)性。一般說(shuō)來(lái),寄給報(bào)刊發(fā)表的文章,應(yīng)盡量短些,選題最好小一點(diǎn),內(nèi)容實(shí)用些,可操作一些,讓別人看了能受到啟發(fā)教育或拿過(guò)來(lái)就可以用;而參加評(píng)選的論文,理論性應(yīng)強(qiáng)些,選題可稍大點(diǎn),字?jǐn)?shù)亦應(yīng)適當(dāng)多一些,這樣才能將問(wèn)題說(shuō)清說(shuō)透。通常組織論文評(píng)選的部門下通知或發(fā)啟示時(shí),對(duì)論文選題、格式、字?jǐn)?shù)都有明確要求,撰寫(xiě)時(shí)應(yīng)充分注意,如果沒(méi)有要求,筆者以為參加評(píng)選的論文字?jǐn)?shù)以3000- 5000字為宜,一般不要少于3000字,也不要多于7000字,根據(jù)選題只要論述清楚了就行,不必把過(guò)多的注意力放在字?jǐn)?shù)多少上。就發(fā)表的文章來(lái)看,字?jǐn)?shù)多少的差別亦很大,這主要與選題性質(zhì)、報(bào)刊容量、些讀者對(duì)象等因素有關(guān),一般理論性較強(qiáng)的選題可稍長(zhǎng)些,應(yīng)用性較強(qiáng)的選題應(yīng)短些,投給雜志的稿件可稍長(zhǎng)些,而投給報(bào)紙的稿件應(yīng)盡量短些,面向教師及研究工作者的論文可稍長(zhǎng)些,面向?qū)W生的作品應(yīng)盡量短些,選題較大的、學(xué)術(shù)性強(qiáng)的論文可稍長(zhǎng)些,選題很小、學(xué)術(shù)性不強(qiáng)的、普及性的作品應(yīng)盡量短些。這里的“稍長(zhǎng)”或“稍短”是相對(duì)而言,沒(méi)有嚴(yán)格規(guī)定,在筆者看來(lái),“稍長(zhǎng)”一些的文章可掌握在 3000-5000字之間,當(dāng)然,如果1500-2000字能解決問(wèn)題則最好;“ 稍短”一的文章以不超過(guò)2000字為宜,如果500-1000字頂多1500 字能說(shuō)清問(wèn)題則最好。不論哪類文章,在控制字?jǐn)?shù)的同時(shí)應(yīng)十分注意文章的科學(xué)性和可讀性。所謂科學(xué)性是指文章的觀點(diǎn)不能出錯(cuò),引用的論據(jù)資料應(yīng)準(zhǔn)確無(wú)誤,論證過(guò)程應(yīng)經(jīng)得住推敲;所謂可讀性主要是指文字表述要讓人喜聞樂(lè)讀,一看題目就想看內(nèi)容,一看內(nèi)容就讓人愛(ài)不釋手,非一口氣讀完不可,當(dāng)然這不是一日之功,需要長(zhǎng)時(shí)間磨煉,文字功底是練出來(lái)的。

    例如:《化學(xué)教育》的“化學(xué)與社會(huì)”欄目字?jǐn)?shù)應(yīng)在5000字以內(nèi),“復(fù)習(xí)指導(dǎo)”字?jǐn)?shù)應(yīng)在3000字內(nèi),“調(diào)查報(bào)告”字?jǐn)?shù)在3000字內(nèi),“實(shí)驗(yàn)教學(xué)與教具研制”字?jǐn)?shù)在500—2000。

    5.講究投稿策略

    剛開(kāi)始投稿的人,將稿子投出后總希望盡快得到編輯部的回音。事實(shí)上,由于編輯部每天要處理的稿件無(wú)以數(shù)計(jì),所以,不少刊物收到稿件后常常連收稿通知都懶得發(fā),這挫傷了不少作者的積極性,甚至有人從此不再寫(xiě)稿。還有個(gè)別刊物大量地照顧“關(guān)系稿件”,眼睛只盯住幾個(gè)“名人”,結(jié)果使很多新人退避三舍。但應(yīng)該承認(rèn),任何刊物都會(huì)考慮自己的信譽(yù),真正有生命力的刊物在用稿上一定會(huì)堅(jiān)持認(rèn)稿不認(rèn)人的原則,只要稿件對(duì)路時(shí)機(jī)合適,質(zhì)量屬于上乘之作,任何編輯部都沒(méi)有舍優(yōu)求次的道理。基于這種考慮,從撰稿者角度出發(fā),筆者以為,投稿時(shí)應(yīng)注意以下策略:一是持之以恒,管寄不管發(fā),即經(jīng)常投稿,投出后就不要再去想它,不要指望它一定能發(fā)表,壓低期望值,用不用讓編輯部去考慮,事實(shí)上你想也沒(méi)有用;二是猛打猛沖,以多取勝,越不發(fā)越寄,時(shí)間長(zhǎng)了,編輯就會(huì)有印象,特別是一些稿源充足級(jí)別較高的刊物,很可能你寄的稿子連仔細(xì)看都未來(lái)得及就提出了處理意見(jiàn),“屢投屢退,屢退屢投”就可能感動(dòng)上帝,如果你寫(xiě)的稿件確有水平,不用說(shuō),只仔細(xì)看一次就可能改變你的命運(yùn),甚至連你以前投的稿子都會(huì)引起編輯的注意; 三是認(rèn)準(zhǔn)的路走到底,只要你感到你的稿件確有價(jià)值,就可以反復(fù)投,也可以轉(zhuǎn)投其它同類刊物,相信是金子就一定有被人發(fā)現(xiàn)認(rèn)可的時(shí)候;四是由低到高,循序漸進(jìn),一般來(lái)說(shuō),刊物的級(jí)別越低,發(fā)行范圍越小,稿源越不足,同樣質(zhì)量的稿件投給這樣的刊物就可能增加命中的機(jī)會(huì),剛開(kāi)始寫(xiě)稿打知名度的新人尤其應(yīng)注意這一點(diǎn),夢(mèng)想一鳴驚人一口吃成個(gè)胖子是不現(xiàn)實(shí)的;五是趁熱打鐵,即收到刊物的采用通知后馬上再寄,趁編輯部對(duì)你的稿子還有印象,繼續(xù)開(kāi)拓。六是注意對(duì)準(zhǔn)檔次,即投稿時(shí)注意稿件的質(zhì)量與刊物的級(jí)別影響對(duì)應(yīng)一致,這可以分為兩種情況:第一種情況是原來(lái)發(fā)表過(guò)文章有一定知名度的作者,可以“好稿子”對(duì)“高級(jí)別”刊物,這樣可以擴(kuò)大影響、創(chuàng)牌子、打名聲,提高知名度,當(dāng)然作品一定是“ 拳頭產(chǎn)品”,如刊物多次發(fā)表過(guò)你的稿子屬于“熟門熟路”,可采取中檔稿子對(duì)高級(jí)刊物的策略;第二種情況是原來(lái)未發(fā)表過(guò)文章,沒(méi)有什么名氣,門路不熟,屬于淌路子的作者,可采用“田忌賽馬”的辦法,以好對(duì)中、以中對(duì)低,如此可取得“三局二勝”的效果。

    最后說(shuō)一下“一稿多投”。各刊物都有自己的規(guī)定,都反對(duì)“ 一稿多投”,都要求過(guò)了采用期之后再改投它刊。但是很多稿子時(shí)效性很強(qiáng),特別是配合教學(xué)進(jìn)度的稿件常常是“過(guò)了這個(gè)村就沒(méi)那個(gè)店”了。在這種情況下,有兩個(gè)辦法:一是按規(guī)定辦,過(guò)期改投或留待明年再投,二是采取變相的“一稿多投”,變通的辦法就是作好投稿記錄,收到采用通知后立即通知其它刊物,不要再發(fā)。一般說(shuō)來(lái),知名度不大、剛開(kāi)始寫(xiě)稿的作者,特別是質(zhì)量一般的稿件,即使一稿多投,也很少會(huì)出現(xiàn)幾家刊物同時(shí)采用的情況。從這個(gè)角度出發(fā),從維護(hù)作者權(quán)益的角度出發(fā),筆者贊成第二種辦法,各報(bào)刊雜志編輯部似亦不應(yīng)反對(duì)這種辦法。要說(shuō)責(zé)任的話,作者寫(xiě)稿很不容易,你不用又不及時(shí)通知作者,耽誤了用稿時(shí)機(jī),這個(gè)責(zé)任編輯部應(yīng)該負(fù),不知筆者的看法是否正確。

    各大報(bào)紙的投稿地址參考如下http://zhidao.baidu.com/question/4073053.html?si=5

    以上就是關(guān)于爬蟲(chóng)人民日?qǐng)?bào)關(guān)鍵詞相關(guān)問(wèn)題的回答。希望能幫到你,如有更多相關(guān)問(wèn)題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。


    推薦閱讀:

    爬蟲(chóng)關(guān)鍵詞(爬蟲(chóng)關(guān)鍵詞搜索)

    永久免費(fèi)代理ip(爬蟲(chóng)代理ip購(gòu)買)

    偽原創(chuàng)文章生成器小爬蟲(chóng)(偽原創(chuàng)文章生成器app)

    2023最掙錢的行業(yè)(2030年最賺錢的行業(yè))

    小紅書(shū)宣傳(小紅書(shū)宣傳視頻)