HOME 首頁
SERVICE 服務(wù)產(chǎn)品
XINMEITI 新媒體代運(yùn)營
CASE 服務(wù)案例
NEWS 熱點(diǎn)資訊
ABOUT 關(guān)于我們
CONTACT 聯(lián)系我們
創(chuàng)意嶺
讓品牌有溫度、有情感
專注品牌策劃15年

    火車頭采集規(guī)則詳細(xì)教程(火車頭采集規(guī)則詳細(xì)教程視頻)

    發(fā)布時(shí)間:2023-05-28 13:56:16     稿源: 創(chuàng)意嶺    閱讀: 101        

    大家好!今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于火車頭采集規(guī)則詳細(xì)教程的問題,以下是小編對(duì)此問題的歸納整理,讓我們一起來看看吧。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    開始之前先推薦一個(gè)非常厲害的Ai人工智能工具,一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    只需要輸入關(guān)鍵詞,就能返回你想要的內(nèi)容,有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    問友Ai官網(wǎng):https://ai.de1919.com。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    本文目錄:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    火車頭采集規(guī)則詳細(xì)教程(火車頭采集規(guī)則詳細(xì)教程視頻)qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    飛飛火車頭采集器怎么寫發(fā)布規(guī)則qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    1
    首先講一講網(wǎng)站結(jié)構(gòu),通常網(wǎng)站結(jié)構(gòu)為樹形結(jié)構(gòu),一個(gè)網(wǎng)站主要包以下幾種頁面:首頁、欄目頁、文章頁,其結(jié)構(gòu)如下圖。
    其次講一講火車頭采集原理,火車頭的運(yùn)行需要一套規(guī)則來指定該如何采集所需數(shù)據(jù),即需要編寫火車頭采集規(guī)則,編寫采集規(guī)則也是新手最頭痛的問題。
    火車頭采集器通常通過網(wǎng)址抓取網(wǎng)站返回的源代碼,然后在源代碼中提取需要的信息。因此,采集數(shù)據(jù)需要先采集網(wǎng)址,然后再采集數(shù)據(jù)。
    2
    下面開始編寫采集規(guī)則:
    運(yùn)行LocoyPlatform.exe
    3
    在左側(cè)“任務(wù)列表樹”選擇一個(gè)分組點(diǎn)擊右鍵,選擇“新建任務(wù)”彈出新建任務(wù)對(duì)話框。填寫任務(wù)名,網(wǎng)站編碼一般選擇自動(dòng)即可。
    添加起始網(wǎng)址
    填寫“第一步:采集網(wǎng)址規(guī)則”這里需要按照網(wǎng)站的樹形結(jié)構(gòu)逐級(jí)獲取下一級(jí)結(jié)構(gòu)的網(wǎng)址,直至獲取到內(nèi)容頁的網(wǎng)址。先填寫起始網(wǎng)址,通常為目標(biāo)站首頁地址。點(diǎn)擊“添加”,在單條網(wǎng)址處填上火車頭博客的首頁地址,然后依次點(diǎn)擊“添加” ->“完成”。
    編寫“多級(jí)網(wǎng)址獲取”規(guī)則
    這里需要先在起始地址頁面找到所有需要采集的欄目頁的代碼區(qū)域,先查看起始頁地址的源碼,找到如圖所示代碼區(qū)域:
    點(diǎn)擊右側(cè)“添加”按鈕打開“添加多級(jí)網(wǎng)址采集規(guī)則”,選擇“從頁面自動(dòng)分析得到地址鏈接”單選按鈕,在下面“從該選定區(qū)域中提取網(wǎng)址”,“從”(左側(cè))文本框填上欄目地址代碼區(qū)域開始之前的標(biāo)志性代碼(要保證其在該頁的唯一性),“到”右側(cè)文本框填上欄目地址代碼區(qū)域結(jié)束之后的標(biāo)志性代碼,在“結(jié)果網(wǎng)址過濾”的“必須包含”和“不得包含”文本框填上相應(yīng)代碼,如果該區(qū)域沒有多余的鏈接不需要過濾,可以不填,這里的欄目頁網(wǎng)址必須包含“category-”。然后點(diǎn)擊“保存”返回。
    現(xiàn)在需要獲取內(nèi)容頁的地址。先打開欄目頁查看源碼,查找內(nèi)容頁地址存在的區(qū)域及地址規(guī)律。按照上一步的方法先填寫內(nèi)容頁所在區(qū)域的起始和結(jié)束標(biāo)志性代碼,然后分析這個(gè)區(qū)域中包含的鏈接與我們說需要的內(nèi)容頁地址鏈接規(guī)律,添加過濾代碼。這里起始代碼為“<!--顯示-->”,結(jié)束代碼為“<div class="page" style="float:right">”過濾代碼為必須包含“read-”不得包含“#”。如圖:
    需要注意的是這里文章比較多會(huì)有很多分頁,所以需要填寫“列表分頁獲取”規(guī)則。通常只需要指定分頁代碼的區(qū)域,如有必要可以填寫“組合生成列表頁分頁”規(guī)則。這里的列表分頁規(guī)則其實(shí)代碼為“<li class="pageNumber">”,結(jié)束代碼為“title="下一頁">”。如果勾選“自動(dòng)識(shí)別分頁”的話,會(huì)自動(dòng)提取a標(biāo)簽的href屬性,如果不勾選自動(dòng)識(shí)別的話,需要填寫組合生成列表頁分頁”規(guī)則。
    然后保存返回,可以通過“測(cè)試網(wǎng)址采集”來測(cè)試規(guī)則是否正確,不正確可以返回修改規(guī)則,正確的話可以開始編寫“第二步采集內(nèi)容規(guī)則”。
    編寫“第二步采集內(nèi)容規(guī)則”
    先打開內(nèi)容頁以及內(nèi)容頁的源碼,找到需要提取的信息的前后代碼特征。以提取標(biāo)題和內(nèi)容為例。首先復(fù)制文章標(biāo)題,然后在源碼中查看該標(biāo)題出現(xiàn)的幾處地方,找一處前后代碼在每一篇文章都一樣的地方,該例共出現(xiàn)了3處,第二處的代碼沒有其他干擾代碼。點(diǎn)擊“添加”,標(biāo)簽名填“標(biāo)題”,提取數(shù)據(jù)方式選擇前后截取,前后代碼分別為“<h1 class="ContentTitle"><strong>”和“</strong></h1>”。如果采集的內(nèi)容需要作進(jìn)一步處理(如替換刪除編碼轉(zhuǎn)換過濾html等),在下方“數(shù)據(jù)處理”點(diǎn)擊添加填寫相應(yīng)規(guī)則。
    再添加一個(gè)標(biāo)簽,標(biāo)簽名為“內(nèi)容”,按照上述方法填寫內(nèi)容的前后代碼片段,需要注意的是,前后代碼片段最好不要出現(xiàn)不完整的標(biāo)簽(如:“<div class="Content-body"” 應(yīng)該寫作“<div class="Content-body">”,一個(gè)完整的標(biāo)簽應(yīng)該是以“<”開始,以“>”結(jié)束,如果<>之間的內(nèi)容在各個(gè)內(nèi)容頁有一部分不一樣,將不一樣的部分用(*)代替即可),否則提取的內(nèi)容會(huì)包含部分不完整的標(biāo)簽。通常正文包含的HTML會(huì)比較多,可以添加HTML過濾功能,建議僅保留段落(p)、圖片(img)、換行(br)等標(biāo)簽。
    測(cè)試內(nèi)容采集規(guī)則
    保存規(guī)則后返回采集內(nèi)容規(guī)則頁面,在右側(cè)“規(guī)則測(cè)試”的典型頁面文本框填上一個(gè)內(nèi)容頁的地址,然后點(diǎn)擊測(cè)試,如果下面顯示到的內(nèi)容符合預(yù)期說明可以了,如果未獲取到內(nèi)容或者獲取到內(nèi)容不正確,返回檢查并修改規(guī)則。
    開始采集
    選擇要采集的任務(wù)規(guī)則,勾選“采網(wǎng)址”和“采內(nèi)容”復(fù)選框,點(diǎn)擊工具欄“開始”按鈕。
    后續(xù)工作
    采集到的數(shù)據(jù)保存在數(shù)據(jù)庫,可以通過在任務(wù)名上點(diǎn)右鍵,選擇“打開DATA下任務(wù)文件夾”打開數(shù)據(jù)庫所在位置,該數(shù)據(jù)庫可以通過ACCESS打開和編輯。如果想要重新采集,需要通過右鍵選擇“清空該任務(wù)網(wǎng)址庫”和“清空任務(wù)所有采集數(shù)據(jù)”。

    火車頭采集器怎么采集今日頭條文章?qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    第一步采集網(wǎng)址,下載好火車頭采集器后打開,新建一個(gè)任務(wù),任務(wù)名隨意。把需要采集的網(wǎng)站文章列表頁網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁有34頁,每頁有N篇文章。
    2
    列表頁會(huì)一級(jí)網(wǎng)址,添加多級(jí)網(wǎng)址獲取,從而獲取二級(jí)網(wǎng)址(文章頁網(wǎng)址)
    設(shè)置列表分頁獲取,3個(gè)地方分別是:分頁源代碼前面和后面還有中間位置。這一步用于獲取列表頁面鏈接,因?yàn)橛?4個(gè)列表頁面。設(shè)置完保存。
    網(wǎng)址獲取選項(xiàng),這一步用于獲取列表頁上面文章頁的鏈接,根據(jù)自己需要設(shè)置需要截取的部分和根據(jù)網(wǎng)址的結(jié)構(gòu)設(shè)置包含與不包含某些字符。為空即沒限制,設(shè)置完保存。
    設(shè)置好鏈接采集規(guī)則后,可以測(cè)試網(wǎng)址,看測(cè)試結(jié)果調(diào)整規(guī)則??磮D可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁再到列表頁上的文章頁鏈接都已經(jīng)成功采集。
    第二步是采集內(nèi)容,首先修改標(biāo)題規(guī)則,在頁面源代碼里面找到標(biāo)題的代碼,把標(biāo)題前后代碼負(fù)責(zé)過去截取出標(biāo)題。保存。
    修改內(nèi)容采集規(guī)則,跟標(biāo)題規(guī)則差不多,也是源代碼里面找到內(nèi)容的前后代碼。這里內(nèi)容會(huì)有一些其他html標(biāo)簽,所以得添加一個(gè)html標(biāo)簽排除的規(guī)則。
    完成后,測(cè)試看一下結(jié)果,從測(cè)試結(jié)果來調(diào)試規(guī)則,直到測(cè)試結(jié)果是自己想要的內(nèi)容為止。
    第三步是采集導(dǎo)出。前面1、2兩步把規(guī)則設(shè)置好,最后就要把文章導(dǎo)出了。先做一個(gè)導(dǎo)出的模版。
    然后選擇方式二,把每一篇文章都分別記錄到一個(gè)txt文本,保存位置自己選擇,模板選擇剛剛做好的導(dǎo)出模版.保存的文件名用文章標(biāo)題為命名。其他默認(rèn),保存。
    把采集網(wǎng)址,采集內(nèi)容,發(fā)布3個(gè)選項(xiàng)框都勾選,然后開始采集。完成后文本就自動(dòng)生成在剛剛保存的文件夾里面了。
    火車頭采集器采集文章教程到此就完成了,由于每個(gè)網(wǎng)站都是不一樣的,所以這里只能用一個(gè)網(wǎng)站演示,只是一個(gè)方法思路,自己采集文章還需要靈活變通。追問

    這樣復(fù)雜粘貼有意思嗎?qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    火車頭采集器怎么用?qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      軟件程序的獲?。?span style="display:none">qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      大家可以從百度中搜索“火車頭采集器”,并進(jìn)入對(duì)應(yīng)官方來獲取程序的最新版本下載地址。當(dāng)然也可以從小編所提供的網(wǎng)盤地址中獲取最新版本程序:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      2qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      安裝并運(yùn)行“火車頭采集器”程序,在彈出的登陸界面中直接點(diǎn)擊“登陸”按鈕就可以以免費(fèi)版身份登陸。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      3qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      在程序主界面中,點(diǎn)擊“新建”下拉箭頭,從中選擇“任務(wù)”項(xiàng)。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      4qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      在彈出的窗口中,輸入“任務(wù)名”,同時(shí)點(diǎn)擊“起始網(wǎng)址”欄目右側(cè)的“添加”按鈕。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      5qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      接下來就極為重要的一步,就是對(duì)要進(jìn)行采集的網(wǎng)站進(jìn)行分板,對(duì)所采取的網(wǎng)站中各片文章的URL進(jìn)行綜合分析并找出規(guī)律,最后按如圖進(jìn)行填寫。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      6qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      然后切換至“第二步:采集內(nèi)容規(guī)則”選項(xiàng)卡中,我們需要對(duì)網(wǎng)頁內(nèi)容進(jìn)行分板。在此以“搜狗瀏覽器”為例,右擊要進(jìn)行分析的網(wǎng)頁,從彈出的菜單中選擇“審查元素”項(xiàng)。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      7qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      在“開發(fā)式模式”界面中,點(diǎn)擊“選擇頁面中的一個(gè)元素去透視”按鈕,接著點(diǎn)擊“標(biāo)題”內(nèi)容,此時(shí)就可以在“開發(fā)者”窗口中顯示標(biāo)題所對(duì)應(yīng)的標(biāo)簽,此例為“h2"。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      8qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      接下來在”采集內(nèi)容規(guī)則“界面中,點(diǎn)擊“添加”按鈕來添加“標(biāo)題”項(xiàng),或者直接雙擊“標(biāo)題”項(xiàng)進(jìn)行修改。在彈出的界面中,勾選”前后截取“,將設(shè)置前后輟分別為"<h2>“、”</h2>".qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      9qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      利用同樣的方法添加其它采集內(nèi)容的規(guī)則。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      切換至“第三步:發(fā)布內(nèi)容設(shè)置”選項(xiàng)卡,勾選“啟用 方式二”,并進(jìn)行如圖設(shè)置。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      10qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      最后從任務(wù)列表中,勾選要采集的內(nèi)容,點(diǎn)擊“開始”按鈕就可以按規(guī)則采集網(wǎng)站中的網(wǎng)頁內(nèi)容啦。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

      請(qǐng)點(diǎn)擊輸入圖片描述qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    如果還有啥問題,請(qǐng)留言或者私信,如果回答的還算可以,請(qǐng)列為最佳答案qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    火車頭采集規(guī)則詳細(xì)教程(火車頭采集規(guī)則詳細(xì)教程視頻)qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    火車頭如何采集還有縮略圖的文章呢qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    1、首先在采集列表頁的源碼中將帶有縮略圖的那部分源碼復(fù)制下來,如圖:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    2、查看網(wǎng)站的源碼,找到這行代碼,如圖:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司


    qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    3、打開火車頭,進(jìn)入采集網(wǎng)址規(guī)則—添加多級(jí)網(wǎng)址采集規(guī)則,選中手動(dòng)填寫鏈接地址規(guī)則,并將第二步驟中選中的代碼粘貼進(jìn)去,如圖:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    4、將代碼進(jìn)行如下修改:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    5、改好后保存并進(jìn)行采集測(cè)試,如圖所示qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    6、然后再在采集內(nèi)容規(guī)則里進(jìn)行修改,選中“縮略圖”標(biāo)簽,打開,進(jìn)行內(nèi)容替換,如圖:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    7、然后點(diǎn)擊文件下載,選中下載圖片,并填好縮略圖保存路徑及命名方式,如圖:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    8、在“文件保存及部分高級(jí)設(shè)置”里設(shè)定縮略圖的保存盤符及其前綴,我設(shè)定為桌面,前綴為“./”,如圖:qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司


    9、我們保存后測(cè)試一下,一起順利,縮略圖順利采集下來了
    qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    追問

    是最近版本的嗎?qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司

    以上就是關(guān)于火車頭采集規(guī)則詳細(xì)教程相關(guān)問題的回答。希望能幫到你,如有更多相關(guān)問題,您也可以聯(lián)系我們的客服進(jìn)行咨詢,客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。qay創(chuàng)意嶺 - 安心托付、值得信賴的品牌設(shè)計(jì)、營銷策劃公司


    推薦閱讀:

    杭州到息縣火車時(shí)刻表(杭州到息縣火車時(shí)刻表查詢龍泉到杭州)

    杭州火車東站附近的mall(杭州火車東站附近的商場(chǎng)有哪些)

    火車頭文章采集(火車頭文章采集聚合插件)

    杭州第六空間有哪幾個(gè)地方(杭州第六空間什么時(shí)候開業(yè))

    自考景觀設(shè)計(jì)師(自考景觀設(shè)計(jì)師證書)