正文

火車頭插件怎么采集（火車頭插件怎么采集的）

發(fā)布時(shí)間：2023-05-24 23:13:37 稿源：創(chuàng)意嶺閱讀： 54

大家好！今天讓創(chuàng)意嶺的小編來大家介紹下關(guān)于火車頭插件怎么采集的問題，以下是小編對(duì)此問題的歸納整理，讓我們一起來看看吧。

開始之前先推薦一個(gè)非常厲害的Ai人工智能工具，一鍵生成原創(chuàng)文章、方案、文案、工作計(jì)劃、工作報(bào)告、論文、代碼、作文、做題和對(duì)話答疑等等

只需要輸入關(guān)鍵詞，就能返回你想要的內(nèi)容，有小程序、在線網(wǎng)頁版、PC客戶端和批量生成器

官網(wǎng)：https://ai.de1919.com。

本文目錄:

火車頭采集器怎么采集采集信息的網(wǎng)址
火車頭如何采集還有縮略圖的文章呢
火車頭采集器怎么采集今日頭條文章？

火車頭插件怎么采集（火車頭插件怎么采集的）

火車頭采集器怎么采集采集信息的網(wǎng)址

火車頭采集器采集內(nèi)容之前是先采集網(wǎng)址的，所以你說的這個(gè)網(wǎng)址其實(shí)早就知道了，而采集內(nèi)容的時(shí)候是不會(huì)采集到得，因?yàn)橐话闱闆r下一個(gè)網(wǎng)頁的源代碼里不會(huì)有這個(gè)網(wǎng)頁的網(wǎng)址。
比如A是一個(gè)網(wǎng)頁的網(wǎng)址，用火車頭采集器的時(shí)候首先讀取的就是這個(gè)網(wǎng)頁地址A，然后再根據(jù)這個(gè)地址來請(qǐng)求數(shù)據(jù)，根據(jù)你的采集規(guī)則來采集內(nèi)容，而這個(gè)網(wǎng)頁的內(nèi)容里沒有這個(gè)網(wǎng)址A，那么你肯定是采集不到的。那么這個(gè)網(wǎng)址A在哪里呢？在生成的文件里。
比如你保存到本地之后生成一個(gè)CSV的文件，打開之后再最后一列（URL）就是采集的內(nèi)容對(duì)應(yīng)的這個(gè)網(wǎng)址。追問

那怎么將采集內(nèi)容相關(guān)的網(wǎng)址保存到數(shù)據(jù)庫(kù)呢

追答

沒看懂我的意思嗎？采集的內(nèi)容對(duì)應(yīng)的網(wǎng)址已經(jīng)采集到你的數(shù)據(jù)庫(kù)里了，你保存成.csv文件后，打開，最后一列就是網(wǎng)址。你可以選擇將你采集到的內(nèi)容那一列和url網(wǎng)址那一列合并，就跟excel里合并單元格一個(gè)意思。

火車頭如何采集還有縮略圖的文章呢

1、首先在采集列表頁的源碼中將帶有縮略圖的那部分源碼復(fù)制下來，如圖：

2、查看網(wǎng)站的源碼，找到這行代碼，如圖：

3、打開火車頭，進(jìn)入采集網(wǎng)址規(guī)則—添加多級(jí)網(wǎng)址采集規(guī)則，選中手動(dòng)填寫鏈接地址規(guī)則，并將第二步驟中選中的代碼粘貼進(jìn)去，如圖：

4、將代碼進(jìn)行如下修改：

5、改好后保存并進(jìn)行采集測(cè)試，如圖所示

6、然后再在采集內(nèi)容規(guī)則里進(jìn)行修改，選中“縮略圖”標(biāo)簽，打開，進(jìn)行內(nèi)容替換，如圖：

7、然后點(diǎn)擊文件下載，選中下載圖片，并填好縮略圖保存路徑及命名方式，如圖：

8、在“文件保存及部分高級(jí)設(shè)置”里設(shè)定縮略圖的保存盤符及其前綴，我設(shè)定為桌面，前綴為“./”，如圖：

9、我們保存后測(cè)試一下，一起順利，縮略圖順利采集下來了

追問

是最近版本的嗎？

火車頭插件怎么采集（火車頭插件怎么采集的）

火車頭采集器怎么采集今日頭條文章？

第一步采集網(wǎng)址，下載好火車頭采集器后打開，新建一個(gè)任務(wù)，任務(wù)名隨意。把需要采集的網(wǎng)站文章列表頁網(wǎng)址添加到起始網(wǎng)址。從圖中看出該列表頁有34頁，每頁有N篇文章。
2
列表頁會(huì)一級(jí)網(wǎng)址，添加多級(jí)網(wǎng)址獲取，從而獲取二級(jí)網(wǎng)址（文章頁網(wǎng)址）
設(shè)置列表分頁獲取，3個(gè)地方分別是：分頁源代碼前面和后面還有中間位置。這一步用于獲取列表頁面鏈接，因?yàn)橛?4個(gè)列表頁面。設(shè)置完保存。
網(wǎng)址獲取選項(xiàng)，這一步用于獲取列表頁上面文章頁的鏈接，根據(jù)自己需要設(shè)置需要截取的部分和根據(jù)網(wǎng)址的結(jié)構(gòu)設(shè)置包含與不包含某些字符。為空即沒限制，設(shè)置完保存。
設(shè)置好鏈接采集規(guī)則后，可以測(cè)試網(wǎng)址，看測(cè)試結(jié)果調(diào)整規(guī)則?？磮D可以看到采集鏈接規(guī)則從起始鏈接到全面列表頁再到列表頁上的文章頁鏈接都已經(jīng)成功采集。
第二步是采集內(nèi)容，首先修改標(biāo)題規(guī)則，在頁面源代碼里面找到標(biāo)題的代碼，把標(biāo)題前后代碼負(fù)責(zé)過去截取出標(biāo)題。保存。
修改內(nèi)容采集規(guī)則，跟標(biāo)題規(guī)則差不多，也是源代碼里面找到內(nèi)容的前后代碼。這里內(nèi)容會(huì)有一些其他html標(biāo)簽，所以得添加一個(gè)html標(biāo)簽排除的規(guī)則。
完成后，測(cè)試看一下結(jié)果，從測(cè)試結(jié)果來調(diào)試規(guī)則，直到測(cè)試結(jié)果是自己想要的內(nèi)容為止。
第三步是采集導(dǎo)出。前面1、2兩步把規(guī)則設(shè)置好，最后就要把文章導(dǎo)出了。先做一個(gè)導(dǎo)出的模版。
然后選擇方式二,把每一篇文章都分別記錄到一個(gè)txt文本,保存位置自己選擇,模板選擇剛剛做好的導(dǎo)出模版.保存的文件名用文章標(biāo)題為命名。其他默認(rèn)，保存。
把采集網(wǎng)址，采集內(nèi)容，發(fā)布3個(gè)選項(xiàng)框都勾選，然后開始采集。完成后文本就自動(dòng)生成在剛剛保存的文件夾里面了。
火車頭采集器采集文章教程到此就完成了，由于每個(gè)網(wǎng)站都是不一樣的，所以這里只能用一個(gè)網(wǎng)站演示，只是一個(gè)方法思路，自己采集文章還需要靈活變通。追問

這樣復(fù)雜粘貼有意思嗎？

以上就是關(guān)于火車頭插件怎么采集相關(guān)問題的回答。希望能幫到你，如有更多相關(guān)問題，您也可以聯(lián)系我們的客服進(jìn)行咨詢，客服也會(huì)為您講解更多精彩的知識(shí)和內(nèi)容。