日韩在线观看视频一区二区三区,亚洲精品成人区在线观看,欧美色图一区二区

最近在抓取一些比較有價值的網站資源，用于訓練AI寫作系統，保證AI能在我采集的龐大數據庫中學會利用一個命題就可以創作高質量原創文章。對！我說的是原創文章，不是偽原創。至于這個AI寫作的系統將會在我成功后與大家展開更為細致的分享，今天我們的主題是，如何通過火車頭采集器批量采集網站文章。

一、準備

軟件：火車頭采集器/高鐵采集器

使用環境：PC端

二、采集

1.獲取列表頁數據

進入待采集網站，打開需要采集的欄目或者待采集的關鍵詞搜索列表。

火車頭/高鐵采集器怎么使用，新手保姆級教程

確定這個欄目的文章頁數，翻到底部發現總頁數為15，確定采集頁數為15。

火車頭/高鐵采集器怎么使用，新手保姆級教程

跳轉到下一頁，確定網頁的起始網址格式，變量基本是.html前面的序號，所以我們先直接復制下來。

進入高鐵采集器，點擊+按鈕跳出任務設置頁面。

火車頭/高鐵采集器怎么使用，新手保姆級教程

點擊網頁采集規則頁面的起始網頁右邊的第一個按鈕進入向導，填入復制下來的頁面地址，并將頁面的變量替換成右邊的地址參數，直接刪掉原頁碼然后點擊按鈕插入就可以。

火車頭/高鐵采集器怎么使用，新手保姆級教程

最終會自動生成一個采集列表文章的鏈接，但這只是采集頁面數據，并沒有將需要的內容精確地采集到。

火車頭/高鐵采集器怎么使用，新手保姆級教程

因為需要讓機器知道我們要采集哪些數據，所以我們要在網頁代碼中找到開頭和結尾的標志，以便機器采集。

右擊網頁空白處查看網頁源代碼

火車頭/高鐵采集器怎么使用，新手保姆級教程

由于源碼大多是一行顯示，所以我們需要勾選源碼頂部的“換行”復選框。

火車頭/高鐵采集器怎么使用，新手保姆級教程

Ctrl+F?搜索源代碼中包含列表頁的第一條數據的標題，并尋找與該標題臨近的一個唯一標簽。

火車頭/高鐵采集器怎么使用，新手保姆級教程

<h1><span>產品運營</span></h1>?</div>?<div?class="sec-panel-body">

在這段代碼中，我選擇了 “<divclass=”sec-panel-body”>” 作為識別開頭的代碼。

同樣的方式，我搜尋列表頁的最后一條數據的標題，找到了識別結尾的代碼。

是否是唯一且能識別到的代碼，我們也可以通過?Ctrl+F?去查找，只要搜索數據是唯一的就是了。

火車頭/高鐵采集器怎么使用，新手保姆級教程

填入寫好的起始和結束代碼后，點擊右下角的網頁測試按鈕測試采集數據是否正常。

火車頭/高鐵采集器怎么使用，新手保姆級教程

讓機器采集一部分列表頁數據就可以停止了，然后看到采集的數據是比較多的，有些數據不是我們需要的數據頁，所以我們需要將其排除。

查閱到內容頁的地址為/n/(*).html，所以我們可以用網頁格式去鎖定采集地址。

火車頭/高鐵采集器怎么使用，新手保姆級教程

在鏈接過濾處選擇鏈接包含并填入剛才的格式

火車頭/高鐵采集器怎么使用，新手保姆級教程

接下來發現內容頁地址采集正常

火車頭/高鐵采集器怎么使用，新手保姆級教程

2.獲取內容頁數據

接下來我們就需要寫內容頁的采集規則，這里比較復雜，需要認真看。在最近的測試中，發現對于新手來說也并不是難事，因為邏輯一樣的，多去調試就行了。

進入內容采集規則頁面，內置有標題和內容，這里我多加兩條數據“作者”和“日期”，以便大家更深理解。

火車頭/高鐵采集器怎么使用，新手保姆級教程

我們在采集過程中可能需要更多的數據，基本上都可以按照我說的操作采集出來。

同樣，在文章頁面右擊調出源代碼，我按標題、作者、時間、內容的順序教大家寫采集規則。

首先，我們查找到文章標題的位置，確定位置在<h1>標簽內，起始大部分的頁面都是<h>標簽，只是里面的樣式不同而已。

火車頭/高鐵采集器怎么使用，新手保姆級教程

<h1?class="entry-title">標題</h1>

接著直接看后面的代碼，通過一些標志，看到作者和時間，這時候就確定了時間和地址。

火車頭/高鐵采集器怎么使用，新手保姆級教程

<a?class="nickname?url?fn?j-user-card">作者</a>?</span>?<span?class="dot">?</span>?<time?class="entry-date?published"?datetime="2022-10-31T08:17:06+08:00"?pubdate>?2022年10月31日?08:17:06?</time>

然后再看接下來的內容，去找找內容的代碼。

通過文章內容找到旁邊的div標簽是唯一識別的標簽（經驗之談，一般在class中包含content），咱們就可以確定內容的開始標簽。

火車頭/高鐵采集器怎么使用，新手保姆級教程