2.1.7采集帶有翻頁的數網站中的數據

核心產品

數據采集

自然語言處理

數據分析

大數據配套服務

數據治理

大數據引擎

ForeSpider數據采集引擎

ForeChart可視化圖表

大數據應用

AI輿情監測系統

預薦云數據系統

知析智能分析報告

消費品分析報告

行業分析報告

跨境電商分析報告

大數據底層技術

國產化ForeLib分析型數據庫

國產化ForeServer服務器軟件

國產化KSP大數據開發語言

ForeSpider軟件

ForeSpider數據采集引擎

ForeSpider下載

ForeSpider功能列表

ForeSpider產品優勢

采集服務

定制采集模板

定制數據采集方案

服務器集群采集

AI自動配置成批網站

采集某類特征的數據

采集策略場景化分析

軟件學習

圖文教程

視頻教程

腳本教程

采集模板下載

新聞媒體類

電商平臺類

企業信息類

智能分析

多語言全文檢索

用戶畫像分析

多語言分詞

評價內容解析

典型意見歸納

智能文本分類

特征提取

聯系方式提取

特征信息提取

實體詞提取

智能計算

智能推薦引擎

國產化ForeLib分析型數據庫

國產化ForeServer服務器軟件

國產化KSP大數據開發語言

數據可視化

ForeChart數據可視化引擎

企業關系圖譜

數據分析應用

AI輿情預警系統

知析智能分析報告

消費品分析報告

行業分析報告

跨境電商報告

定制智能分析報告

預薦云數據系統

行業競品分析

電商快消品分析

搜索引擎排名分析

系統集成服務

系統定制開發

營銷方案定制

代碼工具

時間戳轉換工具

進制轉換工具轉碼工具

px轉換vw

顏色轉換

Json格式化工具

Base64轉碼

編碼轉換

郵箱加密

Excel/csv數據轉json格式工具

壓縮和格式化工具

推算日期及計算日期差

密碼生成器

個人所得稅計算

去除重復項

字數統計工具

html轉換成其它語言

面積單位換算

摩斯密碼翻譯器

vw和px之間的批量轉換

正則表達式在線代碼生成工具

智能數據中臺

元數據管理

數據標準管理

主數據管理

數據質量管理

數據資產管理

數據安全管理

數據生命周期管理

行業解決方案

通用解決方案

數據解決方案

金融方案

風控反欺詐

股票量化交易

銀行智控系統

制造業&物流

企業數字化

企業數據治理

醫療方案

政務方案

警務智能決策

政務數據安全

實時監測

輿情監測系統

產品/競品監測系統

股票監測系統

政策監測系統

招投標監測系統

智能分析

行業全息分析

地理信息分析

數據智能挖掘

主題自動分類

挖掘特征信息

全網自動采集

海量網站自動配置

全網挖掘特定信息

場景智慧采集

商品與評論全覽

縱觀金融財經動態

企業工商全方位掌握

精準獲取客戶信息

實時掌控輿情信息

競品情報實時獲取

搜索引擎全網采集

主題識別采集

識別標題語義采集

識別正文主題采集

(不)含特定關鍵詞采集

微信登錄
賬號登錄
手機號登錄

掃碼立即登錄

忘記密碼？沒有賬號立即注冊

忘記密碼？沒有賬號立即注冊

大數據產品

消費品分析報告

行業分析報告

跨境電商報告

聊天機器人

聯系我們

咨詢電話(周一至周五9：00-18：00)

022-2345 2937

185 2247 0110

business@forenose.com

QQ：2779623375

用戶QQ群3：606835039

用戶QQ群4：795287153

訂閱號

服務號

客服微信:qianxiu0106

ForeSpider

數據采集引擎

教程列表

目錄

2.1.7采集帶有翻頁的數網站中的數據

視頻教程：模板下載：

【場景描述】采集帶有翻頁的網頁中的數據。

【使用工具】前嗅ForeSpider數據采集系統，免費下載:

ForeSpider免費版本下載地址

【教程說明】

采集帶有翻頁的網站，需要先獲取所有的翻頁鏈接，常見的翻頁鏈接有三種：數字翻頁、點擊加載更多/下一頁、瀑布流翻頁。接下來將為大家介紹不同翻頁的配置方法。

1. 數字翻頁

下圖所示為一個典型的數字翻頁：

開始配置前，先新建一個任務模板：

抽取翻頁鏈接方法有三種：

①智能過濾法：

打開前幾個翻頁鏈接，觀察鏈接規律，

第二頁：https://book.kongfz.com/Cxianzhuang/cat_8002w2/

第三頁：https://book.kongfz.com/Cxianzhuang/cat_8002w3/

第四頁：https://book.kongfz.com/Cxianzhuang/cat_8002w4/

打開智能過濾界面：

根據規律輸入過濾規則：https://book.kongfz.com/Cxianzhuang/cat_\dw\d/

（其中\d表示數字串）

配置后，點擊采集預覽，發現翻頁鏈接已經都采集到了。

②定位取值法

按住ctrl+鼠標單擊任意一個翻頁，然后按住shift+鼠標單擊任意一個未選中翻頁擴大選區，直至選中所有翻頁，然后確認選區后保存。

采集預覽，發現所有翻頁都被抽取出來了。

③地址/標題過濾

類似智能過濾，先觀察翻頁鏈接規律（步驟可參考方法一），找到規律后，使用地址過濾的方法進行過濾保存，如下圖所示，標題過濾跟地址過濾類似，是對標題內容進行過濾。

點擊查看完整教程：采集孔夫子舊書網

2. 點擊加載更多/下一頁

示例地址：http://mbook.kongfz.com/Ckexue/

下圖所示為一個典型的下一頁：

①智能過濾

觀察下一頁鏈接規律，如下所示：

下一頁1：http://mbook.kongfz.com/Ckexue/w2/

下一頁2：http://mbook.kongfz.com/Ckexue/w3/

下一頁3：http://mbook.kongfz.com/Ckexue/w4/

進行智能過濾，步驟參考數字翻頁智能過濾。

②定位過濾

步驟參考數字翻頁定位過濾。

③地址/標題過濾

一般用標題過濾多一些，如下圖所示：

3. 瀑布流翻頁

示例地址：https://new.qq.com/d/bj/

瀑布流翻頁是用鼠標往下翻，一直能出來新的數據的翻頁。比如騰訊新聞，如下圖所示：

此類翻頁的翻頁鏈接在頁面請求中，需要先找到請求鏈接，然后用腳本拼出鏈接。具體操作步驟如下所示：

在瀏覽器中打開頁面后，點擊F12，清空所有請求后，刷新頁面。

鼠標往下瀏覽新聞，會發現出現很多新聞，右側也出現很多請求。觀察請求，找出翻頁請求鏈接。

將多個請求鏈接復制出來，觀察鏈接規律：

https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=20&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=40&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=60&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

觀察發現請求鏈接中只有一個參數不同，分別為20、40、60，該參數規律為：翻頁數*20，根據這一規律，使用腳本拼寫翻頁鏈接。

選中鏈接抽取后，打開腳本窗口：

寫一個for循環來拼取翻頁鏈接：

腳本如下：

for(var i=0;i<20;i++)//寫一個for循環來拼取翻頁鏈接{var j=i*20;//定義變量j為翻頁數*20url u;//定義一個url u.urlname = "https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset="+j+"&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}";//根據翻頁鏈接規律拼鏈接 u.title =i;//返回url名稱 u.tmplid = 2;//關聯模板2 u.entryid = CHANN.id; RESULT.AddLink(u);//結束，固定搭配}

腳本寫完以后，點擊保存，然后點擊采集預覽，即可看到拼好的鏈接。

點擊查看完整教程：采集騰訊新聞數據

本教程僅供教學使用，嚴禁用于商業用途！

l 前嗅簡介

前嗅大數據，國內領先的研發型大數據專家，多年來致力于為大數據技術的研究與開發，自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺！

女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡