目錄
    2.1.7采集帶有翻頁的數網站中的數據
    視頻教程:模板下載:
    【場景描述】采集帶有翻頁的網頁中的數據。

    【使用工具】前嗅ForeSpider數據采集系統,免費下載:

    ForeSpider免費版本下載地址


    【教程說明】

    采集帶有翻頁的網站,需要先獲取所有的翻頁鏈接,常見的翻頁鏈接有三種:數字翻頁、點擊加載更多/下一頁、瀑布流翻頁。接下來將為大家介紹不同翻頁的配置方法。


    1. 數字翻頁

    下圖所示為一個典型的數字翻頁:

     


    開始配置前,先新建一個任務模板:


    抽取翻頁鏈接方法有三種:



    ①智能過濾法:

    打開前幾個翻頁鏈接,觀察鏈接規律,

    第二頁:https://book.kongfz.com/Cxianzhuang/cat_8002w2/

    第三頁:https://book.kongfz.com/Cxianzhuang/cat_8002w3/

    第四頁:https://book.kongfz.com/Cxianzhuang/cat_8002w4/

    打開智能過濾界面:



    根據規律輸入過濾規則:https://book.kongfz.com/Cxianzhuang/cat_\dw\d/

    (其中\d表示數字串)

     


    配置后,點擊采集預覽,發現翻頁鏈接已經都采集到了。

     

    ②定位取值法

    按住ctrl+鼠標單擊任意一個翻頁,然后按住shift+鼠標單擊任意一個未選中翻頁擴大選區,直至選中所有翻頁,然后確認選區后保存。

     


    采集預覽,發現所有翻頁都被抽取出來了。


     



    ③地址/標題過濾

    類似智能過濾,先觀察翻頁鏈接規律(步驟可參考方法一),找到規律后,使用地址過濾的方法進行過濾保存,如下圖所示,標題過濾跟地址過濾類似,是對標題內容進行過濾。

     


    點擊查看完整教程:采集孔夫子舊書網

     

    2. 點擊加載更多/下一頁

    示例地址:http://mbook.kongfz.com/Ckexue/

    下圖所示為一個典型的下一頁:

     

     

    ①智能過濾

    觀察下一頁鏈接規律,如下所示:

    下一頁1:http://mbook.kongfz.com/Ckexue/w2/

    下一頁2:http://mbook.kongfz.com/Ckexue/w3/

    下一頁3:http://mbook.kongfz.com/Ckexue/w4/

    進行智能過濾,步驟參考數字翻頁智能過濾。

    ②定位過濾

    步驟參考數字翻頁定位過濾。

    ③地址/標題過濾

    一般用標題過濾多一些,如下圖所示:

     


    3. 瀑布流翻頁

    示例地址:https://new.qq.com/d/bj/

    瀑布流翻頁是用鼠標往下翻,一直能出來新的數據的翻頁。比如騰訊新聞,如下圖所示:

     


    此類翻頁的翻頁鏈接在頁面請求中,需要先找到請求鏈接,然后用腳本拼出鏈接。具體操作步驟如下所示:

    在瀏覽器中打開頁面后,點擊F12,清空所有請求后,刷新頁面。

     


    鼠標往下瀏覽新聞,會發現出現很多新聞,右側也出現很多請求。觀察請求,找出翻頁請求鏈接。

     




    將多個請求鏈接復制出來,觀察鏈接規律:

    https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=20&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

    https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=40&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

    https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=60&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}

    觀察發現請求鏈接中只有一個參數不同,分別為20、40、60,該參數規律為:翻頁數*20,根據這一規律,使用腳本拼寫翻頁鏈接。

    選中鏈接抽取后,打開腳本窗口:

     




    寫一個for循環來拼取翻頁鏈接:

     


    腳本如下:

    for(var i=0;i<20;i++)//寫一個for循環來拼取翻頁鏈接{var j=i*20;//定義變量j為翻頁數*20url u;//定義一個url u.urlname = "https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset="+j+"&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}";//根據翻頁鏈接規律拼鏈接 u.title =i;//返回url名稱 u.tmplid = 2;//關聯模板2 u.entryid = CHANN.id; RESULT.AddLink(u);//結束,固定搭配}


    腳本寫完以后,點擊保存,然后點擊采集預覽,即可看到拼好的鏈接。



    點擊查看完整教程:采集騰訊新聞數據

     

    本教程僅供教學使用,嚴禁用于商業用途!


    l 前嗅簡介

    前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!



    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡