目錄
    采集汽車之家論壇數據
    視頻教程:模板下載:
    l 采集網站


    【場景描述】采集汽車之家論壇數據。


    【源網站介紹】汽車之家提供最新汽車報價,汽車圖片,汽車價格大全,最精彩的汽車新聞、行情、評測、導購內容,是提供信息最快最全的中國汽車網站。

    【使用工具】前嗅ForeSpider數據采集系統,免費下載:

    ForeSpider免費版本下載地址

    【入口網址】https://club.autohome.com.cn/JingXuan/0/1

    【采集內容】

    采集汽車之家論壇中帖子的標題、發布時間、發布內容、瀏覽量、評論量等基本信息。

     

     

    【采集效果】如下圖所示:

     


    l思路分析

    配置思路概覽:

     

     

    l配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

     

    2.獲取翻頁鏈接

    采用鏈接過濾的方法來抽取翻頁鏈接,具體如下所示:

    ①先觀察翻頁鏈接規律,找到規律,很明顯翻頁鏈接中都包含:https://club.autohome.com.cn/JingXuan/0/

     


    ②設置地址過濾,過濾包含“https://club.autohome.com.cn/JingXuan/0/”的鏈接,這樣就把翻頁鏈接過濾出來了。

     


    ③關聯模板,將翻頁鏈接抽取,關聯模板01。

     

     

    3.抽取列表鏈接

    ①新建一個鏈接抽取,改名為【列表鏈接】,將翻頁鏈接抽取改名為【翻頁鏈接】。

     


    ②使用鏈接過濾的方法來獲取列表鏈接,先采集預覽,打開列表鏈接預覽結果,找到帖子鏈接并觀察規律,發現其中都包括:“https://club.autohome.com.cn/bbs/thread/”

     

     

    ③設置地址過濾,過濾包含“https://club.autohome.com.cn/bbs/thread/”的鏈接,這樣就把翻頁鏈接過濾出來了。

     

     

    4.抽取數據

    ①新建一個抽取模板,在其下新建一個數據抽取,具體操作如下所示:

     

     

    ②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)

     

     

    ③將新建好的數據表,關聯到模板中去,如下圖所示:

     

     

    ④填寫示例數據,采集預覽,復制任意一條新聞鏈接。

     


    ⑤將鏈接粘貼到本模板示例地址中,并雙擊內置瀏覽器空白部分,加載本鏈接。

     


    ⑥關聯模板

     


    ⑦數據取值

    使用定位取值的方法,title字段如下所示:

     

     

    Pub_time字段如下所示:

     


    其他字段也按照同樣的方法進行定位取值。


    ⑧采集預覽

     能采集預覽到數據,說明配置成功,可以開始數據采集。


     

    采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    1.建立數據表單

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【qczj】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。

     

     

    2.開始采集

    選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     

     

    3.導出數據

    采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

     

     

    導出的文件打開如下圖所示:

     


    本教程僅供教學使用,嚴禁用于商業用途!


    l 前嗅簡介

    前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!



    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡