【源網站介紹】汽車之家提供最新汽車報價,汽車圖片,汽車價格大全,最精彩的汽車新聞、行情、評測、導購內容,是提供信息最快最全的中國汽車網站。
【使用工具】前嗅ForeSpider數據采集系統,免費下載:
【入口網址】https://club.autohome.com.cn/JingXuan/0/1
【采集內容】
采集汽車之家論壇中帖子的標題、發布時間、發布內容、瀏覽量、評論量等基本信息。
【采集效果】如下圖所示:
l思路分析
配置思路概覽:
l配置步驟
1. 新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
2.獲取翻頁鏈接
采用鏈接過濾的方法來抽取翻頁鏈接,具體如下所示:
①先觀察翻頁鏈接規律,找到規律,很明顯翻頁鏈接中都包含:https://club.autohome.com.cn/JingXuan/0/
②設置地址過濾,過濾包含“https://club.autohome.com.cn/JingXuan/0/”的鏈接,這樣就把翻頁鏈接過濾出來了。
③關聯模板,將翻頁鏈接抽取,關聯模板01。
3.抽取列表鏈接
①新建一個鏈接抽取,改名為【列表鏈接】,將翻頁鏈接抽取改名為【翻頁鏈接】。
②使用鏈接過濾的方法來獲取列表鏈接,先采集預覽,打開列表鏈接預覽結果,找到帖子鏈接并觀察規律,發現其中都包括:“https://club.autohome.com.cn/bbs/thread/”
③設置地址過濾,過濾包含“https://club.autohome.com.cn/bbs/thread/”的鏈接,這樣就把翻頁鏈接過濾出來了。
4.抽取數據
①新建一個抽取模板,在其下新建一個數據抽取,具體操作如下所示:
②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)
③將新建好的數據表,關聯到模板中去,如下圖所示:
④填寫示例數據,采集預覽,復制任意一條新聞鏈接。
⑤將鏈接粘貼到本模板示例地址中,并雙擊內置瀏覽器空白部分,加載本鏈接。
⑥關聯模板
⑦數據取值
使用定位取值的方法,title字段如下所示:
Pub_time字段如下所示:
其他字段也按照同樣的方法進行定位取值。
⑧采集預覽
能采集預覽到數據,說明配置成功,可以開始數據采集。
l 采集步驟
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
1.建立數據表單
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【qczj】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。
2.開始采集
選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
3.導出數據
采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。
導出的文件打開如下圖所示:
本教程僅供教學使用,嚴禁用于商業用途!
l 前嗅簡介
前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!