采集網站
【場景描述】采集網易新聞數據。
【源網站介紹】網易是中國領先的互聯網技術公司,為用戶提供免費郵箱、游戲、搜索引擎服務,開設新聞、娛樂、體育等30多個內容頻道,及博客、視頻、論壇等互動交流,網聚人的力量。
【使用工具】前嗅ForeSpider數據采集系統,免費下載:
http://www.bendalayoga.com/view/forespider/view/download.html
采集網站
【入口網址】https://www.163.com/
【采集內容】
采集網易新聞網中新聞的標題、發布時間、來源、正文。
【采集效果】如下圖所示:
思路分析
配置思路概覽:
配置步驟
1. 新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
2.抽取新聞鏈接
①點擊采集預覽,觀察新聞鏈接的規律,發現新聞鏈接中都包含【article】。
②在地址過濾處,設置為包含【article】,保存后,重新測試,發現所有新聞鏈接被過濾出來了。
3.新建數據抽取
①新建模板02,在其下新建一個數據抽取。
②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)
③將新建好的數據表,關聯到模板中去,如下圖所示:
④填寫示例數據,采集預覽,復制任意一條新聞鏈接。
⑤將鏈接粘貼到本模板示例地址中,并雙擊內置瀏覽器空白部分,加載本鏈接。
⑥關聯模板
將模板01抽取到的新聞鏈接,關聯模板02。
⑦數據取值
title字段如下所示:
Pubtime字段如下所示:
Author字段取值:
News字段同上。
⑧采集預覽
采集預覽,能預覽出所要采集的新聞字段,則表示配置成功。
采集步驟
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
①建立數據表單:
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【wangyi】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。
②開始采集
選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
③導出數據
采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。
④導出的文件打開如下圖所示:
*本教程僅供教學使用,嚴禁用于商業用途!