目錄

    采集網站

    【場景描述】采集網易新聞數據。

    【源網站介紹】網易是中國領先的互聯網技術公司,為用戶提供免費郵箱、游戲、搜索引擎服務,開設新聞、娛樂、體育等30多個內容頻道,及博客、視頻、論壇等互動交流,網聚人的力量。

    【使用工具】前嗅ForeSpider數據采集系統,免費下載:

    http://www.bendalayoga.com/view/forespider/view/download.html


    采集網站

    【入口網址】https://www.163.com/

    【采集內容】

    采集網易新聞網中新聞的標題、發布時間、來源、正文。


    【采集效果】如下圖所示:


    思路分析

    配置思路概覽:


    配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。


    2.抽取新聞鏈接

    ①點擊采集預覽,觀察新聞鏈接的規律,發現新聞鏈接中都包含【article】。


    ②在地址過濾處,設置為包含【article】,保存后,重新測試,發現所有新聞鏈接被過濾出來了。


    3.新建數據抽取

    ①新建模板02,在其下新建一個數據抽取。


    ②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)


    ③將新建好的數據表,關聯到模板中去,如下圖所示:


    ④填寫示例數據,采集預覽,復制任意一條新聞鏈接。


    ⑤將鏈接粘貼到本模板示例地址中,并雙擊內置瀏覽器空白部分,加載本鏈接。


    ⑥關聯模板

    將模板01抽取到的新聞鏈接,關聯模板02。


    ⑦數據取值

    title字段如下所示:


    Pubtime字段如下所示:


    Author字段取值:


    News字段同上。

    ⑧采集預覽

    采集預覽,能預覽出所要采集的新聞字段,則表示配置成功。


    采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①建立數據表單:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【wangyi】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。


    ②開始采集

    選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。


    ③導出數據

    采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。



    ④導出的文件打開如下圖所示:


    *本教程僅供教學使用,嚴禁用于商業用途!


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡