目錄
    采集金融界論壇數據
    視頻教程:模板下載:

    采集網站

    【場景描述】采集金融界論壇數據。

    【源網站介紹】金融界社區外匯論壇提供全面及時的外匯資訊及信息交流,時刻準確把握本外幣信息及央行動態。

    【使用工具】前嗅ForeSpider數據采集系統,免費下載:

    http://www.bendalayoga.com/view/forespider/view/download.html


    采集網站

    【入口網址】http://bbs.jrj.com.cn/905

    【采集內容】

    采集金融界論壇中的帖子信息。

    【采集效果】如下圖所示:

    思路分析

    配置思路概覽:

    配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

    2.獲取翻頁鏈接

    ①選擇鏈接抽取,采集預覽,找到翻頁鏈接,觀察翻頁鏈接中都包含【

    http://bbs.jrj.com.cn/forex,】,使用地址抽取的方法,抽取地址中包含該規律的鏈接。如下圖所示:

    ②關聯模板,將翻頁鏈接抽取,關聯模板01。

    3. 抽取帖子鏈接

    ①在模板1下新建一個數據抽取,具體操作如下所示:

    ②采集預覽,觀察帖子鏈接的規律,發現帖子鏈接中都包含【http://bbs.jrj.com.cn/msg】,使用地址抽取的方法,抽取地址中包含該規律的鏈接。如下圖所示:

    4. 抽取帖子數據

    ①新建模板02,在模板02下新建一個數據抽取,具體操作如下所示:

    將模板01下的帖子鏈接抽取,關聯模板02.

    ②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)

    ③將新建好的數據表,關聯到模板中去,如下圖所示:

    ④填寫示例地址

    采集預覽,復制任意一條帖子鏈接,并填寫在模板02的示例地址處:

    ⑤使用定位取值的方法抽取數據:

    Title字段:

    author字段:

    Pubtime字段:

    Num字段:

    Text字段:

    ⑥采集預覽


    采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①建立數據表單:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【jinrong】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。

    ②開始采集

    選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

    ③導出數據

    ④導出的文件打開如下圖所示:

    *本教程僅供教學使用,嚴禁用于商業用途!

    前嗅簡介

    前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡