目錄
    采集中國政府采購網招標公告
    視頻教程:模板下載:

    采集網站

    【場景描述】采集中國政府采購網上中央公告模塊所有數據。

    【源網站介紹】

    中國政府采購網財政部唯一指定政府采購信息網絡發布媒體,國家級政府采購專業網站。

    【使用工具】前嗅ForeSpider數據采集系統,免費下載:http://www.bendalayoga.com/view/forespider/view/download.html

    【入口網址】http://www.ccgp.gov.cn/cggg/zygg/

    采集內容

    采集招標網上中央公告模塊所有數據。


    【采集效果】如下圖所示:

     

    思路分析

    配置思路概覽:

    配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

     

    2.獲取翻頁鏈接

    觀察翻頁規律,如下所示,打開翻頁,復制翻頁鏈接,粘貼到文本上。

     

    觀察發現,翻頁規律如下:

     

    ③建立腳本教程,拼翻頁鏈接,具體如下所示

    腳本文本如下所示:

    for(int i = 1;i <= 24;i++)//for循環拼鏈接

    {

    url u;//定義一個url

    u.title = URL.title+"@"+i;//返回鏈接名為@+頁數

    u.urlname = "http://www.ccgp.gov.cn/cggg/zygg/index_"+i+".htm";//返回鏈接為拼出來的鏈接

    u.entryid = CHANN.id;

    u.tmplid = 2;//關聯模板02

    RESULT.AddLink(u);//返回一個值

    }

    ④采集預覽,如下所示,表示翻頁鏈接拼取成功。

     

     

    3.獲取列表鏈接

    新建模板02,在其下新建一個鏈接抽取。

     

    采用定位過濾的方法,獲取公告列表鏈接,具體操作如下所示:

     

    ③采集預覽,如下所示,表示配置成功。

     

    4.數據抽取

    ①新建模板02,在該模板下新建一個數據抽取。

    關聯模,將模板02的鏈接關聯至模板03。

    采集預覽,打開列表鏈接預覽界面,復制任意一條列表鏈接,粘貼在模板02的示例地址處。

     

    ③新建一個數據表單,具體步驟和字段屬性如下所示:

     

    ④關聯表單

     

    ⑤使用字段定位取值,來獲取字段數據。

    Title字段:

     

    Pubtime字段:

     

    Pubper字段:

     

    Text字段:

     

    ⑥采集預覽,雙擊直至進入最后數據頁,如下圖所示,說明數據抽取成功。

     

     

    采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①首先要建立采集數據表:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【zhaobiao】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。

     

     

    ②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     

    ③采集中:

     

    ④采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

     

     

     

    ⑤導出的文件打開如下圖所示:

     

     

    *本教程僅供學習交流,嚴禁用于商業用途!


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡