目錄
    2.2.2 采集附件及其地址
    視頻教程:模板下載:


    山西招投標網http://www.sxbid.com.cn/

    一.網站內容

    1.網站截圖說明

    本教程通過“山西招投標網”官網來采集 鏈接列表(紅框位置) 中正文的附件,鏈接入口為:http://www.sxbid.com.cn/

     

    【官網-二手房】

    2.采集結果預覽

     

     

    二.操作方法

    1.新建任務

    按圖片數字所示,1-2-3完成新建任務的步驟

     

    【新建任務】

    ①按照圖示1位置,點擊“采集配置”。

    ②按圖示2位置,點擊“任務列表”中的“+”。

    ③在新建采集任務中輸入采集網址即http://www.sxbid.com.cn/,任務名稱可自定義,本次可輸入為“中國石頭招標投標網”。

    點擊“下一步”,需要采集正文數據,所以此處需要勾選“網頁內所有鏈接”和“抽取數據”。

     

    2.鏈接抽取配置

     

    ①按照圖示1位置,Ctrl+左鍵選中“鏈接列表”。

    ②按照圖示2位置,點擊“確認選區”,保證我們的數據是被選中的狀態。

    ③按照圖示3位置點擊“采集預覽”,查看數據詳情,如下圖所示:

     

    3.數據抽取

     

    抽取數據(紅框位置)中的鏈接 務必對應“鏈接列表”內的正文數據,即附件頁面地址。http://www.sxbid.com.cn/f/view-860ea5181ec54cd68435893df9254c02-1916cd9114ca48d4819b89c1da635597.html

    4.配置表結構

     

    如圖示點擊【數據建表】:

    ①點擊“采集配置”。

    ②點擊“數據建表”。

    ③點擊“+”,新建表結構并自定義名稱,這里取為“zhaobiao”。

    根據所需內容,配置表結構字段,此處配置了包括主鍵、網頁地址URL、標題、附件。表結構建立如下:

     

    ①主鍵字段:f_id

    主鍵務必第一個創建,其含義為該表結構所屬ID

    A.采集內容:選擇“主鍵”

    B.數據類型:選擇“長數字”

    C.字段屬性:選擇 “索引字段”、“鍵值唯一”、“主鍵字段”。

     

    ②字段名稱:url

    A.采集內容:選擇“網頁信息”-“網頁地址”。

    B.數據類型:選擇“字符串”。

    C.高級類型:url地址。

     

    ③字段名稱:name1

    A.采集內容:選擇“選區內可見文本”。

    B.數據類型:選擇“字符串”。

     

    ④字段名稱:fujian

    采集內容:選擇“網頁代碼/圖片等資料”-“數據流文件”。

     

    5.關聯數據表

    表結構配置完畢后,需要進行數據關聯,操作如下:

     

    選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。然后就可以采集數據了。

     

    6.確認選區

    操作如下圖所示:

    ①字段:name1

    A.按照圖1位置,在左側點擊“name1”。

    B.按照圖2位置ctrl+左鍵選中文章標題。

    C.最后點擊“確認選區”即可。

     

    ②字段:fujian

    A.按照圖1位置,在左側點擊“fujian”。

    B.在頁面最低端會出現“附件下載”的位置即圖2所示,ctrl+左鍵選中附件內容。

     

    7.采集預覽

     

    “新建模板:02”處右鍵選擇“模板預覽”,即可查看是否采集出所需數據,如下圖:

     


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡