山西招投標網http://www.sxbid.com.cn/
1.網站截圖說明
本教程通過“山西招投標網”官網來采集 鏈接列表(紅框位置) 中正文的附件,鏈接入口為:http://www.sxbid.com.cn/
【官網-二手房】
2.采集結果預覽
1.新建任務
按圖片數字所示,1-2-3完成新建任務的步驟
【新建任務】
①按照圖示1位置,點擊“采集配置”。
②按圖示2位置,點擊“任務列表”中的“+”。
③在新建采集任務中輸入采集網址即http://www.sxbid.com.cn/,任務名稱可自定義,本次可輸入為“中國石頭招標投標網”。
點擊“下一步”,需要采集正文數據,所以此處需要勾選“網頁內所有鏈接”和“抽取數據”。
2.鏈接抽取配置
①按照圖示1位置,Ctrl+左鍵選中“鏈接列表”。
②按照圖示2位置,點擊“確認選區”,保證我們的數據是被選中的狀態。
③按照圖示3位置點擊“采集預覽”,查看數據詳情,如下圖所示:
3.數據抽取
抽取數據(紅框位置)中的鏈接 務必對應“鏈接列表”內的正文數據,即附件頁面地址。http://www.sxbid.com.cn/f/view-860ea5181ec54cd68435893df9254c02-1916cd9114ca48d4819b89c1da635597.html
4.配置表結構
如圖示點擊【數據建表】:
①點擊“采集配置”。
②點擊“數據建表”。
③點擊“+”,新建表結構并自定義名稱,這里取為“zhaobiao”。
根據所需內容,配置表結構字段,此處配置了包括主鍵、網頁地址URL、標題、附件。表結構建立如下:
①主鍵字段:f_id
主鍵務必第一個創建,其含義為該表結構所屬ID。
A.采集內容:選擇“主鍵”
B.數據類型:選擇“長數字”
C.字段屬性:選擇 “索引字段”、“鍵值唯一”、“主鍵字段”。
②字段名稱:url
A.采集內容:選擇“網頁信息”-“網頁地址”。
B.數據類型:選擇“字符串”。
C.高級類型:url地址。
③字段名稱:name1
A.采集內容:選擇“選區內可見文本”。
B.數據類型:選擇“字符串”。
④字段名稱:fujian
采集內容:選擇“網頁代碼/圖片等資料”-“數據流文件”。
5.關聯數據表
表結構配置完畢后,需要進行數據關聯,操作如下:
選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。然后就可以采集數據了。
6.確認選區
操作如下圖所示:
①字段:name1
A.按照圖1位置,在左側點擊“name1”。
B.按照圖2位置ctrl+左鍵選中文章標題。
C.最后點擊“確認選區”即可。
②字段:fujian
A.按照圖1位置,在左側點擊“fujian”。
B.在頁面最低端會出現“附件下載”的位置即圖2所示,ctrl+左鍵選中附件內容。
7.采集預覽
在“新建模板:02”處右鍵選擇“模板預覽”,即可查看是否采集出所需數據,如下圖: