以采集昵圖網(http://www.nipic.com/topic/show_27345_1.html)圖片為例。
采集昵圖網某頁面中所有圖片及鏈接地址。
【昵圖網某頁面】
2.采集結果截圖
【檢索列表鏈接】
【檢索數據結果】
1.新建任務
【新建任務】
點擊【下一步】,需要采集全部檢索結果,所以此處需要勾選【鏈接列表】和【普通翻頁】,如圖:
【新建采集任務】
2.過濾鏈接列表
①用定位過濾鏈接,過濾關鍵詞檢索出的列表鏈接。
【定位過濾列表鏈接】
②采集預覽,看是否過濾成功。
采集預覽出現鏈接均為網頁中關鍵詞檢索列表中的鏈接,過濾成功。
【采集預覽】
3.過濾翻頁鏈接
①用定位過濾鏈接,過濾翻頁鏈接。
【定位過濾翻頁鏈接】
②采集預覽,看是否過濾成功。
采集預覽出現鏈接均為翻頁的鏈接,過濾成功。
【采集預覽】
4.新建數據抽取
【新建數據抽取】
5.添加示例地址
【添加示例地址】
6.創建/選擇表結構
表結構創建后可以重復選擇使用,如果已有建好的表結構,選擇對應數據表結構即可。如果沒有,點擊創建表結構。
7.配置表結構
根據所需內容,配置表結構字段,此處配置了包括主鍵、網頁地址、圖片三個字段。=>(字段各屬性介紹)
方式一:快速建表。(點擊【創建表結構】出現彈窗。)
【配置表結構】
方式二:自由建表。(在【數據建表】界面)
【字段取值】
8.關聯表結構
【關聯表結構】
9.字段取值
①f_id:主鍵字段,自動取值。
②url:當前頁面網址,自動取值。
③name1:通過字段定位取值,按ctrl+單擊標題,確認選取?!?/span>
【name1】
④fujian:通過字段定位取值,按ctrl+單擊圖片,確認選取。
10.關聯數據表
先選擇對應表結構,然后再創建關聯數據表,如圖所示。
【創建關聯數據表】
表名稱不能使用中文命名,可以使用英文+數字組合,必須用英文字母開頭。
【定義表名稱】
【勾選數據表】
10.模板預覽
通過預覽,可以了解配置是否能夠正確地采集到所需數據。
方式一:點擊【采集預覽】按鈕,可以從入口頁逐層預覽各個模板的數據。
點擊任意一條鏈接,看看是否可以得到和網頁對應的規整的數據。
方式二:右鍵后選擇【模板預覽】,可以單獨預覽某個模板的數據。
【模板預覽】
【預覽結果】