識別列表用于采集表格或列表的數據。以采集前嗅官網的表格(http://www.bendalayoga.com/pannel/prod/server_cen.html)為例。
1.創建表單
根據表格內容,創建一個存儲表格數據的表單。
【采集表格的表結構】
①主鍵字段
采集表格時,表格的一行作為一條數據。由于整個表格屬于同一個網頁文檔,主鍵字段的采集內容必須選擇“自增ID”。不能選擇網頁主鍵,因為網頁主鍵以網址的MD5作為主鍵,主鍵是唯一的,會導致只能采集一行數據。
【主鍵字段的配置】
②其它字段
【其他字段的配置】
2.識別列表
選擇好新建的表單,按Ctrl+鼠標左鍵點擊任意某個單元格,按Shift再次點擊擴大區域范圍直至框住所需數據部位。
【選取定位】
定位成功后,點擊識別列表屏幕中會出現下圖字樣:
【定位成功】
3.字段定位取值
主鍵字段自動取值,不需要定位取值。其他字段需要一一取值。
點擊數據抽取中各字段,為其一一配置表格不同列的數據。點擊相應字段,按Ctrl點擊第一列的任意單元格,點擊“確認選取”。
【各字段定位】
4.采集預覽
各字段定位成功后,可以點擊采集預覽查看采集結果。
【采集預覽】