采集網站
【場景描述】采集百姓網招聘數據。
【源網站介紹】百姓網,中國領先的分類信息網??梢悦赓M查找中國各種新鮮的二手物品交易、二手車買賣、房屋租售、寵物、招聘、兼職、求職、交友活動及生活服務等分類信息,還能免費發布這些分類信息。
【使用工具】前嗅ForeSpider數據采集系統,免費下載:
http://www.bendalayoga.com/view/forespider/view/download.html
采集網站
【入口網址】
https://shenzhen.baixing.com/gongzuo/
【采集內容】
采集百姓網招聘列表中的招聘信息。
【采集效果】如下圖所示:
思路分析
配置思路概覽:
配置步驟
1. 新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
2.獲取翻頁鏈接
①按住ctrl+鼠標單擊任意一個翻頁,然后按住shift+鼠標單擊任意一個未選中翻頁擴大選區,直至選中所有翻頁,然后確認選區后保存。
采集預覽,發現所有翻頁都被抽取出來了。
②關聯模板,將翻頁鏈接抽取,關聯模板01。
3. 抽取列表數據
①在模板1下新建一個數據抽取,具體操作如下所示:
②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)
③將新建好的數據表,關聯到模板中去,如下圖所示:
④識別列表
選中第一條招聘數據,如圖所示,點擊識別列表,系統自動識別到列表中的所有招聘數據。
⑤數據取值
使用定位取值的方法,title字段如下所示:
pay字段如下所示:
其他字段也按照同樣的方法進行定位取值。
⑥采集預覽
采集步驟
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
①建立數據表單:
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【baixing】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。
②開始采集
選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
③導出數據
采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。
④導出的文件打開如下圖所示:
*本教程僅供教學使用,嚴禁用于商業用途!