l 采集網站
【場景描述】采集上海交通大學最新招聘信息。
【入口網址】https://postd.sjtu.edu.cn/bshzp/10.htm
【采集內容】
采集該網站上發布的招聘公告信息,采集字段為:招聘標題、發布時間、招聘正文。
l 思路分析
配置思路概覽:
l 配置步驟
1. 新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
繼續勾選列表鏈接、普通翻頁,然后點擊完成,創建成功。
2. 抽取列表鏈接
配置列表鏈接,將所有招聘公告的鏈接都抽取出來,在此使用定位過濾鏈接的方法來抽取列表鏈接。具體操作如下圖所示:
①選中模板中的鏈表鏈接。
②選中列表鏈接選區,shift+鼠標單擊某個鏈接,Ctrl、+鼠標單擊其他翻頁擴大選區,從而選中所有列表鏈接。
③點擊【確認選區】。
④保存配置。
⑤采集預覽
點擊右上角【采集預覽】,看所需要的列表鏈接是否都抽取出來。
3. 抽取翻頁
翻頁抽取也是用定位過濾鏈接的方法,進行抽取。具體如下圖所示:
①選中模板中的普通翻頁鏈接抽取。
②選中所有翻頁選區,shift+鼠標單擊某個翻頁,Ctrl+鼠標單擊其他翻頁擴大選區,從而選中所有翻頁。
③確認選區。
④點擊【保存】按鈕,保存配置。
⑤采集預覽
點擊右上方【采集預覽】,選擇普通翻頁,查看是否采集到所以翻頁,如下圖所示即為采集到。
4. 關聯模板
檢查模板01中的兩個鏈接抽取關聯模板是否正確。列表鏈接應關聯模板02,普通翻頁應關聯模板01,分別如下圖所示。
5. 數據抽取
①選中列表鏈接02,新建一個數據抽取。具體操作如下圖所示:
②此時要完成數據建表的工作:選擇【數據建表】,點擊【采集數據表結構】中的【+】,即可添加數據表,名稱可以自定義。
添加字段,各字段屬性如下圖所示:
③數據表配置完成,選擇【數據抽取】右側數據屬性配置,表單選擇剛建立的“招聘信息”數據表,則可看到表單中的字段在右側顯示。
④填寫示例地址
采集預覽,右擊任意一條鏈接,復制該招聘鏈接。
將該鏈接填寫在模板02的示例地址中,并點擊右上角保存按鈕。如下圖所示:
⑤抽取字段數據
雙擊內置瀏覽器空白處,這時內置瀏覽器顯示為剛才示例地址頁面,使用定位過濾的方法配置每一個字段。
title字段:選中title字段,shift+點擊頁面中標題,ctrl+鼠標單擊擴大選中區域,選中標題后,點擊【確認選區】按鈕,點擊【保存】按鈕。
pubtime字段:操作步驟類似,但是由于選中的為【時間:2021年07月05日】,所以使用數據清洗功能,清洗掉【時間:】,具體設置如下圖所示:
content字段:操作步驟類似,具體如下圖所示:
⑥以上完成全部字段配置,效果預覽如下:
6.數據采集
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
①首先要建立采集數據表:
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為zhaopin(注意命名不能用數字和特殊符號),點擊【確定】。
創建完成,勾選數據表,點擊保存。
②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
③可以在【數據瀏覽】中,選擇數據表查看采集數據。
④導出數據
導出數據表如下圖所示: