目錄
    采集事業單位最新招聘信息
    視頻教程:模板下載:

    l 采集網站

    【場景描述】采集上海交通大學最新招聘信息。

    【入口網址】https://postd.sjtu.edu.cn/bshzp/10.htm

     

    【采集內容】

    采集該網站上發布的招聘公告信息,采集字段為:招聘標題、發布時間、招聘正文。

     

    l 思路分析

    配置思路概覽:

     

     

    l 配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     


    繼續勾選列表鏈接、普通翻頁,然后點擊完成,創建成功。

     

     

    2. 抽取列表鏈接

    配置列表鏈接,將所有招聘公告的鏈接都抽取出來,在此使用定位過濾鏈接的方法來抽取列表鏈接。具體操作如下圖所示:

    ①選中模板中的鏈表鏈接。

    ②選中列表鏈接選區,shift+鼠標單擊某個鏈接,Ctrl、+鼠標單擊其他翻頁擴大選區,從而選中所有列表鏈接。

    ③點擊【確認選區】。

    ④保存配置。



    ⑤采集預覽

    點擊右上角【采集預覽】,看所需要的列表鏈接是否都抽取出來。


    3. 抽取翻頁

    翻頁抽取也是用定位過濾鏈接的方法,進行抽取。具體如下圖所示:

    ①選中模板中的普通翻頁鏈接抽取。

    ②選中所有翻頁選區,shift+鼠標單擊某個翻頁,Ctrl+鼠標單擊其他翻頁擴大選區,從而選中所有翻頁。

    ③確認選區。

    ④點擊【保存】按鈕,保存配置。

     


    ⑤采集預覽

    點擊右上方【采集預覽】,選擇普通翻頁,查看是否采集到所以翻頁,如下圖所示即為采集到。

     

    4. 關聯模板

    檢查模板01中的兩個鏈接抽取關聯模板是否正確。列表鏈接應關聯模板02,普通翻頁應關聯模板01,分別如下圖所示。

     


     

    5. 數據抽取

    ①選中列表鏈接02,新建一個數據抽取。具體操作如下圖所示:

     


    ②此時要完成數據建表的工作:選擇【數據建表】,點擊【采集數據表結構】中的【+】,即可添加數據表,名稱可以自定義。

     


    添加字段,各字段屬性如下圖所示:



    ③數據表配置完成,選擇【數據抽取】右側數據屬性配置,表單選擇剛建立的“招聘信息”數據表,則可看到表單中的字段在右側顯示。

     


    ④填寫示例地址

    采集預覽,右擊任意一條鏈接,復制該招聘鏈接。



    將該鏈接填寫在模板02的示例地址中,并點擊右上角保存按鈕。如下圖所示:

     


    ⑤抽取字段數據

    雙擊內置瀏覽器空白處,這時內置瀏覽器顯示為剛才示例地址頁面,使用定位過濾的方法配置每一個字段。

    title字段:選中title字段,shift+點擊頁面中標題,ctrl+鼠標單擊擴大選中區域,選中標題后,點擊【確認選區】按鈕,點擊【保存】按鈕。



    pubtime字段:操作步驟類似,但是由于選中的為【時間:2021年07月05日】,所以使用數據清洗功能,清洗掉【時間:】,具體設置如下圖所示:

     


    content字段:操作步驟類似,具體如下圖所示:

     


    ⑥以上完成全部字段配置,效果預覽如下:

     

     

    6.數據采集

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①首先要建立采集數據表:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為zhaopin(注意命名不能用數字和特殊符號),點擊【確定】。

     


    創建完成,勾選數據表,點擊保存。

     


    ②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     


    ③可以在【數據瀏覽】中,選擇數據表查看采集數據。

     

    ④導出數據

     


    導出數據表如下圖所示:

     


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡