目錄
    采集前程無憂招聘數據
    視頻教程:模板下載:
    l 采集網站

    【場景描述】采集前程無憂招聘信息。

    【源網站介紹】

    前程無憂(NASDAQ:JOBS)是中國具有廣泛影響力的人力資源服務供應商,在美國上市的中國人力資源服務企業,創立了網站+獵頭+RPO+校園招聘+管理軟件的全方位招聘方案。

    【使用工具】前嗅ForeSpider數據采集系統,點擊下方鏈接可免費下載

    http://www.bendalayoga.com/view/forespider/view/download.html

    【入口網址】https://search.51job.com/list/010000,000000,0000,32,9,99,%25E4%25BA%25A7%25E5%2593%2581%25E7%25BB%258F%25E7%2590%2586,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=

    【采集內容】

    采集產品經理相關的招聘信息的崗位名稱、發布單位、薪資范圍、福利介紹、職位標簽、招聘內容等。



    【采集效果】如下圖所示:

     


    l 思路分析

    配置思路概覽:


    l 配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

     

    2.獲取翻頁鏈接

    ①在瀏覽器上觀察該頁面,發現翻頁鏈接都不一樣。

     



    ②復制前三頁的鏈接,發現規律如下所示:

     


    ③寫腳本,拼接鏈接,具體腳本如下所示:

     


    腳本文本:

    for(int i =1;i<= 7;i++)
    {
    url u ;
    u.urlname="https://search.51job.com/list/010000,000000,0000,32,9,99,%25E4%25BA%25A7%25E5%2593%2581%25E7%25BB%258F%25E7%2590%2586,2,"+i+".html?lang=c&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=";
    u.title="第"+i+"頁";//將標題設置為關鍵詞名稱
    u.entryid=this.id;
    u.tmplid=2;
    RESULT.AddLink(u);
    }

    ⑥采集預覽,如下圖所示,每日的新聞鏈接已生成,右鍵復制任意一條,在瀏覽器中打開,看是否為正確鏈接。

     

    3.獲取招聘列表鏈接

    ①在列表頁單擊鼠標右鍵,選擇【查看源文件】,打開頁面源碼。

     



    ②觀察發現,每個招聘信息的鏈接,均是job_href的屬性值。

     


    ③將這段js格式化,可更好的查看數據結構。

     


    ④觀察發現,所有招聘信息的鏈接,在源碼中的js中的engine_jds數組中每個對象中的job_href屬性值。

     


    ⑤根據以上觀察,編寫腳本將招聘列表鏈接抽取出來。具體操作如下:

     


    腳本文本為:


    • var str = DOM.GetSource().ToStr();//取頁面中所有的源碼,并轉為字符串格式
      var dact =str.Middle("_RESULT__ =","</script>");//截取"_RESULT__ ="和"</script>"中的js編碼
      jScript js;//定義一個js
      var obj = js.RunJson(dact);//obj為dact中的對象
      var obj_a=obj.engine_jds;//obj_a為obj中的 engine_jds對象
      for( i in obj_a each v){//for循環取engine_jds中的每個對象值
      url u; //定義一個url
      u.title=v.jobid;//url名稱為每個對象中jobid的值
      u.urlname=v.job_href;//url為每個對象中的job_href值
      u.entryid=CHANN.id;
      u.tmplid=3;//關聯模板03
      RESULT.AddLink(u);
      }


    ⑥采集預覽,如下圖所示:



    4.抽取招聘數據

    ①新建模板03,在該模板下新建一個數據抽取。

     


    ②新建一個數據表單,具體步驟和字段屬性如下所示:

     


    ③填寫示例地址

    采集預覽,雙擊進入下一層,復制任意一條招聘鏈接,復制在示例地址位置:

     


    ④設置refer,具體如下圖所示:

     


    ⑤關聯數據表單,如下圖所示:

     


    ⑥抽取數據采用定位取值法,以jobtitle為例進行演示,具體操作如下圖所示:

     


    Jobwelf字段:

     


    ⑦其他字段以此類推,進行定位取值后,點擊采集預覽,如下圖所示:

     

     

    l 采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①首先要建立采集數據表:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【zhaopin】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。



    ②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     

    ③采集中:

     


    ④采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

     

    在采集的過程中,可能會遇到因網站封IP而導致的采集異常情況,建議您購買適量代理IP進行采集。代理IP介紹與設置可參考文章:看完之后,不要再說不懂代理IP了!

     

    *本教程僅供學習交流,嚴禁用于商業用途!


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡