目錄
    采集人民日報新聞數據
    視頻教程:模板下載:
    l 采集網站

    【場景描述】采集人民網上的人民日報新聞數據。

    【源網站介紹】

    人民網,是世界十大報紙之一《人民日報》建設的以新聞為主的大型網上信息發布平臺,也是互聯網上最大的中文和多語種新聞網站之一。

    【使用工具】前嗅ForeSpider數據采集系統,點擊下方鏈接可免費下載

    http://www.bendalayoga.com/view/forespider/view/download.html

    【入口網址】http://paper.people.com.cn/rmrb/html/2021-09/07/nbs.D110000renmrb_01.htm

    【采集內容】

    采集人民日報新聞的標題、發布時間、文章正文等。

     


    【采集效果】如下圖所示:

     


    l 思路分析

    配置思路概覽:

     


    l 配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

     

    2.獲取每日新聞鏈接

    ①在瀏覽器上觀察該頁面,發現每天的新聞頁面鏈接都不一樣,在鏈接中含有日期。

     

    ②復制幾天的鏈接,發現規律如下所示:

     


    ③可將日期設置為關鍵詞,用腳本拼接出每天新聞的鏈接。

     


    ④高級配置,設置關鍵詞參數:

     


    ⑤寫腳本,拼接鏈接:

     


    腳本文本:

    • var sear=EXTRACT.GetSearch(this); //關鍵詞獲取
      var k=sear.Search();
      while(k){ //遍歷關鍵詞
      url u;
      u.urlname="http://paper.people.com.cn/rmrb/html/"+k.wd+"/nbs.D110000renmrb_01.htm";//根據鏈接規律拼寫鏈接
      u.title=k.wd;//將標題設置為關鍵詞名稱
      u.entryid=this.id;
      u.tmplid=1;//關聯模板01
      k=sear.Search();
      RESULT.AddLink(u);
      }

    ⑥采集預覽,如下圖所示,每日的新聞鏈接已生成,右鍵復制任意一條,在瀏覽器中打開,看是否為正確鏈接。

     


    3.獲取新聞列表鏈接

    ①在瀏覽器中打開任意一天的新聞數據頁,觀察每條新聞的鏈接,可發現規律。

     

    ②通過觀察可發現,視頻鏈接規律為:



    ③根據新聞列表鏈接的規律,編寫腳本拼出新聞鏈接,具體操作如下:

     

    腳本文本為:

    var i=URL.urlname.Left("nbs.D110000");//定義i為當前模板鏈接的【nbs.D110000】左側部分,即取i為當天新聞頁鏈接的前半部分
    var j=URL.urlname.Middle("rmrb/html/","/nbs.");//定義j為當前模板鏈接中的日期部分
    var b=j.Replace("-","",from=-1).Replace("/","",from=-1);//將j中的-和/去掉,日期格式為:20210907
    for(int c =1;c<= 7;c++)//寫for循環獲取每天的前7條新聞
    {
    url u ;
    u.urlname=i+"nw.D110000renmrb_"+b+"_"+c+"-01.htm";//根據新聞列表鏈接規律,拼寫鏈接
    u.title=c;//將標題設置為第幾條新聞
    u.entryid=this.id;
    u.tmplid=2;//關聯模板02
    RESULT.AddLink(u);
    }


    ④采集預覽,如下圖所示:



    4.抽取新聞數據

    ①新建一個數據表單,具體步驟和字段屬性如下所示:

     


    ②新建模板02,在該模板下新建一個數據抽取。


     


    ③填寫示例地址,采集預覽,雙擊進入下一層,復制任意一條新聞鏈接,復制在示例地址位置:

     


    ④關聯數據表單,如下圖所示:

     


    ⑤抽取數據采用定位取值法,具體操作如下圖所示:

     

     


     



    ⑥采集預覽,如下圖所示:

     

     

    l 采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①首先要建立采集數據表:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【ribao】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。

     


    ②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     


    ③采集中:

     


    ④采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

     

     


    ⑤導出的文件打開如下圖所示:

     

     

    *本教程僅供學習交流,嚴禁用于商業用途!


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡