目錄
    采集亞馬遜商品信息
    視頻教程:模板下載:

    l 采集網站

    【場景描述】采集亞馬遜搜索關鍵詞出來的商品信息。

    【入口網址】https://www.amazon.com/-/zh/ref=nav_logo



    【采集內容】采集亞馬遜搜索關鍵詞搜索出來的商品信息,包括商品名稱、價格、型號、星級和商品鏈接。


    l 思路分析

    l 配置步驟

    一.新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

     

    二.關鍵詞配置及翻頁鏈接

    1.查找規律

    在亞馬遜首頁頁搜索不同關鍵詞,發現不同關鍵詞搜索結果的鏈接,只更換了圖中紅框部分,而紅框部分正是經過轉碼后的關鍵詞。


    關鍵詞為:女裝第一頁鏈接

    https://www.amazon.com/-/zh/s?k=%E5%A5%B3%E8%A3%85&page=2&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&qid=1624952544&ref=sr_pg_1


    關鍵詞為:女裝第二頁鏈接

    https://www.amazon.com/s?k=%E5%A5%B3%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2


    關鍵詞為:男裝第一頁鏈接

    https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1


    關鍵詞為:男裝第二頁鏈接

    https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_2


    說明不同關鍵詞和頁數搜索出來的鏈接規律為

    https://www.amazon.com/s?k=【關鍵詞轉碼】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【頁數】

     

    2.高級配置

    得到關鍵詞鏈接拼接規則后,開始配置關鍵詞搜索:

    點擊屏幕右下角【高級配置】,將采集地址填寫到【請求地址】中,點擊【+】添加一個參數,名稱可以自定義。

    此項配置是用于后期腳本能將關鍵詞從關鍵詞列表中取出,配置完成點擊【確定】即可。

     


    3.設置搜索關鍵詞

    在關鍵詞列表添加多個關鍵詞用英文分號或換行隔開。

     


    4.新建腳本

    關鍵詞需要寫腳本,新建一個腳本,如下所示:



    5.腳本配置

    根據剛才的鏈接規律,具體配置腳本如下:

     


    腳本文本如下:


    • var ks = EXTRACT.GetSearch(this);
      var k = ks.Search();
      while(k)//while循環將所有關鍵詞拼一遍
      {
      url u;
      var kw = k.wd;
          var wd= u.UnEscape( kw);
          for(var i=1;i<=10;i++)//for循環采集前10頁數據
         {
          var ur = "https://www.amazon.com/s?k="+u.Escape(wd)+"&language=zh&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99"+"&qid=1624946018&ref=sr_pg_"+i;//根據鏈接規律拼鏈接
      u.title = wd+"第"+i+"頁"; //返回鏈接title
          u.urlname = ur;//返回鏈接
          u.entryid = this.id;//返回id
          u.tmplid = 1;//關聯模板01
          RESULT.AddLink(u);
          }
          k = ks.Search();
      }
      ks.End();

    6.效果預覽:

    點擊【采集預覽】,即可看到配置效果。

     


    三.商品鏈接抽取

    1.從采集預覽中任意復制一條鏈接。

     


    2.將鏈接復制到默認模板01的示例地址中。

     


    3.右擊采集預覽,可以看到爬蟲抓取出來的所有鏈接。


     

    4.觀察發現,這些鏈接就是關鍵詞搜索出來的商品鏈接。并且鏈接中都含有【/zh/dp/】。

     


    5.選擇地址過濾,選擇【包含】,填入【/zh/dp/】,點擊保存。則篩選出所有商品鏈接,商品鏈接就抽取出來了。

     


    6.關聯模板,將模板01鏈接抽取關聯至模板02,具體操作如下圖所示:

     


    四.商品數據抽取

    1.新建數據抽取

    新建模板02,在模板02下建一個數據抽取,具體操作如下圖所示。

     


    2.數據建表

    點擊圖中加號,新建一個數據表,然后添加字段,各字段屬性如下圖所示:



    3.關聯表單

    將新建好的數據表,關聯到模板中去,如下圖所示:

     


    4.填寫示例地址

    從采集預覽中任意復制一條商品的鏈接,填寫到模板02的示例地址中。

     


    5.字段抽取

    字段抽取使用定位抽取的方法,選中選區后,點擊【確認選區】按鈕即可。

     


     

    6.采集預覽

    如下圖所示,一層一層雙擊,進入最后數據頁,即取到了數據。

     

     

    l 采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    1.建立采集數據表

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為amazon(注意命名不能用數字和特殊符號),點擊【確定】。

     


    2.關聯數據表

    創建完成,勾選數據表并保存。

     


    3.開始采集

    選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     


    4.導出數據

    可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

     

    導出的文件打開如下圖所示:



    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡