l 采集網站
【場景描述】采集亞馬遜搜索關鍵詞出來的商品信息。
【入口網址】https://www.amazon.com/-/zh/ref=nav_logo
【采集內容】采集亞馬遜搜索關鍵詞搜索出來的商品信息,包括商品名稱、價格、型號、星級和商品鏈接。
l 思路分析
l 配置步驟
一.新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
二.關鍵詞配置及翻頁鏈接
1.查找規律
在亞馬遜首頁頁搜索不同關鍵詞,發現不同關鍵詞搜索結果的鏈接,只更換了圖中紅框部分,而紅框部分正是經過轉碼后的關鍵詞。
關鍵詞為:女裝第一頁鏈接
關鍵詞為:女裝第二頁鏈接
關鍵詞為:男裝第一頁鏈接
https://www.amazon.com/s?k=%E7%94%B7%E8%A3%85&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_1
關鍵詞為:男裝第二頁鏈接
說明不同關鍵詞和頁數搜索出來的鏈接規律為
https://www.amazon.com/s?k=【關鍵詞轉碼】&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99&ref=nb_sb_noss_【頁數】
2.高級配置
得到關鍵詞鏈接拼接規則后,開始配置關鍵詞搜索:
點擊屏幕右下角【高級配置】,將采集地址填寫到【請求地址】中,點擊【+】添加一個參數,名稱可以自定義。
此項配置是用于后期腳本能將關鍵詞從關鍵詞列表中取出,配置完成點擊【確定】即可。
3.設置搜索關鍵詞
在關鍵詞列表添加多個關鍵詞用英文分號或換行隔開。
4.新建腳本
關鍵詞需要寫腳本,新建一個腳本,如下所示:
5.腳本配置
根據剛才的鏈接規律,具體配置腳本如下:
腳本文本如下:
var ks = EXTRACT.GetSearch(this); var k = ks.Search(); while(k)//while循環將所有關鍵詞拼一遍 { url u; var kw = k.wd; var wd= u.UnEscape( kw); for(var i=1;i<=10;i++)//for循環采集前10頁數據 { var ur = "https://www.amazon.com/s?k="+u.Escape(wd)+"&language=zh&__mk_zh_CN=%E4%BA%9A%E9%A9%AC%E9%80%8A%E7%BD%91%E7%AB%99"+"&qid=1624946018&ref=sr_pg_"+i;//根據鏈接規律拼鏈接 u.title = wd+"第"+i+"頁"; //返回鏈接title u.urlname = ur;//返回鏈接 u.entryid = this.id;//返回id u.tmplid = 1;//關聯模板01 RESULT.AddLink(u); } k = ks.Search(); } ks.End();
6.效果預覽:
點擊【采集預覽】,即可看到配置效果。
三.商品鏈接抽取
1.從采集預覽中任意復制一條鏈接。
2.將鏈接復制到默認模板01的示例地址中。
3.右擊采集預覽,可以看到爬蟲抓取出來的所有鏈接。
4.觀察發現,這些鏈接就是關鍵詞搜索出來的商品鏈接。并且鏈接中都含有【/zh/dp/】。
5.選擇地址過濾,選擇【包含】,填入【/zh/dp/】,點擊保存。則篩選出所有商品鏈接,商品鏈接就抽取出來了。
6.關聯模板,將模板01鏈接抽取關聯至模板02,具體操作如下圖所示:
四.商品數據抽取
1.新建數據抽取
新建模板02,在模板02下建一個數據抽取,具體操作如下圖所示。
2.數據建表
點擊圖中加號,新建一個數據表,然后添加字段,各字段屬性如下圖所示:
3.關聯表單
將新建好的數據表,關聯到模板中去,如下圖所示:
4.填寫示例地址
從采集預覽中任意復制一條商品的鏈接,填寫到模板02的示例地址中。
5.字段抽取
字段抽取使用定位抽取的方法,選中選區后,點擊【確認選區】按鈕即可。
6.采集預覽
如下圖所示,一層一層雙擊,進入最后數據頁,即取到了數據。
l 采集步驟
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
1.建立采集數據表
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為amazon(注意命名不能用數字和特殊符號),點擊【確定】。
2.關聯數據表
創建完成,勾選數據表并保存。
3.開始采集
選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
4.導出數據
可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。
導出的文件打開如下圖所示: