【場景描述】采集易貝(ebay)中某一類別的所有商品信息。
【使用工具】前嗅ForeSpider數據采集系統,點擊下方鏈接可免費下載
http://www.bendalayoga.com/view/forespider/view/download.html
【入口網址】https://cn.ebay.com/b/Mens-Clothing/1059/bn_696958
【采集內容】
采集易貝(ebay)中的所有男裝商品信息,包括商品名稱、商品價格、庫存量、商家名稱、商家評分、商家好評率、物品編號等。
【采集效果】如下圖所示:
l 思路分析
配置思路概覽:
l 配置步驟
1. 新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
選擇普通翻頁,點擊完成按鈕,即創建任務完成。
2.獲取翻頁鏈接
①在瀏覽器上打開該頁面,分別打開幾個翻頁頁面,觀察其鏈接規律,具體如下:
②不難發現翻頁規律為:
③打開爬蟲,新建腳本
④根據剛才發現的規律,用腳本來拼翻頁鏈接。
具體如下所示:
腳本文本:
url u; for(var i=1;i<=10;i++)//for循環來獲得翻頁,i為第幾頁 { u.urlname = "https://cn.ebay.com/b/Mens-Clothing/1059/bn_696958?rt=nc&_pgn="+i; //根據翻頁規律拼翻頁 u.title = URL.title+"#"+"第"+i+"頁"; //返回鏈接標題為“第i頁” u.entryid = CHANN.id; u.tmplid = 2; //關聯模板2 RESULT.AddLink(u); }
⑤保存腳本后,點擊右上角【采集預覽】按鈕,復制任意一條翻頁鏈接,在瀏覽器打開,看是否成功抽取翻頁鏈接。
3.抽取商品鏈接
①新建一個抽取模板,在其下新建一個鏈接抽取,具體操作如下所示:
②采集預覽,復制任意一條翻頁的鏈接。
③將鏈接粘貼到模板02的示例地址中,并點擊右上角【保存】按鈕:
④雙擊內置瀏覽器,加載示例地址頁面,如下圖所示:
⑤用定位過濾鏈接的方法,shift+鼠標單擊,ctrl+鼠標單擊擴大選區,選中所有商品。
⑥采集預覽,雙擊任意一條翻頁鏈接,查看是否成功抽取商品鏈接:
4.抽取商品數據
①新建一個抽取模板,在其下新建一個數據抽取,具體操作如下所示:
②數據建表,按照下圖所示建數據表。(注意字段屬性等應嚴格按照下圖進行設置)
③將新建好的數據表,關聯到模板中去,如下圖所示:
④填寫示例數據,采集預覽,復制任意一條商品鏈接,
將鏈接粘貼到本模板示例地址中,并雙擊內置瀏覽器空白部分,加載本鏈接。
⑤關聯模板
⑥字段抽取
字段抽取使用字段定位取值的方法,具體操作如下所示:
Pro_name字段:選中本字段后,shift+鼠標單擊商品名稱,選中商品名稱,點擊【確認選區】。
Pro_price:方法同上如下圖所示:
Pro_stock:
Shop_revuews:
Num:
Shop_name:
Shop_star:
⑦采集預覽,雙擊進入下一層,知道打開數據頁,抽取到數據,表示配置成功。
l 采集步驟
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
①首先要建立采集數據表:
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【ebay】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。
②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
③采集中:
④采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。
⑤導出的文件打開如下圖所示:
本教程僅供教學使用,嚴禁用于商業用途!