采集天堂圖片網圖片數據

教程列表

搜索

采集天堂圖片網圖片數據

視頻教程：模板下載：

l 采集網站

【場景描述】采集天堂圖片網上的所有的分類圖片數據。

【源網站介紹】

天堂圖片網是一個提供豐富圖片設計素材為的網站，網站內提供了清晰的圖片分類，范圍涵蓋人物、動物、植物、商務、生活、家居、體育、交通、廣告等素材圖片。

【使用工具】前嗅ForeSpider數據采集系統，點擊下方鏈接可免費下載

http://www.bendalayoga.com/view/forespider/view/download.html

【入口網址】https://www.ivsky.com/tupian/fengjing_t2333/

【采集內容】

采集天堂圖片網所有分類圖片名稱和圖片。

【采集效果】如下圖所示：

l 思路分析

配置思路概覽：

l 配置步驟

1. 新建采集任務

選擇【采集配置】，點擊任務列表右上方【+】號可新建采集任務，將采集入口地址填寫在【采集地址】框中，【任務名稱】自定義即可，點擊下一步。

2.獲取分類列表鏈接

①點擊采集預覽，觀察該頁面鏈接，發現分類鏈接的規律為：https://www.ivsky.com/tupian/字符串

②使用地址過濾的方法，將分類鏈接過濾出來。

\c表示小寫字母的字符串，所以設置地址過濾包含：https://www.ivsky.com/tupian/\c/

3.獲取翻頁&列表鏈接

①新建模板02，后在其下新建一個鏈接抽取，可修改名稱為翻頁鏈接。

②將模板01中的鏈接抽取，關聯到模板02中。

③采集預覽，觀察翻頁鏈接中均包含：

https://www.ivsky.com/tupian/字母串/index

④如下所示設置過濾翻頁地址。其中\c表是一串小寫字母串

⑤翻頁鏈接關聯自身模板，在此進行如下設置。

⑥新建一個鏈接抽取，改名為抽取圖片列表鏈接。

采集預覽，打開圖片列表鏈接預覽界面，觀察圖片列表鏈接規律發現其規律為：

https://www.ivsky.com/tupian/一串小寫字母_一串小寫字母_v一串數字/

⑦其規律可表示為:https://www.ivsky.com/tupian/\c_\c_v\d/

\c:表示一個小寫

4.抽取圖片列表鏈接

①新建模板03，在該模板下新建一個數據抽取。

關聯數據表

②采集預覽，打開新建列表鏈接預覽界面，觀察圖片列表鏈接規律發現其規律為：

https://www.ivsky.com/tupian/一串字母_一串字母_v一串數字/pic_一串數字.html

③以上規律可表示為：https://www.ivsky.com/tupian/\c_\c_v\d/pic_\d.html，如下圖所示進行地址過濾。

5.數據抽取

①新建模板04，在其下新建一個數據抽取鏈接。

②將模板03的鏈接抽取關聯至模板04,。

③新建一個數據表單，具體步驟和字段屬性如下所示：

④關聯表單

⑤采集預覽，選擇任意一條圖片頁鏈接，在瀏覽器中打開。

⑥在頁面空白處，右鍵選中查看源文件。

⑦發現下圖所示位置的鏈接即為該圖片的鏈接，點擊即進入圖片頁

⑧編寫腳本抽取圖片數據，具體操作如下：

具體腳本文本如下：

var st= DOM.GetSource().ToStr();//獲取頁面源碼，并轉化為字符串格式
var b="https:"+st.Middle("\"imgis\" src='","'");//取源碼中圖片鏈接
var doc = EXTRACT.OpenDoc(CHANN, b, "");//打開圖片鏈接
var pic=doc.GetDom().GetSource( b);//取圖片鏈接頁面的源碼，即圖片
record re;//定義一個返回
re.tit=st.Middle("arctitle='","'");//取頁面源碼中的圖片名稱，并返回
re.ex=".jpg";//定義ex為jpg
re.pic=pic;//返回圖片
RESULT.AddRec(re,this.schemaid);//結束

⑨采集預覽，雙擊進入最后數據頁，下圖所示已經采集到圖片了。

l 采集步驟

模板配置完成，采集預覽沒有問題后，可以進行數據采集。

①首先要建立采集數據表：

選擇【數據建表】，點擊【表單列表】中該模板的表單，在【關聯數據表】中選擇【創建】，表名稱自定義，這里命名為【tiantang】（注意命名不能用數字和特殊符號），點擊【確定】。創建完成，勾選數據表，并點擊右上角保存按鈕。

②選擇【數據采集】，勾選任務名稱，點擊【開始采集】，則正式開始采集。

③采集及導出數據如下所示：

*本教程僅供學習交流，嚴禁用于商業用途！

咨詢電話(周一至周五9：00-18：00)

采集天堂圖片網圖片數據