目錄
    采集天堂圖片網圖片數據
    視頻教程:模板下載:
    l 采集網站

    【場景描述】采集天堂圖片網上的所有的分類圖片數據。

    【源網站介紹】

    天堂圖片網是一個提供豐富圖片設計素材為的網站,網站內提供了清晰的圖片分類,范圍涵蓋人物、動物、植物、商務、生活、家居、體育、交通、廣告等素材圖片。

    【使用工具】前嗅ForeSpider數據采集系統,點擊下方鏈接可免費下載

    http://www.bendalayoga.com/view/forespider/view/download.html

    【入口網址】https://www.ivsky.com/tupian/fengjing_t2333/


    【采集內容】

    采集天堂圖片網所有分類圖片名稱和圖片。

     



     

    【采集效果】如下圖所示:

    l 思路分析

    配置思路概覽:

     

     

    l 配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

     

    2.獲取分類列表鏈接

    ①點擊采集預覽,觀察該頁面鏈接,發現分類鏈接的規律為:https://www.ivsky.com/tupian/字符串



    ②使用地址過濾的方法,將分類鏈接過濾出來。

    \c表示小寫字母的字符串,所以設置地址過濾包含:https://www.ivsky.com/tupian/\c/

     


    3.獲取翻頁&列表鏈接

    ①新建模板02,后在其下新建一個鏈接抽取,可修改名稱為翻頁鏈接。

     


    ②將模板01中的鏈接抽取,關聯到模板02中。



    ③采集預覽,觀察翻頁鏈接中均包含:

    https://www.ivsky.com/tupian/字母串/index  



    ④如下所示設置過濾翻頁地址。其中\c表是一串小寫字母串

     


    ⑤翻頁鏈接關聯自身模板,在此進行如下設置。

     


    ⑥新建一個鏈接抽取,改名為抽取圖片列表鏈接。

     


    采集預覽,打開圖片列表鏈接預覽界面,觀察圖片列表鏈接規律發現其規律為:

    https://www.ivsky.com/tupian/一串小寫字母_一串小寫字母_v一串數字/



    ⑦其規律可表示為:https://www.ivsky.com/tupian/\c_\c_v\d/

    \c:表示一個小寫

     


    4.抽取圖片列表鏈接

    ①新建模板03,在該模板下新建一個數據抽取。

     


    關聯數據表

     


    ②采集預覽,打開新建列表鏈接預覽界面,觀察圖片列表鏈接規律發現其規律為:

    https://www.ivsky.com/tupian/一串字母_一串字母_v一串數字/pic_一串數字.html

     


    ③以上規律可表示為:https://www.ivsky.com/tupian/\c_\c_v\d/pic_\d.html,如下圖所示進行地址過濾。

     



    5.數據抽取

    ①新建模板04,在其下新建一個數據抽取鏈接。

     


    ②將模板03的鏈接抽取關聯至模板04,。

     


    ③新建一個數據表單,具體步驟和字段屬性如下所示:

     


    ④關聯表單

     


    ⑤采集預覽,選擇任意一條圖片頁鏈接,在瀏覽器中打開。

     



    ⑥在頁面空白處,右鍵選中查看源文件。

     


    ⑦發現下圖所示位置的鏈接即為該圖片的鏈接,點擊即進入圖片頁

     

     

    ⑧編寫腳本抽取圖片數據,具體操作如下:

     


    具體腳本文本如下:

    var st= DOM.GetSource().ToStr();//獲取頁面源碼,并轉化為字符串格式
    var b="https:"+st.Middle("\"imgis\" src='","'");//取源碼中圖片鏈接
    var doc = EXTRACT.OpenDoc(CHANN, b, "");//打開圖片鏈接
    var pic=doc.GetDom().GetSource( b);//取圖片鏈接頁面的源碼,即圖片
    record re;//定義一個返回
    re.tit=st.Middle("arctitle='","'");//取頁面源碼中的圖片名稱,并返回
    re.ex=".jpg";//定義ex為jpg
    re.pic=pic;//返回圖片
    RESULT.AddRec(re,this.schemaid);//結束


    ⑨采集預覽,雙擊進入最后數據頁,下圖所示已經采集到圖片了。

     

     

    l 采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①首先要建立采集數據表:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【tiantang】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。

     


    ②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     


    ③采集及導出數據如下所示:

    *本教程僅供學習交流,嚴禁用于商業用途!


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡