目錄
    批量采集網頁中的圖片數據
    視頻教程:模板下載:
     l 采集網站


    【場景描述】采集revisionvillage網頁中所有真題圖片的數據。
    【源網站介紹】revisionvillage,國外知名IB真題網站,每道題都有視頻講解的IB數學刷題網站。


    【使用工具】前嗅ForeSpider數據采集系統,免費下載:ForeSpider免費版本下載地址

    【入口網址】https://www.revisionvillage.com/ib-math-analysis-and-approaches-hl/questionbank/number-and-algebra/sequences-and-series/

    【采集內容】

    采集頁面中的真題圖片數據。

     


    【采集效果】如下圖所示:

     

     配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

     

    2.尋找圖片鏈接

    在瀏覽器中打開該頁面,點擊F12,選擇指針后,點擊頁面中的圖片位置,在源碼中找到圖片鏈接,如下圖所示:



    圖片鏈接如下圖所示:



    將圖片鏈接復制,在瀏覽器中打開,即為該圖片頁面:

     


    3. 查找圖片鏈接位置/規律

    觀察源碼發現,每一個真題在源碼中對應一個class,如下圖所示:紅框內表示真題1所對應的源碼,綠框內為所有真題的源碼,是從class為【et_builder_inner_content et_pb_gutters3】的子節點的下一個節點的下一個節點開始。




    第一真題所對應源碼打開以后,如下圖所示,觀察發現:圖片鏈接的位置在該節點的子節點的下一個節點的子節點的子節點的子節點的子節點的href值。

     


    4.數據抽取

    ①打開模板,新建一個數據抽取,如下圖所示:

     


    ②新建數據表,具體如下圖所示:



    ③關聯數據表

     


    ④打開腳本窗口,新建數據抽取腳本。



    ⑤根據圖片鏈接規律,編寫腳本如下所示:

     


    腳本文本:

    var a = DOM.FindClass("et_builder_inner_content et_pb_gutters3","div");//定義a為class為【et_builder_inner_content et_pb_gutters3】的節點

    var b = a.child.next.next.next;//定義b為a節點的子節點的下一個節點的下一個節點的下一個節點,即真題一所對應的源碼中的位置節點

    for(i=1;i<=32;i++){//寫一個for循環,來獲取每一個圖片

    record re;//返回數據固定搭配

    re.id = i;//范圍主鍵為i

    var c=b.child.next.child.child.child.href;//定義c為b節點的子節點的下一個節點的子節點的子節點的子節點的href屬性值,即獲取到圖片鏈接值

    var doc = EXTRACT.OpenDoc(CHANN,c, "");//打開圖片鏈接

    var p=doc.GetDom().GetSource(c);//定義p為圖片鏈接打開頁面中的源碼,即圖片

    re.pic=p;//返回pRe.ex=“.png”;//返回后綴為.png

    EXTRACT.CloseDoc(doc);//固定搭配,關閉圖片鏈接

    RESULT.AddRec(re,this.schemaid);//固定搭配,返回一個數據

    b=b.next;//b為b的下一個節點,即下一個圖片所對應源碼的位置節點

    }

    ⑥采集預覽

    發現圖片都采集出來了,說明配置成功。



     采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    1.建立數據表單

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為【ID】(注意命名不能用數字和特殊符號),點擊【確定】。創建完成,勾選數據表,并點擊右上角保存按鈕。

     

     

    2.開始采集

    選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     


    3.導出數據

    采集結束后,可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

     

     

    4.導出的文件打開如下圖所示

     


    本教程僅供教學使用,嚴禁用于商業用途!


    l 前嗅簡介

    前嗅大數據,國內領先的研發型大數據專家,多年來致力于為大數據技術的研究與開發,自主研發了一整套從數據采集、分析、處理、管理到應用、營銷的大數據產品。前嗅致力于打造國內第一家深度大數據平臺!


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡