目錄

    對需要采集的網站,首先梳理網站的層級結構,以確定在軟件中需要配置幾層模板。

    從網站入口頁到目標數據頁,一共需要跳轉幾層不同網頁結構的頁面,通常就需要幾層模板。每個模板代表了一個不同網頁結構層級的頁面,配置后就可以采集全站數據。

     

    列表頁1

    列表頁網頁結構如圖列表頁1所示,其對應創建的模板為:“默認模板:01”。

     

    數據頁1

    如圖數據頁1,數據頁網頁結構與列表頁1的網頁結構不同,則此時需新建模板:“默認模板:03”。


    1.添加模板

    在模板列表的右鍵菜單,點擊“添加采集模板”即可添加一層模板。

     

    添加采集模板

    點擊模板,會跳轉到該模板的配置界面,進行模板屬性的配置。


    模板配置界面


    2.抽取鏈接/數據

    根據頁面內容,確定每層模板的抽取目標,每層模板都可以創建多個抽取。

    ①抽取鏈接:需要抽取頁面上的鏈接時,選擇創建鏈接抽取。如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。

    ②抽取數據:需要抽取頁面上的數據時,選擇創建數據抽取。一個數據抽取對應著一張數據表,通常一個模板只需要一個數據抽取。

    如果需要添加新的鏈接抽取和數據抽取,可按下方如圖所示進行添加:

     

    添加鏈接抽取

     

    添加數據抽取


    3.示例地址

    示例地址是該模板眾多頁面的一個示例代表,以該網址作為樣例進行模板配置。通過對示例地址的配置,可以抓取與該地址在同一層級、具有相似結構的頁面數據。一個模板只能填寫一個示例地址。

    對于模板1和其他模板,示例地址的填寫有如下區別:

    模板01:示例地址默認填寫為該任務的采集地址。

    其它模板:手動從眾多網址中挑選一個粘貼進來。


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡