目錄
    1.2.3 采集配置思路
    視頻教程:模板下載:

    一.判斷網站結構,確定模板層級

    對需要采集的網站,首先梳理網站的層級結構,以確定在軟件中需要配置幾層模板。

    從網站入口頁到目標數據頁,一共需要跳轉幾層頁面,通常就需要幾層模板。每個模板代表了一個層級的頁面,配置后就可以采集全站數據。以下列舉了幾種常見的層級情況:

    1.一層模板案例

    采集【表格/列表】的數據

    2.兩層模板案例

    通過【鏈接列表】采集【數據詳情】

    采集【鏈接列表】和【數據詳情】的數據

    通過關鍵詞的【檢索列表】采集【檢索結果】

    3.三層及以上模板案例

    從【欄目分類頁】進【鏈接列表頁】采集【數據詳情頁】

    從【商城首頁】進【商品列表頁】采集【商品頁】和【店鋪詳情】

    二.確定每層的抽取目標

    根據頁面內容,確定每層模板的抽取目標,每層模板都可以創建多個抽取。

    ①抽取鏈接:需要抽取頁面上的鏈接時,選擇創建鏈接抽取。如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。

    ②抽取數據:需要抽取頁面上的數據時,選擇創建數據抽取。

    三.抽取鏈接

    1.獲取鏈接

    通常我們需要的并不是頁面的全部鏈接,所以要過濾出我們所需要的鏈接。具體通過三種方式可以實現:智能過濾、定位過濾、地址/標題過濾。

    2.選擇關聯模板

    每個“鏈接抽取”都需要關聯一個模板,將抽取出的鏈接形成完整的跳轉關系。選擇方法:

    選擇下一層級頁面對應的模板,點擊鏈接打開的一層頁面對應的模板。

    ①翻頁的鏈接抽?。宏P聯自身的模板。

    ②其他類型鏈接抽?。和ǔjP聯后一個模板。

    通過模板之間的關聯,可以將網站各層級頁面關聯起來,在軟件中形成與瀏覽器相同的跳轉結構,從而完整的采集數據。

     

    ※判斷鏈接是否可以可視化實現:

    在不進行過濾的情況下,直接采集預覽,出現了目標鏈接。

    ※如果可視化采集不到:

    通過瀏覽器F12工具,配合腳本教程,寫腳本采集。

    或聯系我們。

    四.抽取數據

    1.設計表單結構

    數據采集后存入數據庫,需要設計數據表單結構,可以理解為excel表格中的表頭。ForeSpider中,不同的任務可以使用同一個表結構,創建任意多個數據表。

    2.抽取數據

    采集網頁上的數據,存入設計好的表結構中。獲取方式有三種:

    ①通過定位選區獲取

    選中表單字段后,在網頁中選中對應選區,確認選區。

     



    ②自動獲取預設值:軟件預設了很多采集內容,直接選擇即可獲取到數據。比如采集時間、網頁標題等。

     


    ③腳本獲?。簩τ诳梢暬杉坏降臄祿?,需要編寫腳本。

    五.采集數據

    創建數據表,進行相關的運行設置后,即可采集數據。


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡