目錄
    4.1.1 創建新任務
    視頻教程:模板下載:

    通常一個采集源對應著一個任務,如采集人民網,就創建一個任務叫人民網。

    大量網站結構相似的采集源,可以放在同一個任務中,例如要同時采集100個結構相似網站,可以把網址粘到同一個任務的采集地址中。

     


    新建任務


    1.添加任務

    點擊任務列表右側”,新建一個任務。也可以通過右鍵或文件菜單,導入一個任務模板。

     

    添加任務


    2.填寫采集地址

    在彈窗里填寫采集地址任務名稱。

     

    填寫采集地址


    采集地址指的是采集對象的入口地址,即為該網頁鏈接(url地址)。以采集淘寶為例:

    采集整個淘寶網全部商品的信息,淘寶網首頁鏈接就是入口地址。

    只采集“女裝”類別的商品信息,“女裝”首頁鏈接就是入口地址。

    只采集某商品的評論信息,該商品的鏈接地址就是入口地址。

    大多數情況下,采集地址只填寫一個url地址。如果鏈接的頁面結構和層級結構是一致的,能夠套用同一套采集模板進行采集,可填寫多個采集地址,中間用回車換行分隔。如果不一致,需要創建新的采集任務。


    3.設置采集類型、關鍵詞、登錄

    采集類型分為兩種

    默認(html):采集網站、APP數據時選用。

    本地文件目錄:采集本地文件目錄html和xml數據時選用。

    ③當采集的網站需要關鍵詞檢索時,勾選【關鍵詞采集】。

     


    【選擇關鍵詞采集】


    ④當采集的網站需要登錄后才能采集時,需要勾選手動/自動登錄方式。

     


    【登錄網站】


    4.選擇當前頁面抽取內容

    創建新的任務之后,點擊“下一步”,選擇頁面需要抽取的內容。

     

    【選擇頁面抽取內容】


    根據頁面內容,確定每層模板的抽取目標,每層模板都可以創建多個抽取。

    ①抽取鏈接:需要抽取頁面上的鏈接時,選擇創建鏈接抽取。如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。

    鏈接抽取


    ②抽取數據:需要抽取頁面上的數據時,選擇創建數據抽取。

     


    數據抽取


    例如:

    需要采集新聞的正文數據,當前頁面是新聞首頁,匯集了新聞的鏈接,正文數據是通過點擊新聞鏈接才能進入的,所以本頁面需要選擇“抽取鏈接”中的“鏈接列表”。

    【抽取鏈接】


    點擊“完成”,軟件自動創建對應的抽取內容的模板。

     

    【抽取模板


    軟件預置了一些常見的鏈接頁面場景,此時勾選鏈接列表,軟件會自動建立一個鏈接抽取。如需繼續添加抽取方式,可以自行手動進行添加。如下圖所示:

     

    添加抽取模板


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡