通常一個采集源對應著一個任務,如采集人民網,就創建一個任務叫人民網。
大量網站結構相似的采集源,可以放在同一個任務中,例如要同時采集100個結構相似網站,可以把網址粘到同一個任務的采集地址中。
【新建任務】
1.添加任務
點擊任務列表右側“”,新建一個任務。也可以通過右鍵或文件菜單,導入一個任務模板。
【添加任務】
2.填寫采集地址
在彈窗里填寫采集地址和任務名稱。
【填寫采集地址】
采集地址指的是采集對象的入口地址,即為該網頁鏈接(url地址)。以采集淘寶為例:
①采集整個淘寶網全部商品的信息,淘寶網首頁鏈接就是入口地址。
②只采集“女裝”類別的商品信息,“女裝”首頁鏈接就是入口地址。
③只采集某商品的評論信息,該商品的鏈接地址就是入口地址。
大多數情況下,采集地址只填寫一個url地址。如果鏈接的頁面結構和層級結構是一致的,能夠套用同一套采集模板進行采集,可填寫多個采集地址,中間用回車換行分隔。如果不一致,需要創建新的采集任務。
3.設置采集類型、關鍵詞、登錄
采集類型分為兩種:
①默認(html):采集網站、APP數據時選用。
②本地文件目錄:采集本地文件目錄的html和xml數據時選用。
③當采集的網站需要關鍵詞檢索時,勾選【關鍵詞采集】。
【選擇關鍵詞采集】
④當采集的網站需要登錄后才能采集時,需要勾選手動/自動登錄方式。
【登錄網站】
4.選擇當前頁面抽取內容
創建新的任務之后,點擊“下一步”,選擇頁面需要抽取的內容。
【選擇頁面抽取內容】
根據頁面內容,確定每層模板的抽取目標,每層模板都可以創建多個抽取。
①抽取鏈接:需要抽取頁面上的鏈接時,選擇創建鏈接抽取。如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。
【鏈接抽取】
②抽取數據:需要抽取頁面上的數據時,選擇創建數據抽取。
【數據抽取】
例如:
需要采集新聞的正文數據,而當前頁面是新聞首頁,匯集了新聞的鏈接,正文數據是通過點擊新聞鏈接才能進入的,所以本頁面需要選擇“抽取鏈接”中的“鏈接列表”。
【抽取鏈接】
點擊“完成”,軟件自動創建對應的抽取內容的模板。
【抽取模板】
軟件預置了一些常見的鏈接頁面場景,此時勾選鏈接列表,軟件會自動建立一個鏈接抽取。如需繼續添加抽取方式,可以自行手動進行添加。如下圖所示:
【添加抽取模板】