目錄
    4.5.1 創建鏈接抽取
    視頻教程:模板下載:

    通過點擊按鈕添加鏈接抽取,每個鏈接抽取可以抽取該模板的一類鏈接。每層模板都可以創建多個抽取。例如抽取該頁面的鏈接列表和翻頁,則創建兩個鏈接抽取。

     

    添加鏈接抽取


    1.關聯模板

    “鏈接抽取”抽出鏈接,需要采集這些鏈接所在的頁面。我們從這些鏈接中,選擇其中一個作為下一層模板的示例地址,通過關聯模板,可以將兩個模板連接起來,實現頁面的跳轉。

    在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同,因此可以完整的采集數據。


     

    【關聯模板】


    ⑴.關聯方式

    ①自動關聯:軟件會根據用戶創建模板的情況,幫助用戶自動關聯。

    ②手動關聯:用戶可在鏈接抽取節點進行手動關聯。


     

    【關聯模板】


    .關聯模板的實例

    ①在軟件中模板的關聯關系,與網頁中鏈接跳轉的關系相同。如模板一的示例地址為:http://news.ifeng.com/o/dynpage/64-/1/plist.shtml


     

    模板一地址


    ②通過模板一示例地址,點擊模板一中任意一條鏈接,進入需要采集數據的頁面,該頁面鏈接即為模板二的示例地址。


     

    模板二地址


    ③所以此時模板一中的鏈接抽取,需要關聯模板二。

     

    模板關聯

     

    2.預覽過濾效果

    添加鏈接抽取后,點擊軟件右上角的“采集預覽”按鈕,彈出采集預覽結果。在沒有進行過濾的情況下,會采集到該地址下所有的鏈接信息。(如果沒有創建鏈接抽取,就無法看到預覽結果

     

    采集預覽

    通過采集預覽可以幫助判斷:

    ①該頻道是否可以通過可視化采集。

    如果沒有任何預覽結果,或者在瀏覽器上有某些鏈接而這里沒有,說明這些鏈接可能是由JavaScript生成的,需要寫腳本才能采集。

    ②需要過濾哪些鏈接。

    網站上會有一些與采集需求無關的鏈接,如“收藏本頁”、“登錄”等,為了提升采集的速度和精度,需要過濾無關的鏈接。通過使用下文介紹的過濾方式來過濾鏈接。


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡