目錄
    4.5.4 鏈接抽取的地址/標題過濾
    視頻教程:模板下載:

    為了在抽取的鏈接中去除無關鏈接,有兩種過濾方式,配置方式相同。

    ①地址過濾:通過url地址的規律,過濾無關鏈接。


     


    選擇地址過濾,過濾方式為普通過濾,過濾規則為包含“/c/7”,過濾出需要的鏈接,最后點擊右上角的【采集預覽】查看是有內容。


     【采集預覽】


    ②標題過濾:通過鏈接標題的規律,過濾無關鏈接。


    1.地址/標題過濾的配置內容


    序號

    名稱

    描述

    1

    過濾方式

     

    ①普通過濾:軟件自帶過濾方式,使用通配符作為過濾串進行過濾。

    ②正則過濾:使用正則表達式進行過濾。

    ③腳本過濾:利用內置腳本過濾字符串,點擊“創建腳本”編寫。

    2

    過濾規則

     

    ①包含:留下“包含過濾串”的鏈接。

    ②排除:留下“不包含過濾串”的鏈接。

    3

    過濾串

    填寫過濾串進行過濾。



    2.過濾串規則說明 


    序號

    過濾符

    含義

    舉例

    1

    ;

    “;”隔開多個過濾串,會過濾掉同時滿足各個過濾串的字符串,表示“與”。

    過濾空鏈接/空標題,過濾串填“;”即可

    2

    ,

    表示“或”。

    過濾**或**,甚至更多項時,在各項之間填寫“,”即可


    規則組合,規則優先

    如果存在多個規則組合情況,將想要優先的規則用()標注,即可優先該規則


    ^

    表示“非”。過濾規則選擇“排除”,“排除非”表示“或”。

    字符串abcde包含a或b:規則選擇“排除”,過濾串填“^a;^b”


    \d

    表示一串(個)數字

    2015-10/26  =>  \d-\d/\d

    123456874 =>\d


    \D

    表示時間、日期

    2015-10/26  => \D


    \X(x)

    16進制數(0~9或A(a)~F(f))

    31  =>  \x1F


    \c

    表示一串(個)小寫字母

    news.xinhuanet.com  =>  \c.\c.\c/\c


    \C

    表示一串(個)大寫字母

    NEWS.XINHUANET.COM  =>  \C.\C.\C


    \s

    表示一串(個)有小寫或大寫字母的字符

    News.XinHuaNet.com  =>  \s.\s.\s


    \S

    表示一串(個)有小寫、大寫字母或數字的字符

    Politics2015-10/26  =>  \S-\d/\d


    \w

    字母、數字、下劃線、減號、$

    Ern8_78wednfn=>\w


    \e

    字符串終止符,表示過濾串后不包括其他文本

    News.XinHuaNet.com  =>  \s.\s.\s\e


    \E

    文件結束(忽略所有請求參數)



    \#

    host過濾當前域名下

    過濾當前域名,過濾串填“\#”即可


    \@

    過濾當前目錄下

    過濾當前目錄下鏈接,過濾串填“\@”即可


    \$

    過濾一級域名

    過濾一級域名,過濾串填寫“\$”即可


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡