為了在抽取的鏈接中去除無關鏈接,有兩種過濾方式,配置方式相同。
①地址過濾:通過url地址的規律,過濾無關鏈接。
選擇地址過濾,過濾方式為普通過濾,過濾規則為包含“/c/7”,過濾出需要的鏈接,最后點擊右上角的【采集預覽】查看是有內容。
【采集預覽】
②標題過濾:通過鏈接標題的規律,過濾無關鏈接。
1.地址/標題過濾的配置內容
序號 | 名稱 | 描述 |
1 | 過濾方式
| ①普通過濾:軟件自帶過濾方式,使用通配符作為過濾串進行過濾。 ②正則過濾:使用正則表達式進行過濾。 ③腳本過濾:利用內置腳本過濾字符串,點擊“創建腳本”編寫。 |
2 | 過濾規則
| ①包含:留下“包含過濾串”的鏈接。 ②排除:留下“不包含過濾串”的鏈接。 |
3 | 過濾串 | 填寫過濾串進行過濾。 |
2.過濾串規則說明
序號 | 過濾符 | 含義 | 舉例 |
1 | ; | 用“;”隔開多個過濾串,會過濾掉同時滿足各個過濾串的字符串,表示“與”。 | 過濾空鏈接/空標題,過濾串填“;”即可 |
2 | , | 表示“或”。 | 過濾**或**,甚至更多項時,在各項之間填寫“,”即可 |
( ) | 規則組合,規則優先 | 如果存在多個規則組合情況,將想要優先的規則用()標注,即可優先該規則 | |
^ | 表示“非”。過濾規則選擇“排除”,“排除非”表示“或”。 | 字符串abcde包含a或b:規則選擇“排除”,過濾串填“^a;^b” | |
\d | 表示一串(個)數字 | 如2015-10/26 => \d-\d/\d 如123456874 =>\d | |
\D | 表示時間、日期 | 如2015-10/26 => \D | |
\X(x) | 16進制數(0~9或A(a)~F(f)) | 31 => \x1F | |
\c | 表示一串(個)小寫字母 | news.xinhuanet.com => \c.\c.\c/\c | |
\C | 表示一串(個)大寫字母 | NEWS.XINHUANET.COM => \C.\C.\C | |
\s | 表示一串(個)有小寫或大寫字母的字符 | News.XinHuaNet.com => \s.\s.\s | |
\S | 表示一串(個)有小寫、大寫字母或數字的字符 | Politics2015-10/26 => \S-\d/\d | |
\w | 字母、數字、下劃線、減號、$ | Ern8_78wednfn=>\w | |
\e | 字符串終止符,表示過濾串后不包括其他文本 | News.XinHuaNet.com => \s.\s.\s\e | |
\E | 文件結束(忽略所有請求參數) | ||
\# | host過濾當前域名下 | 過濾當前域名,過濾串填“\#”即可 | |
\@ | 過濾當前目錄下 | 過濾當前目錄下鏈接,過濾串填“\@”即可 | |
\$ | 過濾一級域名 | 過濾一級域名,過濾串填寫“\$”即可 |