高級選項不常用,其具體說明如下:
【模板的高級選項】
1. 字符編碼
默認自動識別。如果該頁面未能自動識別發生亂碼,需要自行選擇字符編碼??梢赃x擇GBK或UTF-8。
2. 文檔類型
默認自動識別。可以選擇采集xml文檔。
3. 網頁類型
適用于一個模板配置大批量網站的情況(可導入上萬個采集地址),選擇類型后,可以自動過濾不屬于該類型的網頁,從而達到快速配置的目的。
4. 主題過濾
自動識別網頁的語義,進行文本自動分類和主題歸納??梢杂糜诓杉承╊悇e的數據,過濾掉不屬于某些類別的數據。(如有需求請聯系我們)
5. 未匹配處理模板
適用于一個模板配置大批量網站的情況,當有頁面不符合匹配的類型被過濾掉后,可以在此選擇一個針對未匹配頁面的處理模板,進入其他處理流程。
6. 采集錯誤處理模板
適用于因網站反爬或網絡不穩定等原因導致的經常有采集失敗的情況,在此配置采集錯誤處理模板,當有采集失敗的情況時,失敗鏈接將繼續在錯誤處理模板中運行,進而提高采集成功率。