目錄
    6.2.3 加載日志宏
    視頻教程:模板下載:

    篩選符合條件的日志,對采集策略進行補充。通過加載日志宏,可以更加精確的確定下次采集的范圍。


     

    加載日志宏


    支持語法如下:

    1.size:網頁大小

    一般網頁大小過小的網頁,往往是被識別反爬后重定向了,但采集狀態仍然是正確(綠色)的。重采時可以篩選出質量小于一定大小的網頁進行重復采集。

    例如,加載所有網頁大小小于1k的日志:size<1024


            如果采集狀態是ok,但是頁面大小小于1kb,可能是被識別反爬后重定向了,重采時可以篩選出質量小于一定大小的網頁進行重復采集。如驗證碼跳出,則采集到的為驗證碼內容就不會采集正常的網頁內容了。


    2.id:網頁ID

    通過規定網頁ID可以補采某一部分網頁,比如認為數據從哪部分之后有問題了,就補采大于這個網頁ID的日志部分。

    例如,加載網頁大小小于10k并且網頁Id大于100的日志:size<10240 and id>100

    3.pid:來源ID


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡