由于網站防爬功能日益加強,如果只用一個本地IP采集的話很容易被封IP,導致無法正常訪問網頁,所以為了防止被網站發現是機器在取數據,需要不斷的更換IP,這個時候就用到了代理IP。
1.判斷網站是否需要代理
①采集各大著名網站基本都需要代理IP。
②使用1個線程采集都會封IP的網站,需要使用代理IP。
③需要提高采集速度,但是一提高就會封IP的網站。
2.計算需要購買多少代理IP
①根據網站的反爬程度,大致得出一個封IP的嚴重程度。
②先少購買一點代理IP,首先放慢速度采集,調低線程數目和采集間隔,采集狀態正常就調高一點,慢慢找到臨界狀態,然后穩定在這個速度。
③如需提升采集速度,則按照上述測算出的速度和IP量的比例,同比計算。
3.購買動態還是靜態代理
購買哪種代理要根據網站的情況。
①動態代理:大部分網站都可以用動態代理,通常按切換頻率、提取數量和使用時長計費。動態代理可以按照一定頻率和數量自動從IP池中切換,重復率低,價格略高。
②靜態代理:靜態代理不自動切換,通常按量和時長購買,當網站在Cookie中記錄了訪問者的IP時,不能用動態代理,需要使用靜態代理。
4.購買http還是https代理
看網站的網址是http還是https開頭的,對應買相應的代理。
IP是上網需要唯一的身份地址,身份憑證,而代理IP就是我們上網過程中的一個中間平臺,是由本機電腦先訪問代理IP,之后再由代理IP訪問目標網站頁面,所以在這個頁面的訪問記錄里留下的是就是代理IP的地址,而不是本機IP。代理IP根據協議可分為http協議代理、https協議代理和socket5代理。
5.VPN與代理IP有什么區別
VPN一般僅有一個IP,不適宜用于爬蟲采集。