1.爬蟲是什么?
爬蟲是一個自動采集全網公開數據的軟件,它根據既定的抓取目標,有選擇的訪問網上的網頁與相關的鏈接,獲取所需要的信息。
2.爬蟲可以采集的范圍
凡是通過瀏覽器可以公開訪問的內容,都可以大批量采集下來。
前嗅ForeSpider可以實現:
(1)需要登錄或自動獲取cookie的網站
前嗅ForeSpider支持自動登錄,自動獲取cookie信息。
(2)需要輸入驗證碼采可見的數據
可接入第三方打碼平臺,最多3秒自動返回打碼結果。
(3)搜索欄檢索關鍵詞的數據
支持各種搜索欄檢索關鍵詞,可批量導入數十萬關鍵詞。
(4)各種協議的網站數據
支持http、https、各類APP的協議等。
(5)JavaScript和Ajax動態生成的內容
支持所有JavaScript生成的動態內容。
(6)需要用IP代理的網站
支持IP代理,不用擔心封鎖IP。
(7)post請求和get請求
支持post請求和get請求的網頁。
(8)OAuth認證
支持OAuth認證的網頁。
(9)搜索引擎全網數據挖掘
可以通過一個模板,采集搜索引擎,挖掘所需數據。
(10)采集境外網站
可以采集境外的網站內容。
(11)采集本地文件
可采集本地文件的內容。
(12)采集內網網站
可采集內網網站的內容。
(13)采集瀑布流翻頁
可采集瀑布流翻頁的網站內容。
3.爬蟲不能采集的范圍
(1)非公開數據
網絡爬蟲技術是一種批量數據下載技術,不是黑客技術,只能采集前端瀏覽器上能顯示的數據內容,對于網站的服務器后端數據,如用戶數據等,是不能采集的。
對于需要賬號登錄才能查看的內容,如果您有賬號可以登錄,是可以采集該賬號下可見數據的;對于其他賬號下的內容,也同樣不能夠采集。
(2)需要手機掃碼的數據
對于需要掃碼后才能顯示的數據,無法實現批量采集。
(3)對于賬號有權限限制的數據
有些網站限制一個登錄賬號一天只能查看x條數據,如果用戶沒有多余的賬號,是無法突破這樣的限制的。
(4)需要登錄,但是沒有賬號密碼
有些網站登錄之后才可以看到信數據,沒有賬號和密碼,爬蟲是沒有權限進行此采集的。
(5)需要付費的信息
付費會員采集可以看到的數據,或者需要付費購買的數據,爬蟲沒有權限進行采集。
(6)網站的后臺數據
網站后臺的數據為非公開數據,爬蟲不能進行采集。
(7)網站的注冊數據
網站/APP等注冊用戶數據,屬于隱私數據,爬蟲不能進行采集。
(8)其他涉及侵犯第三方版權的內容