目錄
    1.1.1 爬蟲能做什么?
    視頻教程:模板下載:

    1.爬蟲是什么?

    爬蟲是一個自動采集全網公開數據的軟件,它根據既定的抓取目標,有選擇的訪問網上的網頁與相關的鏈接,獲取所需要的信息。

     

    2.爬蟲可以采集的范圍

    凡是通過瀏覽器可以公開訪問的內容,都可以大批量采集下來。

    前嗅ForeSpider可以實現:

    (1)需要登錄或自動獲取cookie的網站

    前嗅ForeSpider支持自動登錄,自動獲取cookie信息。

    (2)需要輸入驗證碼采可見的數據

    可接入第三方打碼平臺,最多3秒自動返回打碼結果。

    (3)搜索欄檢索關鍵詞的數據

    支持各種搜索欄檢索關鍵詞,可批量導入數十萬關鍵詞。

    (4)各種協議的網站數據

    支持http、https、各類APP的協議等。

    (5)JavaScript和Ajax動態生成的內容

    支持所有JavaScript生成的動態內容。

    (6)需要用IP代理的網站

    支持IP代理,不用擔心封鎖IP。

    (7)post請求和get請求

    支持post請求和get請求的網頁。

    (8)OAuth認證

    支持OAuth認證的網頁。

    (9)搜索引擎全網數據挖掘

    可以通過一個模板,采集搜索引擎,挖掘所需數據。

    (10)采集境外網站

    可以采集境外的網站內容。

    (11)采集本地文件

    可采集本地文件的內容。

    (12)采集內網網站

    可采集內網網站的內容。

    (13)采集瀑布流翻頁

    可采集瀑布流翻頁的網站內容。

     

    3.爬蟲不能采集的范圍

    (1)非公開數據

    網絡爬蟲技術是一種批量數據下載技術,不是黑客技術,只能采集前端瀏覽器上能顯示的數據內容,對于網站的服務器后端數據,如用戶數據等,是不能采集的。

    對于需要賬號登錄才能查看的內容,如果您有賬號可以登錄,是可以采集該賬號下可見數據的;對于其他賬號下的內容,也同樣不能夠采集。

    (2)需要手機掃碼的數據

    對于需要掃碼后才能顯示的數據,無法實現批量采集。

    (3)對于賬號有權限限制的數據

    有些網站限制一個登錄賬號一天只能查看x條數據,如果用戶沒有多余的賬號,是無法突破這樣的限制的。

    (4)需要登錄,但是沒有賬號密碼

    有些網站登錄之后才可以看到信數據,沒有賬號和密碼,爬蟲是沒有權限進行此采集的。

    (5)需要付費的信息

    付費會員采集可以看到的數據,或者需要付費購買的數據,爬蟲沒有權限進行采集。

    (6)網站的后臺數據

    網站后臺的數據為非公開數據,爬蟲不能進行采集。

    (7)網站的注冊數據

    網站/APP等注冊用戶數據,屬于隱私數據,爬蟲不能進行采集。

    (8)其他涉及侵犯第三方版權的內容



    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡