< 返回ForeSpider介紹頁
ForeSpider數據采集引擎功能列表
數據采集范圍
功能分類功能點詳細介紹
支持的網站結構支持Ajax技術可采集Ajax網頁的內容
采集基于js頁面的數據可采集基于js頁面的內容
采集post請求數據可采集post請求中的內容
采集get請求數據可采集get請求中的內容
采集需要cookie的網站可采集需要cookie的網站
自動解析JS啟用JavaScrIPt功能即可自動解析頁面JS
網頁源碼智能解碼設置網頁編碼,即可自動解碼
OAuth認證采集OAuth認證的網站
采集境外網站可采集境外網站
采集本地文件可采集本地文件內容
采集內網網站可采集內網網站
采集APP軟件數據可采集各類APP軟件的數據
登錄采集可采集需要登錄的網站
關鍵詞采集可采集關鍵詞搜索出來的內容
瀑布流翻頁采集可采集瀑布流翻頁的網站
瀏覽器采集可模擬瀏覽器點擊采集
采集批量數據源網站可配置一個模板采集成千上萬個網站
支持的數據格式采集外部數據源采集時可調用本數據庫中的其他數據表,或其他數據庫/服務器中的數據,作為采集關鍵詞、數據源地址等
采集視頻可采集網頁中的視頻
采集直播可采集網頁中正在直播的視頻
采集音頻可采集網頁中的音頻
采集圖片可采集網頁中的圖片
采集pdf文件可采集網頁中的pdf文件
采集word文件可采集網頁中的word文件
采集表格文件可采集網頁中的表格
采集各種附件可采集網頁中的各類附件
多場景輕松配置
功能分類功能點詳細介紹
登錄配置登錄配置可自動配置,也可手動配置
自動生成cookie可自動生成cookie,獲取數據
手動配置cookie對于需要cookie的網站,可手動添加cookie,獲取數據
關鍵詞配置關鍵詞配置可進行關鍵詞配置,可在高級配置中配置各項參數
批量導入、修改關鍵詞批量導入刪除、修改關鍵詞
關鍵詞自動排重批量關鍵詞自動排重
鏈接抽取過濾定位過濾鏈接根據網頁位置,抽取固定位置的鏈接
地址過濾鏈接根據網址規律,抽取特定規律的鏈接
標題過濾鏈接根據網址標題規律,抽取符合標題規律的鏈接
智能拼接鏈接根據網站規律,高級設置鏈接參數,快速拼接鏈接
數據抽取過濾定位取值抽取特定位置的數據
節點取值抽取網頁源碼中特定節點的數據
特征定位根據正文文本特征,自動定位抽取數據
智能識別正文可智能識別數據頁正文內容
智能識別標題可智能識別數據頁標題
自動獲取網頁title可自動獲取數據頁title
自動獲取網頁時間可自動獲取網頁更新時間
自動獲取采集時間可自動獲取采集時間
自動獲取頁面源碼自動獲取頁面源碼
自動識別列表數據自動識別網頁中列表鏈接的內容并抽取數據。
智能獲取節點屬性值可智能獲取頁面源碼中某一節點屬性值,如href中的鏈接地址
智能提取其他頁面數據可智能提取其他頁面的數據,將其他頁數據存儲到本頁的數據表中
支持UTF-8與GBK相互轉碼可以將頁面源碼中的UTF-8與GBK相互轉碼
挖掘清洗分類支持數據分析功能可對采集到的數據進行分析
挖掘特征數據根據某類特征挖掘數據
智能清洗數據根據數據規律,智能清洗不需要的文本內容
自定義主題識別按照需求自動識別文本主題,并分類采集存儲
條件篩選自定義采集視頻大小及時長設置采集視頻的大小及時長,采集符合要求的視頻數據
自定義采集文件大小設置采集文件的大小,采集符合要求的文件數據
過濾采集文件類型設置采集文件的類型,采集該類型的文件數據
采集特定時間段數據采集網站中指定時間段內的數據
采集預覽模板預覽在配置過程中預覽某層模板的采集效果,及時調整提高配置效率
檢測鏈接抽取在配置中可隨時查看鏈接抽取準確性,調整過濾規則
檢測數據抽取在配置中可隨時查看數據抽取準確性
批量智能配置配置繼承共享子模板共享父模板內容
配置映射共享不同模板之間通過映射靈活共享共同配置部分
關聯外部數據源關鍵詞、采集源,數據匹配入庫等均能關聯外部數據源進行數據匹配
AI配置批量網站智能配置成千上萬的結構類似的網站
模板復制粘貼將已配置好的模板層級,復制并粘貼到需要的新模板中,提高配置效率
表結構可復用不同網站可重復使用同一表結構,無需重建表結構
普適化運行設置
模板導入/出導出采集模板可將配置好的采集模板導出
導入采集模板/出可將配置好的采集模板導入
靈活調速自定義設置采集速度自定義采集速度,采集速度最高可達8000萬條/天
自定義調整采集線程自定義調整線程
動態調整采集速度可直接在采集過程中調整采集速度,無需終止任務
動態調整采集線程可直接在采集過程中調整采集線程,無需終止任務
瀏覽器加速加載時自動過濾頁面中的非html文件,加速加載和運行
定時采集間隔定時采集設定間隔時間,實現固定間隔時間的采集開啟/關閉
定點定時采集設定爬蟲自動開始/關閉的時間
自定義采集策略增量采集增量采集網頁更新數據,不重復采集/天
查漏采集運行中網絡錯誤、入庫錯誤的請求,查漏再次采集,更新補充保證采集數據的完整性
繼續采集繼續運行上次未完成的采集任務
全部重采重新運行全部采集任務
自定義請求上限設置請求上限,達到上限后停止采集
加載日志宏設置日志加載命令,使日志按照命令執行
運行排重運行列表排重運行時對請求進行排重處理,防止重復采集數據
加載超時設置自定義超時時間設置發送超時和請求超時最大時長,有效防止因網絡等原因導致的,超時請求發送或接收數據失敗的情況
超時重試次數設置設置超時重試次數,可在超過設置的時間后多次重試
模擬瀏覽器模擬瀏覽器版本自定義設置運行時使用的瀏覽器版本
自定義User-Agent自定義User-Agent,模仿蜘蛛采集
異常錯誤處理網絡異常預警運行時遇到因網絡異常而導致的請求失敗,系統會自動預警
錯誤處理模板運行中錯誤的請求返回指指定模板中再次運行,大大提高采集效率
運行進度監控采集日志記錄記錄運行過程中所有請求日志
日志導入/導出導出、導入日志
日志統計統計日志數據
自動保存任務進度出現異常情況時,自動保存任務進度,重新開啟后可繼續采集
采集順序多網站采集同時采集多個網站/模板
多網站同步采集將所有任務的所有日志都裝載完再開始采集??梢员WC順序和排重。
多網站異步采集邊加載邊采集,優點是開始采集會比較快,等待時間短,缺點是無法保證順序和排重。
智能自檢系統配置檢測采集前運行自檢,可清楚查看配置設置是否達到最佳狀態
多策略反爬設置
反爬預警網絡異常識別自定義網絡異常識別次數,當達到次數時,會自動提醒
反爬識別自定義反爬識別次數,當達到次數時,會自動提醒
自定義預警操作可自行選擇預警操作,包括:暫停、自動休眠、自動更換代理IP等
反爬提醒可自行選擇提醒方式,包括:圖標閃爍、彈窗等待等
代理IP設置接入動靜態代理IP可接入第三方代理IP,動態和靜態均可
代理IP測試接入第三方代理IP后,可測試其有效性
反爬自動更換代理IP運行時,自動識別反爬并自動更換代理IP
代理IP優化優化無效代理,優化響應過慢代理
多通道采集多線程采集時,真實模擬多個通道進行采集的過程
動態IP鎖定將動態IP與運行時獲取一條數據的一組請求鎖定,更真實的模擬IP獲取數據的過程
全局代理IP設置設置全局代理IP
登錄反爬模擬多賬號登錄模擬多賬號登錄,用于封號的反爬策略
請求數限制自定義請求上限設置請求上限,達到上限后停止采集
驗證碼反爬支持批量識別驗證碼可接入第三方打碼平臺,批量識別驗證碼,解決網頁驗證碼問題
數據存儲與導出
導出格式多樣化導出為csv將數據導出為csv格式
導出為txt將數據導出為txt格式
導出為xls將數據導出為xls格式
導出圖片將采集到的圖片自定義命名字段,導出到指定文檔中
導出視頻將采集到的視頻自定義命名字段,導出到指定文檔中
導出附件將采集到的附件(pdf、word、xls等)自定義命名字段,導出到指定文檔中
局部導出導出指定范圍數據導出指定范圍的數據
導出指定字段導出指定字段的數據
自定義文件命名字段自定義文件命名字段
分組導出自定義文件夾分組導出將指定范圍的數據,分組導出到自命名的不同文件夾中
篩選檢索按字段檢索關鍵詞檢索某一字段
全文檢索關鍵詞檢索全部數據
按字段檢索并導出關鍵詞檢索某一字段,并導出符合的數據
全文檢索并導出關鍵詞檢索全部數據,并導出符合的數據
按字段檢索并刪除數據關鍵詞檢索某一字段,并刪除檢索出的數據
全文檢索并刪除數據關鍵詞檢索全部數據,并刪除檢索出的數據
存儲功能自定義新增數據存儲規則可設置不同的數據存儲形式:僅更新新增數據、實時采集最新數據并覆蓋舊數據、實時采集所有采集數據等。
數據自動排重自定義排重字段,根據字段內容進行排重存儲
多個網站數據統一存儲多網站數據同時采集并存儲到同一個數據表中
多網站數據獨立存儲多網站同時采集單獨存儲到不同數據表中
自帶數據庫系統默認數據庫為ForeLib數據庫
支持Mysql數據庫可關聯Mysql數據庫,將數據實時采集到Mysql數據庫中
支持Access數據庫可關聯Access數據庫,將數據實時采集到Access數據庫中
支持SQL Server數據庫可關聯SQL Server數據庫,將數據實時采集到SQL Server數據庫中
連接外部服務器存儲連接外部服務器,將數據直接存儲到外部服務器中
數據推送發布
挖掘清洗推送時挖掘數據在推送的同時,對文本進行特征挖掘提取
推送時清洗數據在推送的同時,對數據按照規律進行清洗
推送時間設置推送時間設置將采集到的數據定時推送
實時推送實時推送采集到的數據
推送方式設置郵件推送通過郵件推送數據
http/https推送通過http/https推送數據
定制接口推送通過定制接口推送數據
數據庫推送將數據推送到指定數據庫
極速采集
并行采集流數據并行采集視頻文件并行下載多個視頻文件,加快下載速度
并行下載附件并行下載多個附件文件,加快下載速度
多進程采集多進程多線程運行可同時運行多進程和多個線程,加快采集速度
多網站智能管理多網站采集獨立管理同時運行多個網站時,可獨立方便管理
多網站定時采集獨立管理同時運行多個網站時,獨立對各網站進行定時管理
多網站日志獨立管理同時運行多個網站時,日志獨立管理
采集批量網站無上限可同時采集成千上萬個網站,沒有上限
自研內核引擎JS引擎內核采集引擎完全由C++編寫,不同于瀏覽器采集,單機采集速度最高可達400萬條/天
CSS引擎擁有CSS引擎,可對快速解析網頁中CSS數據,高效采集
DOM樹解析引擎擁有DOM樹解析引擎,對網頁中DOM樹結構快速解析
分布式引擎分布式引擎,可實現多機集群采集
女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡