022-2345 2937
185 2247 0110
business@forenose.com
QQ:2779623375
用戶QQ群3:606835039
用戶QQ群4:795287153
訂閱號
服務號
客服微信:qianxiu0106
ForeSpider
數據采集引擎
數據采集范圍 | ||
---|---|---|
功能分類 | 功能點 | 詳細介紹 |
支持的網站結構 | 支持Ajax技術 | 可采集Ajax網頁的內容 |
采集基于js頁面的數據 | 可采集基于js頁面的內容 | |
采集post請求數據 | 可采集post請求中的內容 | |
采集get請求數據 | 可采集get請求中的內容 | |
采集需要cookie的網站 | 可采集需要cookie的網站 | |
自動解析JS | 啟用JavaScrIPt功能即可自動解析頁面JS | |
網頁源碼智能解碼 | 設置網頁編碼,即可自動解碼 | |
OAuth認證 | 采集OAuth認證的網站 | |
采集境外網站 | 可采集境外網站 | |
采集本地文件 | 可采集本地文件內容 | |
采集內網網站 | 可采集內網網站 | |
采集APP軟件數據 | 可采集各類APP軟件的數據 | |
登錄采集 | 可采集需要登錄的網站 | |
關鍵詞采集 | 可采集關鍵詞搜索出來的內容 | |
瀑布流翻頁采集 | 可采集瀑布流翻頁的網站 | |
瀏覽器采集 | 可模擬瀏覽器點擊采集 | |
采集批量數據源網站 | 可配置一個模板采集成千上萬個網站 | |
支持的數據格式 | 采集外部數據源 | 采集時可調用本數據庫中的其他數據表,或其他數據庫/服務器中的數據,作為采集關鍵詞、數據源地址等 |
采集視頻 | 可采集網頁中的視頻 | |
采集直播 | 可采集網頁中正在直播的視頻 | |
采集音頻 | 可采集網頁中的音頻 | |
采集圖片 | 可采集網頁中的圖片 | |
采集pdf文件 | 可采集網頁中的pdf文件 | |
采集word文件 | 可采集網頁中的word文件 | |
采集表格文件 | 可采集網頁中的表格 | |
采集各種附件 | 可采集網頁中的各類附件 |
多場景輕松配置 | ||
---|---|---|
功能分類 | 功能點 | 詳細介紹 |
登錄配置 | 登錄配置 | 可自動配置,也可手動配置 |
自動生成cookie | 可自動生成cookie,獲取數據 | |
手動配置cookie | 對于需要cookie的網站,可手動添加cookie,獲取數據 | |
關鍵詞配置 | 關鍵詞配置 | 可進行關鍵詞配置,可在高級配置中配置各項參數 |
批量導入、修改關鍵詞 | 批量導入刪除、修改關鍵詞 | |
關鍵詞自動排重 | 批量關鍵詞自動排重 | |
鏈接抽取過濾 | 定位過濾鏈接 | 根據網頁位置,抽取固定位置的鏈接 |
地址過濾鏈接 | 根據網址規律,抽取特定規律的鏈接 | |
標題過濾鏈接 | 根據網址標題規律,抽取符合標題規律的鏈接 | |
智能拼接鏈接 | 根據網站規律,高級設置鏈接參數,快速拼接鏈接 | |
數據抽取過濾 | 定位取值 | 抽取特定位置的數據 |
節點取值 | 抽取網頁源碼中特定節點的數據 | |
特征定位 | 根據正文文本特征,自動定位抽取數據 | |
智能識別正文 | 可智能識別數據頁正文內容 | |
智能識別標題 | 可智能識別數據頁標題 | |
自動獲取網頁title | 可自動獲取數據頁title | |
自動獲取網頁時間 | 可自動獲取網頁更新時間 | |
自動獲取采集時間 | 可自動獲取采集時間 | |
自動獲取頁面源碼 | 自動獲取頁面源碼 | |
自動識別列表數據 | 自動識別網頁中列表鏈接的內容并抽取數據。 | |
智能獲取節點屬性值 | 可智能獲取頁面源碼中某一節點屬性值,如href中的鏈接地址 | |
智能提取其他頁面數據 | 可智能提取其他頁面的數據,將其他頁數據存儲到本頁的數據表中 | |
支持UTF-8與GBK相互轉碼 | 可以將頁面源碼中的UTF-8與GBK相互轉碼 | |
挖掘清洗分類 | 支持數據分析功能 | 可對采集到的數據進行分析 |
挖掘特征數據 | 根據某類特征挖掘數據 | |
智能清洗數據 | 根據數據規律,智能清洗不需要的文本內容 | |
自定義主題識別 | 按照需求自動識別文本主題,并分類采集存儲 | |
條件篩選 | 自定義采集視頻大小及時長 | 設置采集視頻的大小及時長,采集符合要求的視頻數據 |
自定義采集文件大小 | 設置采集文件的大小,采集符合要求的文件數據 | |
過濾采集文件類型 | 設置采集文件的類型,采集該類型的文件數據 | |
采集特定時間段數據 | 采集網站中指定時間段內的數據 | |
采集預覽 | 模板預覽 | 在配置過程中預覽某層模板的采集效果,及時調整提高配置效率 |
檢測鏈接抽取 | 在配置中可隨時查看鏈接抽取準確性,調整過濾規則 | |
檢測數據抽取 | 在配置中可隨時查看數據抽取準確性 | |
批量智能配置 | 配置繼承共享 | 子模板共享父模板內容 |
配置映射共享 | 不同模板之間通過映射靈活共享共同配置部分 | |
關聯外部數據源 | 關鍵詞、采集源,數據匹配入庫等均能關聯外部數據源進行數據匹配 | |
AI配置批量網站 | 智能配置成千上萬的結構類似的網站 | |
模板復制粘貼 | 將已配置好的模板層級,復制并粘貼到需要的新模板中,提高配置效率 | |
表結構可復用 | 不同網站可重復使用同一表結構,無需重建表結構 |
普適化運行設置 | ||
---|---|---|
模板導入/出 | 導出采集模板 | 可將配置好的采集模板導出 |
導入采集模板/出 | 可將配置好的采集模板導入 | |
靈活調速 | 自定義設置采集速度 | 自定義采集速度,采集速度最高可達8000萬條/天 |
自定義調整采集線程 | 自定義調整線程 | |
動態調整采集速度 | 可直接在采集過程中調整采集速度,無需終止任務 | |
動態調整采集線程 | 可直接在采集過程中調整采集線程,無需終止任務 | |
瀏覽器加速 | 加載時自動過濾頁面中的非html文件,加速加載和運行 | |
定時采集 | 間隔定時采集 | 設定間隔時間,實現固定間隔時間的采集開啟/關閉 |
定點定時采集 | 設定爬蟲自動開始/關閉的時間 | |
自定義采集策略 | 增量采集 | 增量采集網頁更新數據,不重復采集/天 |
查漏采集 | 運行中網絡錯誤、入庫錯誤的請求,查漏再次采集,更新補充保證采集數據的完整性 | |
繼續采集 | 繼續運行上次未完成的采集任務 | |
全部重采 | 重新運行全部采集任務 | |
自定義請求上限 | 設置請求上限,達到上限后停止采集 | |
加載日志宏 | 設置日志加載命令,使日志按照命令執行 | |
運行排重 | 運行列表排重 | 運行時對請求進行排重處理,防止重復采集數據 |
加載超時設置 | 自定義超時時間 | 設置發送超時和請求超時最大時長,有效防止因網絡等原因導致的,超時請求發送或接收數據失敗的情況 |
超時重試次數設置 | 設置超時重試次數,可在超過設置的時間后多次重試 | |
模擬瀏覽器 | 模擬瀏覽器版本 | 自定義設置運行時使用的瀏覽器版本 |
自定義User-Agent | 自定義User-Agent,模仿蜘蛛采集 | |
異常錯誤處理 | 網絡異常預警 | 運行時遇到因網絡異常而導致的請求失敗,系統會自動預警 |
錯誤處理模板 | 運行中錯誤的請求返回指指定模板中再次運行,大大提高采集效率 | |
運行進度監控 | 采集日志記錄 | 記錄運行過程中所有請求日志 |
日志導入/導出 | 導出、導入日志 | |
日志統計 | 統計日志數據 | |
自動保存任務進度 | 出現異常情況時,自動保存任務進度,重新開啟后可繼續采集 | |
采集順序 | 多網站采集 | 同時采集多個網站/模板 |
多網站同步采集 | 將所有任務的所有日志都裝載完再開始采集??梢员WC順序和排重。 | |
多網站異步采集 | 邊加載邊采集,優點是開始采集會比較快,等待時間短,缺點是無法保證順序和排重。 | |
智能自檢 | 系統配置檢測 | 采集前運行自檢,可清楚查看配置設置是否達到最佳狀態 |
多策略反爬設置 | ||
---|---|---|
反爬預警 | 網絡異常識別 | 自定義網絡異常識別次數,當達到次數時,會自動提醒 |
反爬識別 | 自定義反爬識別次數,當達到次數時,會自動提醒 | |
自定義預警操作 | 可自行選擇預警操作,包括:暫停、自動休眠、自動更換代理IP等 | |
反爬提醒 | 可自行選擇提醒方式,包括:圖標閃爍、彈窗等待等 | |
代理IP設置 | 接入動靜態代理IP | 可接入第三方代理IP,動態和靜態均可 |
代理IP測試 | 接入第三方代理IP后,可測試其有效性 | |
反爬自動更換代理IP | 運行時,自動識別反爬并自動更換代理IP | |
代理IP優化 | 優化無效代理,優化響應過慢代理 | |
多通道采集 | 多線程采集時,真實模擬多個通道進行采集的過程 | |
動態IP鎖定 | 將動態IP與運行時獲取一條數據的一組請求鎖定,更真實的模擬IP獲取數據的過程 | |
全局代理IP設置 | 設置全局代理IP | |
登錄反爬 | 模擬多賬號登錄 | 模擬多賬號登錄,用于封號的反爬策略 |
請求數限制 | 自定義請求上限 | 設置請求上限,達到上限后停止采集 |
驗證碼反爬 | 支持批量識別驗證碼 | 可接入第三方打碼平臺,批量識別驗證碼,解決網頁驗證碼問題 |
數據存儲與導出 | ||
---|---|---|
導出格式多樣化 | 導出為csv | 將數據導出為csv格式 |
導出為txt | 將數據導出為txt格式 | |
導出為xls | 將數據導出為xls格式 | |
導出圖片 | 將采集到的圖片自定義命名字段,導出到指定文檔中 | |
導出視頻 | 將采集到的視頻自定義命名字段,導出到指定文檔中 | |
導出附件 | 將采集到的附件(pdf、word、xls等)自定義命名字段,導出到指定文檔中 | |
局部導出 | 導出指定范圍數據 | 導出指定范圍的數據 |
導出指定字段 | 導出指定字段的數據 | |
自定義文件命名字段 | 自定義文件命名字段 | |
分組導出 | 自定義文件夾分組導出 | 將指定范圍的數據,分組導出到自命名的不同文件夾中 |
篩選檢索 | 按字段檢索 | 關鍵詞檢索某一字段 |
全文檢索 | 關鍵詞檢索全部數據 | |
按字段檢索并導出 | 關鍵詞檢索某一字段,并導出符合的數據 | |
全文檢索并導出 | 關鍵詞檢索全部數據,并導出符合的數據 | |
按字段檢索并刪除數據 | 關鍵詞檢索某一字段,并刪除檢索出的數據 | |
全文檢索并刪除數據 | 關鍵詞檢索全部數據,并刪除檢索出的數據 | |
存儲功能 | 自定義新增數據存儲規則 | 可設置不同的數據存儲形式:僅更新新增數據、實時采集最新數據并覆蓋舊數據、實時采集所有采集數據等。 |
數據自動排重 | 自定義排重字段,根據字段內容進行排重存儲 | |
多個網站數據統一存儲 | 多網站數據同時采集并存儲到同一個數據表中 | |
多網站數據獨立存儲 | 多網站同時采集單獨存儲到不同數據表中 | |
自帶數據庫 | 系統默認數據庫為ForeLib數據庫 | |
支持Mysql數據庫 | 可關聯Mysql數據庫,將數據實時采集到Mysql數據庫中 | |
支持Access數據庫 | 可關聯Access數據庫,將數據實時采集到Access數據庫中 | |
支持SQL Server數據庫 | 可關聯SQL Server數據庫,將數據實時采集到SQL Server數據庫中 | |
連接外部服務器存儲 | 連接外部服務器,將數據直接存儲到外部服務器中 |
數據推送發布 | ||
---|---|---|
挖掘清洗 | 推送時挖掘數據 | 在推送的同時,對文本進行特征挖掘提取 |
推送時清洗數據 | 在推送的同時,對數據按照規律進行清洗 | |
推送時間設置 | 推送時間設置 | 將采集到的數據定時推送 |
實時推送 | 實時推送采集到的數據 | |
推送方式設置 | 郵件推送 | 通過郵件推送數據 |
http/https推送 | 通過http/https推送數據 | |
定制接口推送 | 通過定制接口推送數據 | |
數據庫推送 | 將數據推送到指定數據庫 |
極速采集 | ||
---|---|---|
并行采集流數據 | 并行采集視頻文件 | 并行下載多個視頻文件,加快下載速度 |
并行下載附件 | 并行下載多個附件文件,加快下載速度 | |
多進程采集 | 多進程多線程運行 | 可同時運行多進程和多個線程,加快采集速度 |
多網站智能管理 | 多網站采集獨立管理 | 同時運行多個網站時,可獨立方便管理 |
多網站定時采集獨立管理 | 同時運行多個網站時,獨立對各網站進行定時管理 | |
多網站日志獨立管理 | 同時運行多個網站時,日志獨立管理 | |
采集批量網站無上限 | 可同時采集成千上萬個網站,沒有上限 | |
自研內核引擎 | JS引擎內核 | 采集引擎完全由C++編寫,不同于瀏覽器采集,單機采集速度最高可達400萬條/天 |
CSS引擎 | 擁有CSS引擎,可對快速解析網頁中CSS數據,高效采集 | |
DOM樹解析引擎 | 擁有DOM樹解析引擎,對網頁中DOM樹結構快速解析 | |
分布式引擎 | 分布式引擎,可實現多機集群采集 |