使用可視化配置之后,依舊無法正確采集時,說明關鍵詞可視化配置獲取到的參數信息,缺失或有誤。
需要通過點擊“采集配置”下“任務屬性配置”中的“高級配置”按鈕,在彈框中手動配置關鍵詞參數。對比表單中的參數名稱,手動添加各項參數。參數是指網頁請求數據時,返回的參數信息。
1.高級配置介紹
【關鍵詞配置-參數編輯】
①請求地址
一般情況下,完成“關鍵詞設置”后,請求地址會自動填充上。如果沒有或者有誤,可以手動進行添加。簡單的請求地址可以通過觀察,找到各項參數。復雜的請求地址需要借助瀏覽器的開發者工具。(操作流程下文會詳細介紹)
②POST請求
用戶根據目標網址不同,是否為POST請求,來決定是否選擇POST。
③Cookie刷新方式
Cookie刷新方式是指在采集過程中,采集每一條數據時,是否刷新采集地址入口頁,以獲取Cookie信息。
不刷新 | 無需刷新入口地址。 |
首次刷新 | 數據采集時,只刷新一次入口地址。 |
重復刷新 | 采集每個關鍵詞時,都刷新一次入口地址。 |
④請求參數表
一般情況下,完成“關鍵詞配置”后,請求參數表里的參數信息會自動填充上。如果沒有填充或有誤,則按照下文進行手動配置。
2.高級配置示例
以前嗅網址為例,介紹如何手動添加參數表:
http://www.soqi.cn/search.xhtml?keywords=前嗅&city=100000&search_type=1
①觀察網頁規律
請求地址 | “?”前的地址是頁面的請求地址 即為:(http://www.soqi.cn/search.xhtml) |
檢索關鍵詞 | keywords。 |
其他參數 | “=”前是參數名稱,“=”后是參數值。 |
檢索關鍵詞這個參數類型必須添加,如有驗證碼,參數類型中也需要有“驗證碼”,其他參數可根據具體情況進行調試。
②添加參數表
【添加參數表】
③修改參數表
【修改參數表】