360問答(https://bbs.#/forum-231-1.html)為例。
一.網站結構
1.網站截圖說明
某些網站需要登錄后才可進行內容的采集,登錄時需先對登錄信息輸入位置進行定位,便于后續采集。
【網站登錄頁】
【采集列表頁】
2.采集結果截圖
【檢索列表鏈接】
【檢索結果數據】
二.配置模板
1.新建任務
【新建任務】
2.新建采集任務
【新建采集任務】
本次采集列表下的正文數據,所以本次需要抽取內容選擇【鏈接列表】,為了將每一頁的內容都成功采集選擇【普通翻頁】。
3.配置登錄
【網站登錄界面】
①內置瀏覽器找到登錄按鈕,彈出登錄框。
【網站登錄順序】
②先點擊【用戶名】。
【輸入框定位】
③如上圖,對【用戶名輸入框】進行定位,crtl+左鍵點擊【用戶名輸入框】的位置,直至被綠色框住代表定位成功,并按此方式完成密碼的位置定位。
【定位成功界面】
④【用戶名】和【密碼】定位完成后,點擊完成,cookie配置框中出現數據,按Ctrl+鼠標左鍵單擊“登錄按鈕”,內置瀏覽器頁面登錄成功,配置完成。
4.配置模板
【采集預覽】
①點擊采集預覽,在采集預覽中有于目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“thread-”。
【地址過濾】
②勾選地址過濾,過濾規則選擇包含,填入“thread-”。
【標題過濾】
③勾選標題過濾,過濾規則選擇包含,填入“下一頁”。
【采集預覽】
④點擊采集預覽,下一頁和包含"thread-"的內容都被成功過濾,如下圖:
5.模板關聯
【模板關聯1】
根據網頁跳轉規律,將【鏈接列表】關聯【鏈接列表:02】,【普通翻頁】關聯【默認模板:01】,此處軟件已自動進行了關聯,如果配置時發現關聯有問題,可自行進行更改。
6.數據抽取
【數據抽取】
將模板一過濾得到的任意一條鏈接,作為鏈接列表模板的示例地址。如:https://bbs.#/thread-15646770-1-1.html。
7.新建數據抽取
【新建數據抽取】
新建數據抽取。直接點擊鏈接列表,點擊上面“新建數據抽取” 按鈕,得到數據抽取。
8.創建/選擇表結構
①創建表結構
【創建表結構】
②配置表結構
【配置表結構】
根據所需內容,配置表結構字段,此處配置了包括網頁主鍵、發布時間、正文內,網頁標題以及網頁地址五個字段,以配置發布時間(pubtime)為例。
③數據抽取節點,關聯表結構。
【關聯表結構】
選擇剛才新創建的表結構“360問答”。
9.字段定位
【字段定位】
主鍵字段自動生成無需定位,以pubtime字段為例進行定位,如下圖所示,將各字段依次定位。
10.采集預覽
【采集預覽】
字段定位完成后,進行采集預覽,查看是否所需內容都被采集進來。