目錄

    360問答(https://bbs.#/forum-231-1.html)為例。

    一.網站結構

    1.網站截圖說明

    某些網站需要登錄后才可進行內容的采集,登錄時需先對登錄信息輸入位置進行定位,便于后續采集。

     

    【網站登錄頁】

     

    【采集列表頁】

    2.采集結果截圖

     

    【檢索列表鏈接】

     

    【檢索結果數據】

     

    二.配置模板

    1.新建任務

     

    【新建任務】

    2.新建采集任務

     

    【新建采集任務】

    本次采集列表下的正文數據,所以本次需要抽取內容選擇【鏈接列表】,為了將每一頁的內容都成功采集選擇【普通翻頁】。

    3.配置登錄

     

    【網站登錄界面】

    ①內置瀏覽器找到登錄按鈕,彈出登錄框。

     

    【網站登錄順序】

    ②先點擊【用戶名】。

     

    【輸入框定位】

    ③如上圖,對【用戶名輸入框】進行定位,crtl+左鍵點擊【用戶名輸入框】的位置,直至被綠色框住代表定位成功,并按此方式完成密碼的位置定位。

     

    【定位成功界面】

    ④【用戶名】和【密碼】定位完成后,點擊完成,cookie配置框中出現數據,按Ctrl+鼠標左鍵單擊“登錄按鈕”,內置瀏覽器頁面登錄成功,配置完成。

    4.配置模板

     

    【采集預覽】

    ①點擊采集預覽,在采集預覽中有于目標鏈接相似的其他鏈接,可通過地址過濾得到列表鏈接。找到所需要的列表鏈接,觀察得出所需要的目標鏈接都包含“thread-”。

     

    【地址過濾】

    ②勾選地址過濾,過濾規則選擇包含,填入“thread-”。

     

    【標題過濾】

    ③勾選標題過濾,過濾規則選擇包含,填入“下一頁”。

     

    【采集預覽】

    ④點擊采集預覽,下一頁和包含"thread-"的內容都被成功過濾,如下圖:

    5.模板關聯

            

    【模板關聯1】

    根據網頁跳轉規律,將【鏈接列表】關聯【鏈接列表:02】,【普通翻頁】關聯【默認模板:01】,此處軟件已自動進行了關聯,如果配置時發現關聯有問題,可自行進行更改。

    6.數據抽取

     

    【數據抽取】

    將模板一過濾得到的任意一條鏈接,作為鏈接列表模板的示例地址。如:https://bbs.#/thread-15646770-1-1.html。

    7.新建數據抽取

     

    【新建數據抽取】

    新建數據抽取。直接點擊鏈接列表,點擊上面“新建數據抽取” 按鈕,得到數據抽取。

    8.創建/選擇表結構

    ①創建表結構

     

    【創建表結構】

    ②配置表結構

     

    【配置表結構】

    根據所需內容,配置表結構字段,此處配置了包括網頁主鍵、發布時間、正文內,網頁標題以及網頁地址五個字段,以配置發布時間(pubtime)為例。

    ③數據抽取節點,關聯表結構。

     

    【關聯表結構】

    選擇剛才新創建的表結構“360問答”。

    9.字段定位

     

    【字段定位】

    主鍵字段自動生成無需定位,以pubtime字段為例進行定位,如下圖所示,將各字段依次定位。

    10.采集預覽

     

    【采集預覽】

    字段定位完成后,進行采集預覽,查看是否所需內容都被采集進來。 



    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡