以安居客為例,https://tianjin.anjuke.com/sale/?from=navigation
一.網站內容
1.網站截圖說明
本教程以采集“二手房”列表頁鏈接內的正文數據為例,故鏈接入口應該為“二手房”板塊的網址(https://tianjin.anjuke.com/sale/?from=navigation)
①點擊官網,找到“二手房”點進進入,如下圖紅框所示。
②進入“二手房”復制該鏈接,如紅框所示:
2.采集結果截圖
二.操作方法
1.新建任務
按圖片數字所示,1-2-3完成新建任務的步驟。
點擊“下一步”,需要采集正文數據,所以此處需要勾選【鏈接列表】和【普通翻頁】,如圖,最后點擊“完成”即可。
2.鏈接抽取配置
①內置瀏覽器顯示搜索頁面后,按照提示:ctrl+左鍵單擊文章標題。
②點擊【確認選區】按鈕,也可以在右側地址過濾設置過濾規則。
③最后點擊右上角的【采集預覽】查看是有內容,如下圖:
3.翻頁配置
采集頁內含其它多鏈接,這時需要將翻頁進行配置,以便將該頁面內所有鏈接內容都可抽取出來。
按照圖示數據操作:
①點擊左側“鏈接抽?。浩胀ǚ摗?/span>
②Ctrl+鼠標左鍵點擊“下一頁”
③點擊右下角,選擇“標題過濾”,過濾規則選擇“包含”,手動輸入“下一頁”即可。
4.翻頁采集預覽
接第3步,點擊右上角【采集預覽】查看是否可生成如下圖的鏈接和數據。
注:下圖的預覽內含所有下一頁包含的鏈接。
5.數據抽取
在【新建任務】中輸入的網址只是我們想采集的預覽頁面,具體采集的正文內容(數據)需要進入詳情。
按照圖示數據操作:
①雙擊左側紅框位置,可自定義名稱,這里我們取“正文”。
②勾選【抽取數據】將對應的層級鏈接復制粘貼到【示例地址】中,最后點擊“下一步”即可完成。(https://tianjin.anjuke.com/prop/view/A1887705624?from=filter&spread=commsearch_p&uniqid=pc5dd256fa182d89.39922172&position=1&kwtype=filter&now_time=1574065914)
6.配置表結構
如圖示點擊【數據建表】:
①點擊“采集配置”-“數據建表”。
②點擊“+”,新建表結構并自定義名稱,這里取“安居客”。
根據所需內容,配置表結構字段,此處配置了包括主鍵、房屋信息、房屋編號、發布時間、文章內容等等。表結構建立如下:
字段名稱:hkey
A.采集內容:選擇“主鍵”。
B.數據類型:選擇“長數字”。
C.字段屬性:選擇 “索引字段”、“鍵值唯一”、“主鍵字段”。
字段名稱:suozaixiaoqu
A.采集內容:選擇“選區內可見文本”。
B.數據類型:選擇“字符串”。
C.數據長度:選擇 范圍10-20即可,最后點擊確定。
字段名稱:suozaiweizhi
A.采集內容:選擇“選區內可見文本”。
B.數據類型:選擇“字符串”。
C.數據長度:選擇 范圍10-20即可,最后點擊確定。
表結構配置字段自定義即可,如有其他需求可按上述類似操作即可。最終呈現如下圖:
7.關聯數據表
表結構配置完畢后,需要進行數據關聯,操作如下:
選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。
8.字段取值
操作如下圖所示:
①字段:suozaixiaoqu
A.在左側“安客居”下屬字段中點擊suozaixiaoqu。
B.找到“所屬小區”對應信息“金城藝術家”并ctrl+左鍵點擊選中該選區。
C.最后點擊“確認選區”即可。
②字段:suozaiweizhi
A.在左側“安客居”下屬字段中點擊“suozaiweizhi”。
B.找到“所屬位置”對應信息“西青-精武-津來公路,近工一號路”并ctrl+左鍵點擊選中該選區。
C.最后點擊“確認選區”即可。
注意:主鍵無需確認選區,操作過程中要隨時點擊“保存”,養成良好習慣。
9.模板預覽
通過預覽,可以了解配置是否能夠正確地采集到所需正文數據。鼠標右鍵后選擇【鏈接列表】,可以單獨預覽某個鏈接的數據。