一.場景簡介
1.場景描述:采集順企網中各城市的企業基本信息。
2.入口網址:http://b2b.11467.com/
3.采集內容:
采集順企網中全國所有企業的地址、電話、聯系人、郵箱及郵編。
二.思路分析
|配置思路概覽
|配置步驟
1. 新建采集任務
選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。
點擊【完成】,任務列表里出現本條任務,即為創建成功。
2. 抽取城市分類鏈接
①由于內置瀏覽器無法顯示頁面內容,所以需要寫腳本來抽取城市分類鏈接。在【模板抽取配置】選擇【默認模板01】中的【鏈接抽取】,點擊【腳本窗口】,開始寫腳本來抽取城市分類鏈接。
②查看頁面源碼,打開該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的城市分類鏈接,這時在右側出現對應源碼內容。說明城市分類鏈接在【class=boxcontent】節點下。
③在【class=boxcontent】節點下,發現有很多名為dd的節點,每個dd節點的href就是城市分類鏈接,節點內容就是城市名。
④具體配置腳本如下,配置好腳本后點擊右上角【保存】。
⑤效果預覽:
點擊【采集預覽】,即可看到配置效果,如下圖所示,已經把城市分類鏈接抽取出來了。
如果采集預覽沒有出來,可以打開前嗅官網www.bendalayoga.com,咨詢技術支持。
3. 抽取行業分類鏈接
①由于內置瀏覽器無法顯示頁面內容,所以需要寫腳本來抽取行業分類鏈接。在【模板抽取配置】中,繼續【新建模板2】,并在模板2下新建一個【鏈接抽取】。
②查看頁面源碼,打開任意一個城市分類的鏈接,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的行業分類鏈接,這時在右側出現對應源碼內容。說明城市分類鏈接在第一個【class=box huangyecity t5】節點下。
③在【box huangyecity t5】節點下的【listtxt】節點中,發現有很多名為【li】的節點,在每個【li】節點下又有很多名為【dl】的節點,每個【dl】節點的href即為該城市行業分類鏈接,節點內容即為行業名稱。
④同樣選擇【腳本窗口】,新建腳本頁面,具體配置腳本如下:
⑤效果預覽:
如果采集預覽沒有出來,可打開前嗅官網,或添加技術支持wx:qianxiu0106進行咨詢。
4. 獲取翻頁鏈接
①翻頁鏈接需要寫腳本來抽取。在【模板抽取配置】中,繼續新建一個【新建模板3】,并在模板3下新建一個【鏈接抽取】。
②在瀏覽器上打開任意一個行業列表鏈接,查看翻頁鏈接,會發現翻頁鏈接的規律:
第一頁鏈接:https://www.11467.com/shenzhen/dir/a.htm
第二頁鏈接:https://www.11467.com/shenzhen/dir/a-p2.htm
第三頁鏈接:https://www.11467.com/shenzhen/dir/a-p3.htm
第四頁鏈接:https://www.11467.com/shenzhen/dir/a-p4.htm
翻頁規律為:行業鏈接(即第一頁鏈接)【.htm】左側部分+【-p】+【翻頁數】+【.htm】
③根據以上規律,進行腳本配置,具體如下:
④采集預覽,結果如下:
如果采集預覽沒有出來,可以打開前嗅官網www.bendalayoga.com,咨詢技術支持。
5. 企業列表鏈接抽取
①由于內置瀏覽器無法顯示頁面內容,所以需要寫腳本來抽取企業鏈接。在【模板抽取配置】中,繼續【新建模板4】,并在模板4下新建一個【鏈接抽取】。
②查看頁面源碼,打開任意一個行業分類的鏈接,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的企業列表鏈接,這時在右側出現對應源碼內容。說明企業鏈接在【companylist】節點下。
③在【companylist】節點下有很多名為【li】的節點,在每個【li】節點下又有很多【class=f_l】的節點,每個【class=f_l】節點下的名為【h4】的節點中,href即為企業鏈接,title即為企業名稱。
④同樣選擇【腳本窗口】,新建腳本頁面,具體配置腳本如下:
⑤采集預覽,具體如下:
如果采集預覽沒有出來,可以打開前嗅官網www.bendalayoga.com,咨詢技術支持。
6. 數據抽?。撼槿∑髽I基本工商信息
①先根據將要抽取的數據,建好數據表單,打開【采集配置】中的【數據建表】界面,新建一個數據表結構,并且將需要抽取的數據字段添加到數據表中去,如下圖所示:
②關聯數據表:新建模板5,并在其下新建一個數據抽取,并關聯剛才新建的數據表單,然后保存。
③數據抽取配置
字段id:本字段為主鍵,無需配置。
字段comp_name:需要腳本配置,具體腳本如下
字段comp_addr:需要腳本配置,具體腳本如下
字段comp_tel:需要腳本配置,具體如下
字段comp_peo:需要腳本配置,具體如下
字段comp_phone:需要腳本配置,具體如下
字段comp_mail:需要腳本配置,具體如下
字段comp_num:需要腳本配置,具體如下
④效果預覽:
三.采集步驟
模板配置完成,采集預覽沒有問題后,可以進行數據采集。
①首先要建立采集數據表:
選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為shunqiwang(注意命名不能用數字和特殊符號),點擊【確定】。
創建完成,勾選數據表。
②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。
③可以在【數據瀏覽】中,選擇數據表查看采集數據。
四.課后回顧
FindClass(class名,標簽類型,開始查找結點):當符合條件的class名稱唯一時,使用class名來查找結點。
FindName(標簽名,開始查找結點):當查找范圍內,符合條件的數據標簽唯一時,可以使用標簽名稱查找標簽結點。
GetTextAll(需要獲取文本的結點,使用的字符編碼):獲取該html標簽節點及所有子節點的可見文本。
Child:孩子頻道節點。
Next:下一頻道節點。
Left(分界字符):獲得該字符串分解字符左側所有內容。