目錄
    采集順企網企業信息
    視頻教程:模板下載:

    一.場景簡介

    1.場景描述:采集順企網中各城市的企業基本信息。

    2.入口網址:http://b2b.11467.com/

    3.采集內容:

    采集順企網中全國所有企業的地址、電話、聯系人、郵箱及郵編。

    二.思路分析

    |配置思路概覽

    |配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

    點擊【完成】,任務列表里出現本條任務,即為創建成功。

    2. 抽取城市分類鏈接

    ①由于內置瀏覽器無法顯示頁面內容,所以需要寫腳本來抽取城市分類鏈接。在【模板抽取配置】選擇【默認模板01】中的【鏈接抽取】,點擊【腳本窗口】,開始寫腳本來抽取城市分類鏈接。

    ②查看頁面源碼,打開該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的城市分類鏈接,這時在右側出現對應源碼內容。說明城市分類鏈接在【class=boxcontent】節點下。

    ③在【class=boxcontent】節點下,發現有很多名為dd的節點,每個dd節點的href就是城市分類鏈接,節點內容就是城市名。

    ④具體配置腳本如下,配置好腳本后點擊右上角【保存】。

    ⑤效果預覽:

    點擊【采集預覽】,即可看到配置效果,如下圖所示,已經把城市分類鏈接抽取出來了。

    如果采集預覽沒有出來,可以打開前嗅官網www.bendalayoga.com,咨詢技術支持。

    3. 抽取行業分類鏈接

    ①由于內置瀏覽器無法顯示頁面內容,所以需要寫腳本來抽取行業分類鏈接。在【模板抽取配置】中,繼續【新建模板2】,并在模板2下新建一個【鏈接抽取】。

    ②查看頁面源碼,打開任意一個城市分類的鏈接,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的行業分類鏈接,這時在右側出現對應源碼內容。說明城市分類鏈接在第一個【class=box  huangyecity t5】節點下。

    ③在【box  huangyecity t5】節點下的【listtxt】節點中,發現有很多名為【li】的節點,在每個【li】節點下又有很多名為【dl】的節點,每個【dl】節點的href即為該城市行業分類鏈接,節點內容即為行業名稱。

    ④同樣選擇【腳本窗口】,新建腳本頁面,具體配置腳本如下:

    ⑤效果預覽:

    如果采集預覽沒有出來,可打開前嗅官網,或添加技術支持wx:qianxiu0106進行咨詢。

    4. 獲取翻頁鏈接

    ①翻頁鏈接需要寫腳本來抽取。在【模板抽取配置】中,繼續新建一個【新建模板3】,并在模板3下新建一個【鏈接抽取】。

    ②在瀏覽器上打開任意一個行業列表鏈接,查看翻頁鏈接,會發現翻頁鏈接的規律:

    第一頁鏈接:https://www.11467.com/shenzhen/dir/a.htm

    第二頁鏈接:https://www.11467.com/shenzhen/dir/a-p2.htm

    第三頁鏈接:https://www.11467.com/shenzhen/dir/a-p3.htm

    第四頁鏈接:https://www.11467.com/shenzhen/dir/a-p4.htm

    翻頁規律為:行業鏈接(即第一頁鏈接)【.htm】左側部分+【-p】+【翻頁數】+【.htm】

    ③根據以上規律,進行腳本配置,具體如下:

    ④采集預覽,結果如下:

    如果采集預覽沒有出來,可以打開前嗅官網www.bendalayoga.com,咨詢技術支持。

    5. 企業列表鏈接抽取

    ①由于內置瀏覽器無法顯示頁面內容,所以需要寫腳本來抽取企業鏈接。在【模板抽取配置】中,繼續【新建模板4】,并在模板4下新建一個【鏈接抽取】。

    ②查看頁面源碼,打開任意一個行業分類的鏈接,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的企業列表鏈接,這時在右側出現對應源碼內容。說明企業鏈接在【companylist】節點下。

    ③在【companylist】節點下有很多名為【li】的節點,在每個【li】節點下又有很多【class=f_l】的節點,每個【class=f_l】節點下的名為【h4】的節點中,href即為企業鏈接,title即為企業名稱。

    ④同樣選擇【腳本窗口】,新建腳本頁面,具體配置腳本如下:

    ⑤采集預覽,具體如下:

    如果采集預覽沒有出來,可以打開前嗅官網www.bendalayoga.com,咨詢技術支持。

    6. 數據抽?。撼槿∑髽I基本工商信息

    ①先根據將要抽取的數據,建好數據表單,打開【采集配置】中的【數據建表】界面,新建一個數據表結構,并且將需要抽取的數據字段添加到數據表中去,如下圖所示:

    ②關聯數據表:新建模板5,并在其下新建一個數據抽取,并關聯剛才新建的數據表單,然后保存。

    ③數據抽取配置

    字段id:本字段為主鍵,無需配置。

    字段comp_name:需要腳本配置,具體腳本如下

    字段comp_addr:需要腳本配置,具體腳本如下

    字段comp_tel:需要腳本配置,具體如下

    字段comp_peo:需要腳本配置,具體如下

    字段comp_phone:需要腳本配置,具體如下

    字段comp_mail:需要腳本配置,具體如下

    字段comp_num:需要腳本配置,具體如下

    ④效果預覽:

    三.采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①首先要建立采集數據表:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為shunqiwang(注意命名不能用數字和特殊符號),點擊【確定】。

    創建完成,勾選數據表。

    ②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

    ③可以在【數據瀏覽】中,選擇數據表查看采集數據。

    四.課后回顧

    FindClass(class名,標簽類型,開始查找結點):當符合條件的class名稱唯一時,使用class名來查找結點。

    FindName(標簽名,開始查找結點):當查找范圍內,符合條件的數據標簽唯一時,可以使用標簽名稱查找標簽結點。

    GetTextAll(需要獲取文本的結點,使用的字符編碼):獲取該html標簽節點及所有子節點的可見文本。

    Child:孩子頻道節點。

    Next:下一頻道節點。

    Left(分界字符):獲得該字符串分解字符左側所有內容。


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡