目錄
    采集微信公眾號文章
    視頻教程:模板下載:

    通過搜狗采集微信公眾的文章

    采集網站

    【場景描述】通過搜狗采集微信公眾號的文章。

    【入口網址】https://weixin.sogou.com/weixin?type=1&s_from=input&query=%E5%89%8D%E5%97%85&ie=utf8&_sug_=n&_sug_type_=

     

    采集內容

    采集搜狗微信平臺中,關鍵詞搜索出來的微信公眾號文章的標題、正文、作者、公眾號名稱等。

      

    思路分析

    配置思路概覽:

     

     

    配置步驟

    1. 新建采集任務

    選擇【采集配置】,點擊任務列表右上方【+】號可新建采集任務,將采集入口地址填寫在【采集地址】框中,【任務名稱】自定義即可,點擊下一步。

     

    繼續勾選普通翻頁,然后點擊完成,創建成功。

     

    2. 關鍵詞配置

    ①在入口頁搜索不同關鍵詞,發現不同關鍵詞搜索結果的鏈接,只更換了圖中紅框部分,而紅框部分正是經過轉碼后的關鍵詞,于是得出關鍵詞鏈接的拼接規則為:

    https://weixin.sogou.com/weixin?type=2&s_from=input&query=關鍵詞

     

    ②得到關鍵詞鏈接拼接規則后,開始配置關鍵詞搜索:

    點擊屏幕右下角【高級配置】,將采集地址填寫到【請求地址】中,點擊【+】添加一個參數,名稱可以自定義,此項配置是用于后期腳本能將關鍵詞從關鍵詞列表中取出,配置完成點擊【確定】即可。

     

    將參數類型選擇為檢索關鍵詞,點擊保存。

     

    ③由于本模板是以關鍵詞搜索為入口,所以在【模板抽取配置】選擇頻道(即任務名稱),選擇【腳本窗口】,將關鍵詞搜索配置在頻道處即可。

     

    ④具體配置腳本如下:

     

     

    添加一個或多個關鍵詞,并保存,如下圖所示。(多個關鍵詞用英文;隔開

     

    ⑤效果預覽:

    在【關鍵詞列表】中填寫關鍵詞,點擊【保存】,點擊【采集預覽】,即可看到配置效果。

     

    3. 翻頁配置

    關鍵詞配置完成,下一步是獲取關鍵詞搜索結果中的全部翻頁鏈接。

    ①同樣選擇【腳本窗口】,配置翻頁腳本。

     

    ②對關鍵詞搜索出的網頁翻頁,觀察網頁地址的變化。

    https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8    第二頁

    https://weixin.sogou.com/weixin?query=none&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=3&ie=utf8    第三頁

    發現翻頁鏈接是在原地址中增加了&_sug_type_=&s_from=hotnews&_sug_=n&type=2&page=2&ie=utf8”部分,隨著頁碼的改變,僅有page參數的值在變化。page為頁碼的配置參數,其它不變部分,直接拼接在鏈接中即可。

    ③具體配置腳本如下:

     

    ④效果預覽:

     

    4. 鏈接抽取

    這一步是在獲取的翻頁鏈接中,提取每頁全部微信文章的鏈接:

    ①在原有模板基礎上,右鍵選擇【添加模板】,并新建一個鏈接抽取,如下圖所示:

     

    ②查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中所需要的文章鏈接,這時在右側出現對應源碼內容。說明城市分類鏈接在【target=_blank】節點下。

     

    ③經過觀察發現,我們要找的是target=_blank】節點中的href,【target=_blank】節點是class=news-list】的子節點中,名為【h3】的節點的子節點。

     

    具體配置腳本如下,配置好腳本后點擊右上角【保存】。

     

    .采集預覽如下所示:

     

    5. 數據抽取

    ①鏈接抽取完成進入數據頁,在原有模板基礎上,右鍵選擇【添加模板】,新添加的模板,右鍵【添加數據抽取】。

     

    ②此時要完成數據建表的工作:選擇【數據建表】,點擊【采集數據表結構】中的【+】,即可添加數據表,名稱可以自定義。

     

     

    ③數據表配置完成,選擇【數據抽取】右側數據屬性配置,表單選擇剛建立的“微信公眾文章”數據表,則可看到表單中的字段在右側顯示。

     

    ④需要配置哪一個字段,點擊該字段,在右側字段屬性中配置即可,選擇腳本配置的字段,在腳本窗口中進行代碼配置。

    id字段:主鍵字段,采集內容選擇【主鍵】-【網頁主鍵】,主鍵為當前網頁的MD5值。

     

    title字段:腳本如下所示

     

    content字段:

    瀏覽器打開文章頁面,查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中文章正文,這時在右側出現對應源碼內容。說明城市分類鏈接在【class=rich_media_wrp】的節點下。

     

    用腳本表示為:

     

    keywords字段:關鍵詞字段,該字段是用腳本處理的,由于關鍵詞字段僅是頻道腳本中的局部變量,且后期頁面均沒有出現,所以需要將關鍵詞字段賦值在全局變量中,才能在數據抽取時將關鍵詞字段提取出來,此處將其賦值與全局變量title。

    同理,數據表中需要采集當前數據在第幾頁出現,而頁面數據同樣為翻頁模板中的局部變量,后面模板無法提取,所以需要將當前翻頁腳本中的頁數記錄在全局變量中,同樣將頁數記錄在title中以“#”與關鍵詞分隔。

     

    當前數據出現在某頁第幾行,頁碼已經記錄在全局變量title中,鏈接抽取中當前鏈接行數也是唯一出現的局部變量,同樣需要記錄才能傳值,于是將行數也賦值在title中以“*”與頁碼分隔。

     

    所以最終記錄在title中的值包含以下部分:

     

    對于keywords字段來說,取出全局變量title中“@”左邊部分即可。

     

    page字段:頁碼,同keywords字段,取全局變量title中“@”和“#”中間部分。

     

    raw字段:行數,同keywords字段,取全局變量title中“#”和“*”中間部分。

     

    gettime字段:網頁采集時間,采集內容選擇【時間信息】-【網頁獲取時間】

     

    url字段:網頁地址,采集內容選擇【網頁信息】-【網頁地址】

     

    web字段:網站名,腳本返回“微信公眾號”。

     

    author字段:查看頁面源碼,打開瀏覽器中該頁面,點擊F12,點擊指針按鈕,如下圖所示,用指針按鈕選中作者,這時在右側出現對應源碼內容。說明城市分類鏈接在【id=js_name】的節點下。

      

    腳本如下圖所示:

     

    temp_name字段:模板名稱,采集內容選擇【采集任務信息】-【任務名稱】

      

    ⑤以上完成全部字段配置,效果預覽如下:

     

    如果采集預覽有字段沒有正常顯示,可以將爬蟲中的模擬瀏覽器版本設置為:IE瀏覽器9,如下圖所示,之后再嘗試。

     

    采集步驟

    模板配置完成,采集預覽沒有問題后,可以進行數據采集。

    ①首先要建立采集數據表:

    選擇【數據建表】,點擊【表單列表】中該模板的表單,在【關聯數據表】中選擇【創建】,表名稱自定義,這里命名為wenzhang(注意命名不能用數字和特殊符號),點擊【確定】。

     

    創建完成,勾選數據表。

     

    ②選擇【數據采集】,勾選任務名稱,點擊【開始采集】,則正式開始采集。

     

    ③可以在【數據瀏覽】中,選擇數據表查看采集數據,并可以導出數據。

     

     

    課后回顧

    Search()反復調用來遍歷關鍵詞列表。

    FindClass(class名,標簽類型,開始查找結點)當符合條件的class名稱唯一時,使用class名來查找結點。

    FindName(標簽名,開始查找結點)當查找范圍內,符合條件的數據標簽唯一時,可以使用標簽名稱查找標簽結點。

    GetTextAll(需要獲取文本的結點,使用的字符編碼)獲取該html標簽節點及所有子節點的可見文本。

    Child孩子頻道節點。

    StdUrl(base,strUrl)鏈接地址絕對轉化,base表示基鏈接地址,strUrl表示待轉化鏈接地址。

    Right(flag)返回字符串右邊的字符串,flag表示所取長度或起始字符()。

    Left(flag)返回字符串右邊的字符串,flag表示所取長度或起始字符()

    Middle(pos,len)返回字符串的中間字符串,pos表示起始位置或起始字符(),len表示所取長度或終止字符()。


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡