目錄
    2.1.3 從【鏈接列表】跳轉采集正文
    視頻教程:模板下載:

    鳳凰網(http://tech.ifeng.com/)

    一.網站內容

    1.網站截圖說明

     

    2.采集結果截圖

     

     

    二.操作方法

    1.新建任務

     

    ①點擊【采集配置】-【任務列表】中的“+”,新建采集任務。

    ②采集地址中輸入需要采集的網頁地址。

    采集列表鏈接,所以此處需要勾選【抽取鏈接】-【網頁所有鏈接】。

     

    2.鏈接抽取配置

     

    選擇地址過濾,過濾方式為普通過濾,過濾規則為包含“/c/7”,過濾出需要的鏈接,最后點擊右上角的【采集預覽】查看是有內容。

    3.采集預覽

     

    4.數據抽取

    采集正文數據需要進入詳情頁面。

    ①在模板抽取配置中,右鍵選擇添加模板,或點擊第一個按鈕添加。

     

    ②在新模板右鍵添加數據抽取,或點擊第三個按鈕添加。

     

    ③模板屬性配置要勾選數據抽取并填寫數據抽取示例地址。

     

      

    5.配置表結構

     

    如圖示點擊【采集配置】-【數據建表】,【采集表結構】“+”按鈕,新建表結構,可以自定義名稱。

    根據所需內容,配置表結構字段,此處配置了包括主鍵、文章標題、作者、發布時間、文章內容。表結構建立如下:

     

    hkey字段

     

    title字段

     

    author字段

     

    get_time字段

     

    content字段

    6.關聯數據表

    表結構配置完畢后,需要進行數據關聯,操作如下:

     

    選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。

     

    7.模板預覽

    通過采集預覽,可以了解是否能夠正確地采集到所需數據。右鍵選擇【鏈接列表】-【模板預覽】,可以單獨預覽某個模板的數據。

     

     


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡