目錄

    https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D

    一.網站內容

    1.網站截圖說明

    本教程通過“古詩文網”官網來采集所需“關鍵詞”的正文數據,本教程以關鍵詞“相思”為例,故鏈接入口為:   https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D

    在官網輸入關鍵詞“相思”:

     

    2.采集結果截圖

     

     

    二.操作方法

    1.新建任務

     

    ①點擊【采集配置】-【任務列表】中的“+”,新建采集任務。

    ②采集地址中輸入需要采集的網頁地址。

    ③勾選“關鍵詞采集”,此步驟不可省略否則無法獲取我們所需的數據,完成后點擊“下一步”。

    同時采集正文數據和列表鏈接,所以此處需要勾選【抽取鏈接】-【網頁所有鏈接】、【抽取數據】,點擊完成即可。

     

    2.關鍵詞配置

     

    ①選擇【模板抽取配置】-【古詩文網】。

    ②在【關鍵詞配置步驟】-點擊關鍵詞-Ctrl+左鍵“關鍵詞輸入框”,點擊完成。

    ③一般情況就配置完畢了,可以采集預覽看是否成功。如果有些網站仍然沒有結果,需要在【高級設置】中配置關鍵詞參數。

     

    ④配置完成,在關鍵詞列表中輸入“相思”。

    注:在操作過程中可以隨時點擊“保存”,隨時保存進度。

    3.鏈接抽取

     

    ①點擊【模板抽取配置-【鏈接抽?。壕W頁全部鏈接】。

    ②選擇【地址過濾】-過濾方式為“普通過濾”,過濾規則選擇“包含”,過濾詞為“value”。

    ③配置完成后點擊保存。

    4.數據建表

     

    ①選擇【采集配置】-【數據建表】。

    ②在【采集表結構】選擇“+”,新建表結構并自定義名稱,這里取“古詩文”

    根據所需內容,配置表結構字段,此處配置了包括主鍵、詩詞標題、詩句、作者。表結構建立如下:

     

    字段名稱:id

    A.采集內容:選擇“主鍵”,此處選“網頁主鍵”。

    B.數據類型:選擇“長數字”。

    C.字段屬性:選擇“索引字段”、“鍵值唯一”、“主鍵字段”。

     

    字段名稱:title

    A.采集內容:選擇“選區內可見文本”。

    B.數據類型:選擇“字符串”。

    C.數據長度:30。

     

    字段名稱:author

    A.采集內容:選擇“選區內可見文本”。

    B.數據類型:選擇“字符串”。

    C.數據長度:10。

     

    字段名稱:content

    A.采集內容:選擇“選區內可見文本”。

    B.數據類型:選擇“字符串”。

    C.數據長度:10。

    5.關聯數據表

     

    ①選擇新建的“古詩文”,點擊【關聯數據表】-【創建】按鈕。

    ②選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。

    ③創建完成后勾選數據表關聯完成。

     

    6.字段配置

    選擇【古詩文】,在【數據屬性配置】中關聯數據表結構“古詩文”。

     

    ①title字段:

    A.點擊左側【數據抽取】-“title”字段。

    B.Ctrl+左鍵選擇該字段對應的區域。

    C.點擊“確認選區”即可完成。

     

    ②Author字段:

    A.點擊左側【數據抽取】-“author”字段。

    B.Ctrl+左鍵選擇該字段對應的區域。

    C.點擊“確認選區”即可完成。

     

    ③content字段:

    A.點擊左側【數據抽取】-“content”字段。

    B.Ctrl+左鍵選擇該字段對應的區域。

    C.點擊“確認選區”即可完成。

    5.采集預覽

    選擇右上角【采集預覽】即可查看數據采集情況。


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡