https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D
一.網站內容
1.網站截圖說明
本教程通過“古詩文網”官網來采集所需“關鍵詞”的正文數據,本教程以關鍵詞“相思”為例,故鏈接入口為: https://so.gushiwen.org/search.aspx?value=%E7%9B%B8%E6%80%9D
在官網輸入關鍵詞“相思”:
2.采集結果截圖
二.操作方法
1.新建任務
①點擊【采集配置】-【任務列表】中的“+”,新建采集任務。
②采集地址中輸入需要采集的網頁地址。
③勾選“關鍵詞采集”,此步驟不可省略否則無法獲取我們所需的數據,完成后點擊“下一步”。
同時采集正文數據和列表鏈接,所以此處需要勾選【抽取鏈接】-【網頁所有鏈接】、【抽取數據】,點擊完成即可。
2.關鍵詞配置
①選擇【模板抽取配置】-【古詩文網】。
②在【關鍵詞配置步驟】-點擊關鍵詞-Ctrl+左鍵“關鍵詞輸入框”,點擊完成。
③一般情況就配置完畢了,可以采集預覽看是否成功。如果有些網站仍然沒有結果,需要在【高級設置】中配置關鍵詞參數。
④配置完成,在關鍵詞列表中輸入“相思”。
注:在操作過程中可以隨時點擊“保存”,隨時保存進度。
3.鏈接抽取
①點擊【模板抽取配置-【鏈接抽?。壕W頁全部鏈接】。
②選擇【地址過濾】-過濾方式為“普通過濾”,過濾規則選擇“包含”,過濾詞為“value”。
③配置完成后點擊保存。
4.數據建表
①選擇【采集配置】-【數據建表】。
②在【采集表結構】選擇“+”,新建表結構并自定義名稱,這里取“古詩文”
根據所需內容,配置表結構字段,此處配置了包括主鍵、詩詞標題、詩句、作者。表結構建立如下:
字段名稱:id
A.采集內容:選擇“主鍵”,此處選“網頁主鍵”。
B.數據類型:選擇“長數字”。
C.字段屬性:選擇“索引字段”、“鍵值唯一”、“主鍵字段”。
字段名稱:title
A.采集內容:選擇“選區內可見文本”。
B.數據類型:選擇“字符串”。
C.數據長度:30。
字段名稱:author
A.采集內容:選擇“選區內可見文本”。
B.數據類型:選擇“字符串”。
C.數據長度:10。
字段名稱:content
A.采集內容:選擇“選區內可見文本”。
B.數據類型:選擇“字符串”。
C.數據長度:10。
5.關聯數據表
①選擇新建的“古詩文”,點擊【關聯數據表】-【創建】按鈕。
②選擇所需的表結構,點擊【創建】按鈕。創建表名稱可隨意填寫,需注意開頭僅可使用英文字母,可加數字。中文名稱不能作為表名稱。
③創建完成后勾選數據表關聯完成。
6.字段配置
選擇【古詩文】,在【數據屬性配置】中關聯數據表結構“古詩文”。
①title字段:
A.點擊左側【數據抽取】-“title”字段。
B.Ctrl+左鍵選擇該字段對應的區域。
C.點擊“確認選區”即可完成。
②Author字段:
A.點擊左側【數據抽取】-“author”字段。
B.Ctrl+左鍵選擇該字段對應的區域。
C.點擊“確認選區”即可完成。
③content字段:
A.點擊左側【數據抽取】-“content”字段。
B.Ctrl+左鍵選擇該字段對應的區域。
C.點擊“確認選區”即可完成。
5.采集預覽
選擇右上角【采集預覽】即可查看數據采集情況。