新聞正文中的圖片,一般位置和數量都不固定,采集這樣的圖片,需要建立兩張表,通過正文的id進行關聯,用正文表的主鍵id作為圖片表的外鍵。
①正文表:
字段名稱 | 采集內容 | 數據類型 | 長度 | 字段屬性 | 高級類型 | 備注 |
News_id | 網頁主鍵 | 長數字 | 0 | 索引字段; 鍵值唯一; 主鍵字段 | NONE | 主鍵字段 |
author | 選區內全部文本 | 字符串 | 64 | 無 | NONE | 作者 |
get_web | 任務名稱 | 字符串 | 64 | 無 | NONE | 采集來源名稱 |
get_time | 網頁獲取時間 | 長數字 | 0 | 無 | 日期時間 | 采集時間 |
title | 選區內全部文本 | 字符串 | 64 | 無 | NONE | 標題 |
news_time | 選區內全部文本 | 字符串 | 30 | 無 | NONE | 文章發表內容 |
content | 選區內全部文本 | 字符串 | 0 | 無 | 長文本(<64k) | 正文內容 |
url | 網頁地址 | 字符串 | 255 | 無 | NONE | 文章url地址 |
②圖片表:
字段名稱 | 采集內容 | 數據類型 | 長度 | 字段屬性 | 高級類型 | 備注 |
hkey | (空) | 長數字 | 0 | 索引字段;鍵值唯一;主鍵字段; 自動字段 | NONE | 圖片的主鍵 |
news_id | 網頁主鍵 | 長數字 | 0 | 無 | NONE | 圖片所在文章的主鍵 |
pic | 圖片 | 流數據 | 0 | 無 | NONE | 圖片數據 |