字段從網頁上取值,有幾種情況:
①自動取值:有些采集類型可以自動獲取網頁上的內容。
②定位取值:通過在網頁上定位選區,獲取數據。包括標準定位和特征定位。
③模板取值:部分數據在另一個網頁上,想存儲在同一張表中。
④腳本取值:通過編寫腳本獲取數據。
當采集內容設置為以下內容時,系統會自動為字段賦值,無需額外操作。
采集內容大類 | 采集內容小類 | 說明 |
空值/常量 | 常量 | 設置字段為某一個值/文本 |
選區內可見文本 | 網頁內文字文本 | 采集整個頁面中所有可見的文字文本。 |
主鍵 | 網頁主鍵 | 網頁唯一標識 |
自增ID主鍵 | 該字段會按照自增順序自動排序 | |
源碼/圖片/文件 | 網頁全部內容 | 采集網頁全部文本,包含html標簽等,即整個頁面的源代碼。 |
網頁信息 | 網頁地址 | 自動采集網頁的URL地址。 |
網頁標題 | 采集網頁的標題。即網頁<title>中的內容。 | |
文檔數據大小 | 采集對象的質量大小[單位:字節]。 | |
文檔名稱 | 當前文檔(文件)的名稱 | |
文檔后綴 | 文檔的文件名后綴 | |
文檔后綴類型 | 文檔后綴的枚舉類型 | |
文檔視寬 | 文檔的寬[如果是圖片數據則為圖片的寬] | |
文檔視高 | 文檔的高[如果是圖片數據則為圖片的高] | |
文檔層級 | 文檔被采集時的鏈接深度(層級) | |
原始網頁地址 | 當頁面重定向以后,依然保存重定向以前的地址 | |
時間信息 | 網頁創建時間 | 文檔創建或網頁發布的時間。 |
網頁更新時間 | 文檔或網頁更新的時間。 | |
網頁獲取時間 | ForeSpider采集該網頁的時間。 | |
當前系統時間 | 數據采集入庫的時間。 | |
采集任務信息 | 任務ID | 采集當前任務的ID。 |
任務名稱 | 采集當前任務的名稱。 |