目錄
    4.7.1 自動獲取網頁信息的情況
    視頻教程:模板下載:

    字段從網頁上取值,有幾種情況:

    ①自動取值:有些采集類型可以自動獲取網頁上的內容。

    ②定位取值:通過在網頁上定位選區,獲取數據。包括標準定位和特征定位。

    ③模板取值:部分數據在另一個網頁上,想存儲在同一張表中。

    ④腳本取值:通過編寫腳本獲取數據。

    當采集內容設置為以下內容時,系統會自動為字段賦值,無需額外操作。


    采集內容大類

    采集內容小類

    說明

    空值/常量

    常量

    設置字段為某一個值/文本

    選區內可見文本

    網頁內文字文本

    采集整個頁面中所有可見的文字文本。

    主鍵

    網頁主鍵

    網頁唯一標識

    自增ID主鍵

    該字段會按照自增順序自動排序

    源碼/圖片/文件

    網頁全部內容

    采集網頁全部文本,包含html標簽等,即整個頁面的源代碼。

    網頁信息

    網頁地址

    自動采集網頁的URL地址。

    網頁標題

    采集網頁的標題。即網頁<title>中的內容。

    文檔數據大小

    采集對象的質量大小[單位:字節]。

    文檔名稱

    當前文檔(文件)的名稱

    文檔后綴

    文檔的文件名后綴

    文檔后綴類型

    文檔后綴的枚舉類型

    文檔視寬

    文檔的寬[如果是圖片數據則為圖片的寬]

    文檔視高

    文檔的[如果是圖片數據則為圖片的]

    文檔層級

    文檔被采集時的鏈接深度(層級)

    原始網頁地址

    當頁面重定向以后,依然保存重定向以前的地址

    時間信息

    網頁創建時間

    文檔創建或網頁發布的時間。

    網頁更新時間

    文檔或網頁更新的時間。

    網頁獲取時間

    ForeSpider采集該網頁的時間。

    當前系統時間

    數據采集入庫的時間。

    采集任務信息

    任務ID

    采集當前任務ID。

    任務名稱

    采集當前任務的名稱。

     


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡