目錄
    3.1.4 設置采集內容
    視頻教程:模板下載:

    指該字段需要網頁上獲取的數據內容,在建表時預設,可以重復使用該屬性。也可以在字段配置時單獨設置。

    當字段需要存儲頁面的url地址、采集時間、網頁title等內容時,通過選擇對應的采集,就可以自動為該字段賦值。

    當某字段存儲的是網頁上的內容數據時,比如文章的標題、聯系人名稱、電話號碼等,通過選擇“選區內全部文本”,再在內置瀏覽器上定位,就可以自動獲取網頁的數據。

    序號

    采集內容

    采集子內容

    描述

    1

    空值/常量

    空值/常量

    設置字段為某一個值/文本

    2

    選區內可見文本

    選區內全部文本

    最常用的類型。點擊Ctrl選擇綠框后,采集選區里的全部內容

    選區最外層節點文本

    只取選區內的最外層節點,不取其子節點的內容

    選區最外兩層節點文本

    只取選區內最外層節點和其第一級子節點內容

    網頁內文字文本

    采集整個頁面中所有可見的文字文本不包含源碼

    3

    主鍵

    網頁主鍵

    網頁唯一標識

    自增ID主鍵

    該字段會按照自增順序自動排序

    4

    選區節點

    選區節點名稱

    選區內html代碼中該節點標簽名稱

    選區節點屬性值

    采集選區內該節點的屬性值。需要在“標簽屬性”填寫該節點標簽的屬性,多個屬性用“;”隔開

    5

    網頁代碼/圖片等資源數據

    數據流文件

    采集圖片、視音頻、文件等

    圖片

    采集頁面中位置固定的圖片位置不固定選擇“數據流文件”

    資源數據(pdf、doc...)

    采集頁面中位置固定的資源文件。位置不固定選擇“數據流文件”

    網頁全部內容

    采集網頁全部文本,包含html標簽等,即整個頁面的源代碼

    選區網頁源碼(包含當前標簽)

    采集網頁內所有選區的源代碼(包含當前標簽)

    選區網頁內源碼

    采集網頁內所有選區的源代碼

    6

    網頁信息

    網頁地址

    自動采集網頁的URL地址

    網頁標題

    采集網頁的標題。即網頁<title>中的內容

    文檔數據大小

    采集對象的質量大小[單位:字節]

    文檔名稱

    采集對象的文件名,如***.html,***.doc

    文檔后綴

    文檔的文件名后綴,如html、pdf等

    文檔后綴類型

    文檔后綴所對應的文檔類型:如****.pdf是圖片

    文檔視高

    文檔的[如果是圖片數據則為圖片的]

    文檔視寬

    文檔的寬[如果是圖片數據則為圖片的寬]

    文檔層級

    自動獲取從入口頁當當前數據頁的跳轉層級數目

    原始網頁地址(基地址)

    當網頁的網址重定向時,可以獲取到重定向之前的原始網址。

    7

    時間信息

    網頁創建時間

    文檔創建或網頁發布的時間

    網頁更新時間

    文檔或網頁更新的時間

    網頁獲取時間

    ForeSpider采集該網頁的時間

    當前系統時間

    數據采集入庫的時間

    8

    采集任務信息

    任務ID

    采集當前頻道的ID

    任務名稱

    采集當前頻道的名稱

    任務KEY

    外部數據源采集的關聯ID或者關鍵詞采集與關鍵詞相關的KEY

    任務VALUE

    外部數據源采集關聯的數據或者關鍵詞采集的關鍵詞

    9

    分類信息取值

    挖掘規則取值

    通過分類器進行主題分類時,選取的自動賦值類型。

    分類ID

    分類名稱

    分類路徑

    分類識別詞/規則

    文檔分類ID

    文檔分類名稱

    文檔分類路徑

    文檔分類識別詞/規則

    10

    高級取值

    腳本取值

    由用戶自己編寫腳本為字段取值時,選擇該類型。

    模板取值

    當前字段的所需數據不在當前頁面在另一頁面時,選擇模板取值,可以用另外一個模板的內容來填充該字段的值。

    事件取值

    預留功能

    示例:<ul>百度<li>搜索<a href=”www.baidu.com”>引擎</a></li></ul>

    1選區內全部文本

    采集選區全部標簽下的內容,“百度搜索引擎”。

    2選區最外層節點文本

    采集最外層<ul>節點的文本,不采集<li>和<a>文本,此時采集到的內容為:“百度”。

    3選區最外兩層節點文本

    只采集<ul><li>的內容,不采集<a>的內容,此時采集到的內容為:“百度搜索”。


    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡