發表于2017年5月19日20:19最后回復于2017年5月19日20:19

ForeSpider入門教程

26502瀏覽量

6評論

  • 配置表單

    流程:創建表單->添加字段 作用:數據采集之后需要存入數據庫,在ForeSpider中創建的表單,就是數據采集入庫的表結構,一個表單可以供多個頻道使用,可以創建成多個結構相同的數據表。 配置好表單后,創建頻道和模板,可以將網頁中非結構化的數據與表單中的字段一一對應,采集下來存入數據庫,成為結構化的數據。

  • 配置頻道

    流程:創建頻道->輸入采集地址->(進行登錄配置/關鍵詞搜索配置)->設置頻道屬性。 作用:頻道是數據源的采集入口,一個頻道對應著一類采集對象。配置頻道可以填寫采集地址、填寫登錄和Cookie信息、選擇采集屬性等,如果采集對象是網站的搜索欄,還需要配置搜索關鍵詞。

  • 配置模板

    流程:創建模板->輸入示例地址->鏈接頁:(創建鏈接抽取->選擇關聯模板->地址/標題過濾);數據頁:(創建數據抽取->選擇表單->字段取值)。

    作用:模板通過一個示例地址,模板化同一層級的頁面,從而達到批量采集的效果。一個模板對應一個層級的頁面,因此同一層頁面只能配置一個模板,填寫一個示例地址,但是一個模板中可以創建多個鏈接、數據抽取,每個鏈接抽取都要關聯其他模板。

    網站從入口頁到數據頁,一般會有多層的鏈接跳轉。我們為每一層級頁面都對應的建立一個模板,每個模板對應該層級的一個示例地址,模板化同一層級的頁面,從而達到批量采集的效果。

    網站的頁面分為三類:入口頁、鏈接頁和數據頁。 對于入口頁,為該模板找到與下一層級的關聯關系。通過點擊鏈接能夠跳轉到下一層級的,為該模板建立鏈接抽??;通過關鍵詞搜索能夠跳轉到下一層級的,為該頻道配置關鍵詞搜索。 對于鏈接頁,為該模板創建鏈接抽取,通過過濾串來過濾無關鏈接,每個鏈接抽取都要關聯其他模板,形成網站上原有的鏈接跳轉關系,完成各層級頁面之間的關聯關系。 對于數據頁,為該模板創建數據抽取,選擇對應的表單結構,然后通過定位數據,為表單字段取值,獲得數據。 一個采集頻道可以對應多個模板,一個模板只能對應一個示例地址。通過選取一個具有代表性的頁面,為其配置合適的模板,可以采集到網站上與該示例地址層級相同的頁面內容。 用戶在進行模板配置之前,先瀏覽該網站,觀察如何從入口頁點擊到數據頁。中間經歷了幾層頁面,就對應著創建幾個模板;各個頁面之間如何連接,就對應著模板之間的關聯情況。從每一層級選擇一個有代表性的網址,作為該模板的示例地址。 例如淘寶首頁作為一個入口頁,某類商品列表作為鏈接頁,某商品詳情作為數據頁,模板的配置關系如下: 模板 類型 描述 示例地址 抽取類型 關聯情況 模板一 入口頁 淘寶首頁 https://www.taobao.com 一個鏈接抽?。悍诸惲斜?模板二 模板二 鏈接頁 商品列表 https://s.taobao.com/list?spm=a21bo.5 0862.201867-links-0.4.f42Jqp&q=%E 6%AF%9B%E8%A1%A3&cat=16&s tyle=grid&seller_type=taobao 兩個鏈接抽?。荷唐妨斜砗头?模板三 模板三 數據頁 商品詳情 https://item.taobao.com/item.htm?spm =a219r.lm874.14.122.oFiedu&id=540 780593215&ns=1&abbucket=15 數據抽取 商品-表單

  • 數據采集

    流程:連接數據庫->選擇數據表->關閉不需要采集的頻道->(清除日志)->數據采集。 作用:在配置完表單、頻道和模板之后,就可以進行數據采集了。

  • 數據瀏覽

    流程:數據瀏覽->(數據導出) 作用:ForeSpider連接了數據庫,在數據瀏覽頁面可以瀏覽數據庫中的數據。數據可以從數據庫中導出為csv、txt等不同的格式。

  • 私信

    舉報

    女人个人私人电话联系杭州的|热久久久久香蕉无品码|爱情岛亚洲永久自拍品质|国产丶欧美丶日本不卡