在采集數據之前,通過設置數據清洗規則,軟件可以自動以某種過濾方式,清洗該字段的字符串數據。通過系統自帶的或腳本的方式,可以預先清洗不需要的字符串。
【數據清洗】
數據處理方式 | 描述 | 舉例 |
去除首尾空白符 | 去除該字段數據的首尾空白符。 | 例如去除段落首行縮進符。 |
去除所有空白符 | 去除該字段數據的全部空白符。 | 去除數據中的空白字符。 |
取左串 | 取標識符左邊的字符串。需要在下方“字段處理標識符”處填寫標識符。 | 如“沉睡的雄獅——中國:完成了歷史復興”,需要取“沉睡的雄獅”,在“字段處理標識符”處填寫“——”。 |
取右串 | 取標識符右邊的字符串。需要在下方“字段處理標識符”處填寫標識符。 | 如“沉睡的雄獅——中國:完成了歷史復興”,需要取“完成了歷史復興”,在“字段處理標識符”處填寫“:”。 |
取中間串 | 取兩個標識符中間的字符串。需要在下方“字段處理標識符”處填寫兩個標識符,兩個標識符用“;”隔開。 | 如“沉睡的雄獅——中國:完成了歷史復興”,需要取“中國”,在“字段處理標識符”處填寫“——;:”。 |
標準時間 | 將時間處理成標準的時間格式。 | 將時間處理成“####-##-## ##:##:##”的標準格式。 |
腳本處理 | 通過編寫腳本進行更多數據處理。需要在下方“字段處理腳本”處輸入腳本。 | 使用腳本處理字段數據。 |
使用腳本進行數據清洗的方式如下:
數據清洗方式選擇“腳本處理”后,可以通過編寫腳本進一步把需要的數據清洗干凈。具體配置方法參考腳本教程。