事前數據處理

事前數據處理si6 cin4 sou3 geoi3 cyu5 lei5（data preprocessing）喺機械學習同數據探勘等領域上係攞到數據之後要做嘅第一個步驟。喺搜集數據嘅過程之後，個研究者手上會有一個數據庫，個數據庫嘅數據包含咗每一個個案喺每個變數上嘅數值。喺現實世界當中，搜集數據過程都係唔完全受控嘅，所以搜集到嘅數據幾乎梗會出啲錯，例如係某幾個個案喺某個變數上嘅數值唔見咗（即係所謂嘅缺失數據）或者有啲擺明冇可能嘅數值（例：有個個案喺「年齡」呢個變數嘅數值係負數），等等。呢啲噉嘅數據直接攞去分析嘅話好多時會搞到個程式出錯，所以做機械學習嘅人喺開始俾個程式做學習之前往往會做啲事前處理先^[1]^[2]^[3]。

舉個例說明，假想有個金融學方面嘅學者想用機械學習教個電腦程式預測股價，佢可以去一啲網上嘅金融數據庫嗰度攞某一柞股票喺某一段時間之間嘅價格（睇埋大數據），一隻股票為止一個個案，每隻股票都會喺「2019 年 7 月 1 號嘅價格」同「2019 年 8 月 1 號嘅價格」等嘅多個變數上有個值，但係呢啲數據都係由某啲人或者程式負責搜集嘅，兩者都可能會有失誤：例如可能有某隻股票「2019 年 7 月 1 號嘅價格」係一個唔知嘅數值（數據唔見咗）；又或者搜集數據嘅單位搞錯嘢，有隻股票「2019 年 7 月 1 號嘅價格」係一個冇可能嘅數值（例：負數）。如果個研究者就噉將呢啲數據入俾個機械學習程式處理，個程式好可能會出錯。於是佢就有需要做一啲事前處理，確保佢手上嘅數據庫係可以由機械學習程式處理嘅。

[1]

[2]

[3]