事前數據處理
From Wikipedia, the free encyclopedia
舉個例說明,假想有個金融學方面嘅學者想用機械學習教個電腦程式預測股價,佢可以去一啲網上嘅金融數據庫嗰度攞某一柞股票喺某一段時間之間嘅價格(睇埋大數據),一隻股票為止一個個案,每隻股票都會喺「2019 年 7 月 1 號嘅價格」同「2019 年 8 月 1 號嘅價格」等嘅多個變數上有個值,但係呢啲數據都係由某啲人或者程式負責搜集嘅,兩者都可能會有失誤:例如可能有某隻股票「2019 年 7 月 1 號嘅價格」係一個唔知嘅數值(數據唔見咗);又或者搜集數據嘅單位搞錯嘢,有隻股票「2019 年 7 月 1 號嘅價格」係一個冇可能嘅數值(例:負數)。如果個研究者就噉將呢啲數據入俾個機械學習程式處理,個程式好可能會出錯。於是佢就有需要做一啲事前處理,確保佢手上嘅數據庫係可以由機械學習程式處理嘅。