Neteja de dades
From Wikipedia, the free encyclopedia
La neteja de dades (en anglès data cleansing o data scrubbing) és l'acció o treball de descobriment, correcció i/o eliminació de registres de dades errònies d'una taula o d'una base de dades. El procés de neteja de dades permet identificar dades incompletes, incorrectes, inexactes, no pertinents, etc. i després substituir, modificar o eliminar aquestes dades brutes ("data duty").
Aquest article o secció no cita les fonts o necessita més referències per a la seva verificabilitat. |
L'article necessita algunes millores pel que fa a l'ortografia i la gramàtica. |
Aquest procés és una part crucial de l'anàlisi de dades, especialment quan es recopilen dades quantitatives.
Després de la neteja, la base de dades podrà ser compatible amb altres bases de dades similars d'un sistema.
Les inconsistències descobertes, modificades o eliminades en un conjunt de dades, poden ser per causa de les definicions de diccionari de dades diferents d'entitats similars, els errors d'entrada de l'usuari i la corrupció en el moment de la transmissió o l'emmagatzematge.
La neteja de dades es diferencia de la validació de dades en el fet que gairebé sempre compleix la funció de rebutjar els registres erronis durant l'entrada al sistema, i no en lots de data. El procés de neteja de dades inclou la validació i, a més, la correcció de dades per tal d'assolir dades de qualitat.