LMi-MAG 7 Juin 2021 - Flipbook - Page 54
FOCUS
Formatage
TOUT SAVOIR SUR
LE DATA WRANGLING ET
L’ANALYSE EXPLORATOIRE
DES DONNÉES
Les données se présentent rarement sous une forme utilisable. Le data wrangling,
ou formatage des données, et l’analyse exploratoire des données font la différence entre
un bon modèle de science des données et un modèle dit « garbage in/garbage out ».
L
Martin Heller, IDG NS (adapté par Jean Elyan)
es novices en science des données
pensent parfois qu’il leur suffit de
trouver le bon modèle pour leurs
données et de l’adapter. Or aucune
approche ne pourrait être plus
éloignée de la pratique réelle de la
science des données. En fait, le data
wrangling ou formatage des données
- également appelé data cleansing (nettoyage des données) ou data munging (regroupement des données) et l’analyse exploratoire des données occupent souvent
80 % du temps du scientifique des données. Malgré la
simplicité conceptuelle du formatage des données et de
l’analyse exploratoire des données, l’accomplissement
correct de ce travail peut s’avérer difficile. Les données
non nettoyées ou mal nettoyées sont des déchets, et le
principe du GIGO (garbage in/garbage out) s’applique
autant à la modélisation et à l’analyse qu’à tout autre aspect du traitement des données.
souhaitée et manquent généralement de contexte. Le
data wrangling consiste à découvrir les données, à les
nettoyer, à les valider, à les structurer pour les rendre
utilisables, à enrichir leur contenu (en ajoutant éventuellement des informations provenant de données
publiques, par exemple les conditions météorologiques
et économiques) et, dans certains cas, à les agréger
et à les transformer. Ce que recouvre exactement le
data wrangling peut varier. Si les données proviennent
d’instruments ou de dispositifs IoT, le transfert de
données peut constituer une partie importante du processus. Si les données sont destinées à être utilisées pour
Le formatage des données est
aussi appelé data cleansing
ou data munging.
Il est rare que les données soient directement utilisables. Elles sont souvent contaminées par des erreurs
et des omissions, présentent peu souvent la structure
54 / juin / juillet / août 2021
© DR
Qu’est-ce que le data wrangling ?