LMi-MAG 7 Juin 2021 - Flipbook - Page 55
l’entrepôt de données d’effectuer ensuite
l’apprentissage machine, le travail sur les
OUTILS D’EXTRACTION
DE DONNÉES – ETL
toutes les transformations nécessaires. Que
données peut inclure de la normalisation
l’on dispose de lacs, d’entrepôts, de tous ces
ou de la standardisation ainsi qu’une
Cahier des charges
éléments ou d’aucun d’entre eux, le procesréduction de dimensionnalité. Si l’anasus ELT est plus approprié que le processus
lyse exploratoire des données est destiETL pour l’analyse de données et plus partinée à être effectuée sur des ordinateurs
culièrement pour l’apprentissage machine.
personnels disposant d’une mémoire et
La raison à cela, c’est que l’apprentissage
d’un stockage limités, le processus de
cutt.ly/etl
machine oblige souvent à itérer sur les
formatage peut inclure l’extraction de
transformations de données au service de
sous-ensembles de données. Si les donl’ingénierie des fonctionnalités, ce qui est très important
nées proviennent de sources multiples, les noms des
pour faire de bonnes prédictions.
champs et les unités de mesure peuvent nécessiter une
consolidation par le biais d’un mappage et d’une transformation des données.
La capture de données d’écran
Qu’est-ce que l’analyse exploratoire
des données ?
L’analyse exploratoire des données est étroitement associée à John Tukey, de l’université de Princeton et des
Bell Labs. C’est en 1961 que John Tukey propose l’analyse
exploratoire des données et, en 1977, il écrit un livre à ce
sujet. Son intérêt pour l’analyse exploratoire des données
a influencé le développement du langage statistique S
aux Bell Labs, qui a ensuite donné naissance aux langages de programmation S-Plus et R. John Tukey trouvait
que l’on accordait une importance excessive aux tests
d’hypothèses statistiques, également appelés analyse
confirmatoire des données, et c’est ce qui a motivé son
travail sur l’analyse exploratoire des données. La différence entre les deux, c’est que dans l’analyse exploratoire
des données, on commence par étudier les données et on
les utilise ensuite pour suggérer des hypothèses, au lieu
de sauter directement aux hypothèses et d’ajuster des
lignes et des courbes aux données. En pratique, l’analyse
exploratoire des données combine des graphiques et des
statistiques descriptives. Dans un chapitre de son livre
souvent cité, John Tukey utilise le langage R pour explorer
l’économie vietnamienne des années 1990 à l’aide d’histogrammes, d’estimations par noyau, de diagrammes en
boîte, de moyennes et d’écarts types, et de graphiques
d’illustration.
ETL et ELT pour l’analyse des données
Dans la pratique classique des bases de données, l’ETL
(extract, transform and load) fait référence au processus d’extraction des données d’une source de données,
souvent une base de données transactionnelle, de leur
transformation en une structure adaptée à l’analyse et de
leur chargement dans un entrepôt de données. L’ELT (extract, load and transform) est un processus plus moderne
qui consiste à introduire les données dans un lac ou un
entrepôt de données sous forme brute, à charge pour
pour l’exploration de données
Il arrive que les données soient disponibles sous une
forme illisibles par les programmes d’analyse, que ce
soit sous forme de fichier ou via une API. Mais qu’en
est-il lorsque les données ne sont disponibles que sous
forme de sortie d’un autre programme, par exemple un
site Web sous forme de tableaux ? Il n’est pas très difficile d’analyser et de collecter des données Web à l’aide
d’un programme qui imite un navigateur Web. Ce processus de capture de données d’écran est appelé screen
scraping, Web scraping ou data scraping. À l’origine, le
screen scraping consistait à lire des données textuelles
sur l’écran d’un terminal d’ordinateur. Aujourd’hui, il est
beaucoup plus courant que les données soient affichées
dans des pages Web HTML. [Lire l’intégralité de l’article
sur lemondeinformatique.fr]
APPROFONDIR
ÉCOUTER EN LIGNE
Podcast
cutt.ly/wrangling-podcast
LIRE EN LIGNE
Article
cutt.ly/wrangling-article
55