LMi-MAG 6 Mars 2021 - Flipbook - Page 24
ENTRETIEN
Giovanni CLÉMENT
Directeur groupe de la technologie, responsable
de l'ingénierie et des opérations du groupe Adeo
Le FinOps, c'est
un peu la corrélation
entre la consommation
et la conscience
écologique.
C'est la maîtrise de notre
croissance d'un point
de vue financier, avec
une résultante
écoresponsable.
Il y a également une intention très forte de lier tout ce
qu’on peut observer techniquement et de l’apporter aux
métiers, de le vulgariser pour les métiers. Non pas pour
avoir d’un côté, le métier qui utilise les métriques métiers et de l’autre, la technologie qui utilise les métriques
technologiques, mais pour avoir un groupe qui corrèle
tout cet écosystème de métriques pour le client. Que signifie un problème technique pour les métiers ? Principalement, un impact pour le client qui sera mécontent.
Dès lors, comment passe-t-on d’un modèle réactif à un
modèle anticipatif ? La mise en place de cette stratégie
n’est pas uniquement l’affaire de la technologie, mais
celle de tout le monde. Comment le métier va influencer
l’utilisation de la technologie pour pouvoir anticiper et
faire de la technologie pour le client? C’est l’amorçage
des préceptes que l’on peut voir dans le product management. Sur l’observabilité, cela concerne la manière
d’apporter les chiffres aux métiers pour que l’on ait un
groupe qui fonctionne de façon centrale, comme une
équipe.
sa résolution. Typiquement, une métrique MTTR, cela
parle uniquement à un technicien. Par contre, l’amener
aux métiers, c’est ce qui fait sa réelle valeur. Nous monitorons tout ce qui peut l’être. C’est l’émergence du site reliability engineering, mouvement du SRE initié au départ
par Google mais qui est l’évolution de la façon de faire des
opérations, en lien avec les métiers. Globalement, nous
monitorons les applications, les infrastructures, la qualité
du réseau. On peut même parler de métriques business
puisque, via le mouvement SRE, on va agréger des métriques qui expliquent ou décrivent quand une application est fonctionnelle, c’est-à-dire quand ses métriques
technologiques, de performance ou d’impact client sont
bonnes. Donc, nous ne mesurons pas uniquement un indice de santé applicatif mais également des indices de
performance métiers au sein de Datadog et l’agrégation
des deux fera que nous aurons vraiment un état de santé
de la qualité de services proposée aux clients. C’est extrêmement important pour nous de suivre l’ensemble de la
chaîne avec, au bout, la satisfaction client qui nécessite de
réagir immédiatement s’il y a des temps d’attente, si une
application est tombée, etc.
Vous aviez déjà des outils d’observabilité
avant d’adopter Datadog. Sur quels critères
votre choix s’est-il opéré ?
Quel est le périmètre applicatif concerné
par les outils mis en place ?
GC : Il y a plusieurs parties dans l’observabilité. Cela
va de la collecte à la présentation, c’est-à-dire la façon
d’exploiter ces données de façon visuelle. Nous avons
déjà un partenariat stratégique avec Google sur le cloud
qui nous permet de facilement récupérer des logs sur la
partie stockage, avant exploitation. Nous stockons sur Big
Query, du chaud et du froid. Le chaud, ce sont des logs
avec une rétention particulière qui ont vocation à être
exploités très rapidement et le froid, c’est ce que nous
archivons, ce sont des logs qui ont perdu leur valeur intrinsèque instantanée, mais sur lesquels nous souhaitons une historisation. Sur ces deux façons d’exploiter
les logs, on utilise différentes technologies. Et globalement ces logs sont transmis directement à Datadog pour
une exploitation sur une semaine. Nous avons choisi cet
outil pour exploiter facilement ce qu’on récupère de différentes sources et vulgariser. Datadog permet vraiment
de travailler la datavisualisation. Nous avions besoin d’un
outil extrêmement puissant pour sortir toute la valeur
de nos logs et les apporter de façon différente. Nous en
récupérons énormément. Les logs peuvent s’exploiter de
différentes façons selon les personnes qui les utilisent.
GC : Nous observons tout ce qui peut être observé. Les
incidents le sont à partir de métriques brutes qui ont
besoin d’être exploitées pour apporter de la valeur. Par
exemple, le MTTR, mean time to recover, c’est-à-dire le
temps moyen de réaction à partir d’un événement jusqu’à
Les métiers vont souhaiter des métriques un peu orientées performances, des pourcentages qui agrègent
d’autres métriques, des indices qui peuvent être exploités
au premier coup d’œil. Les équipes opérationnelles vont
utiliser ces informations pour faire évoluer la plateforme.
24 / mars / avril / mai 2021