Adoption de solutions d’analyse de données dans le Cloud

Objectifs de formation

Une fois cette unité terminée, vous pourrez :

Expliquer les défis liés aux outils de collecte et d’analyse de données sur site
Énumérer les avantages des analyses de données s’appuyant sur le Cloud

Création d’une solution d’analyse de données dans le Cloud

Au fur et à mesure que les activités commerciales se sont complexifiées, les outils et les services sont devenus plus puissants pour permettre aux organisations de suivre le rythme. L’évolution des techniques d’analyse de données, qui employaient autrefois du matériel sur site coûteux et qui maintenant ont recours à des architectures s’appuyant sur le Cloud, en est un parfait exemple. Raf met en évidence les différences entre ces deux approches dans la vidéo suivante.

Afficher la transcription

[Raf] Vous savez peut-être déjà que le Cloud est davantage flexible, évolutif, sécurisé, distribué et résilient. Toutefois, je souhaite employer une approche davantage axée sur les données pour présenter les raisons pour lesquelles le Cloud computing est pertinent pour les analyses de données. Dans cette section, j’expliquerai pourquoi le Cloud est à ce jour la meilleure infrastructure pour effectuer des analyses de données, et pourquoi il est efficace pour manipuler des mégadonnées. Très bien, commençons.

Avant de commencer à parler de Cloud, permettez-moi de remonter le temps, peut-être d’une décennie, et de vous raconter une petite histoire. Après ce voyage dans le temps, vous comprendrez naturellement pourquoi tout le monde aime faire des analyses de données dans le Cloud. Prêt pour le voyage ? Servez-vous votre boisson favorite, et bouclez votre ceinture !

(tasse qui tombe par terre)

(vrombissement)

Il y a des années, l’approche la plus courante qu’adoptaient les entreprises pour obtenir une infrastructure informatique notamment capable de gérer des métadonnées était d’acheter des serveurs et de les installer dans des centres de données. On désigne généralement ce procédé par le terme de colocalisation, ou colo. Le problème, c’est que les serveurs utilisés pour les opérations de données ne sont pas bon marché, parce qu’ils ont besoin de beaucoup de stockage, consomment beaucoup d’électricité, et nécessitent d’être entretenus de façon minutieuse pour assurer la pérennité des données.

De ce fait, des équipes d’infrastructure doivent leur être entièrement dédiées. Vous pouvez me croire, car j’ai été l’un de ces analystes d’infrastructure travaillant avec des centres de données. Ils sont coûteux et complexes à gérer.

Dans un tel contexte, seules les grandes entreprises étaient en mesure de travailler avec des mégadonnées. Par conséquent, l’analyse de données n’était pas une pratique répandue. Il était très courant pour ces serveurs d’avoir un contrôleur de stockage RAID qui répliquait les données des disques, ce qui augmentait encore plus les coûts et les besoins en matière de maintenance.

Au début des années 2000, les opérations relatives aux mégadonnées étaient étroitement liées au matériel sous-jacent, tel que les ordinateurs centraux et les clusters de serveurs. Bien que cela était extrêmement rentable pour ceux qui commercialisaient le matériel, il s’agissait de solutions onéreuses et peu flexibles pour les consommateurs. C’est alors que quelque chose de fantastique a commencé à se produire. Une solution incroyable nommée Apache Hadoop est apparue.

Hadoop permet essentiellement de remplacer tout ce matériel sophistiqué par des logiciels installés dans les systèmes d’exploitation. Oui, vous avez bien entendu. Avec l’aide de Hadoop et des infrastructures informatiques, les données pouvaient être distribuées et répliquées sur plusieurs serveurs en utilisant des systèmes distribués. Ainsi, il n’y avait plus besoin de ce matériel de réplication de données hors de prix pour pouvoir travailler avec des mégadonnées.

Il suffisait de disposer d’un équipement réseau efficace pour que les données soient synchronisées sur le réseau et transmises à d’autres serveurs. En acceptant les échecs au lieu d’essayer de les éviter, Hadoop a contribué à réduire la complexité sur le plan matériel. En réduisant la complexité du matériel, vous réduisez les coûts.

En réduisant les coûts, vous commencez à démocratiser les mégadonnées, car les petites entreprises peuvent alors également commencer à en tirer parti. Bienvenue dans le boom des mégadonnées.

J’ai d’abord évoqué Hadoop, car il s’agit de l’écosystème de mégadonnées open source le plus répandu. Il en existe toutefois d’autres. Ce que je voulais mettre en avant ici, c’est le concept, et non des structures ou des fournisseurs spécifiques.

Il se trouve qu’en limitant le matériel à des infrastructures de base et en transposant à des logiciels tous les concepts relatifs aux mégadonnées, tels que la réplication de données, nous pouvions commencer à envisager d’exécuter des opérations de mégadonnées en faisant appel à des fournisseurs capables de proposer des machines virtuelles dotées de stockage et d’une carte réseau connectée. Nous pouvions commencer à envisager d’utiliser le Cloud pour élaborer des lacs de données, des entrepôts de données et des solutions d’analyse de données complets.

Depuis, le Cloud computing s’est imposé comme une alternative attrayante, car c’est exactement ce qu’il fait. Vous pouvez obtenir des machines virtuelles, installer le logiciel qui s’occupera de la réplication des données, des systèmes de fichiers distribués et des écosystèmes de mégadonnées entiers, et obtenir satisfaction sans avoir à dépenser beaucoup d’argent sur les aspects matériels. L’avantage, c’est que le Cloud va encore plus loin.

De nombreux fournisseurs de Cloud, tels qu’Amazon Web Services, ont commencé à constater que leur clientèle créait des machines virtuelles pour installer des outils et des structures de mégadonnées. Suite à ce constat, Amazon a commencé à créer des offres où tout était déjà installé, configuré, et prêt à l’emploi. C’est la raison pour laquelle il existe des services AWS tels qu’Amazon EMR, Amazon S3, Amazon RDS, Amazon Athéna et bien d’autres. C’est ce que nous appelons des services gérés. Tous ces services AWS opèrent dans le domaine des données. Dans une prochaine leçon, je parlerai davantage de certains des services dont nous aurons besoin pour élaborer notre solution d’analyse de données de base.

L’un des autres grands avantages d’exécuter des analyses de données dans le Cloud, c’est que vous pouvez arrêter de payer pour les ressources d’infrastructure lorsque vous n’en avez plus besoin. Ceci est très courant dans les analyses de données, parce qu’en raison de la nature des opérations de mégadonnées, vous n’aurez peut-être besoin d’exécuter des rapports que de temps en temps. De plus, cela est facile à réaliser dans le Cloud : vous lancez le serveur ou les services, les utilisez, obtenez le rapport dont vous avez besoin, enregistrez ce rapport, puis éteignez tout.

De plus, vous pouvez lancer temporairement plus de serveurs pour accélérer l’exécution de vos tâches et les éteindre lorsque vous avez terminé. Par ailleurs, comme vous payez surtout pour le temps et les ressources nécessaires, 10 serveurs fonctionnant pendant 1 heure ont tendance à coûter le même prix qu’un serveur fonctionnant pendant 10 heures. Essentiellement, avec le Cloud, vous avez accès à l’infrastructure matérielle sans avoir à vous préoccuper des problématiques liées à la gestion d’un centre de données. Vous gagnez donc sur les deux plans.

Avez-vous regardé la vidéo ?

N’oubliez pas que le questionnaire comporte des questions sur la vidéo de cette unité. Si vous ne l’avez pas encore regardée, revenez en arrière et faites-le maintenant. Ensuite, vous serez prêt à répondre au questionnaire.

Besoin d'aide ?

Adoption de solutions d’analyse de données dans le Cloud

Objectifs de formation

Création d’une solution d’analyse de données dans le Cloud

Avez-vous regardé la vidéo ?