AWS EMR

Plateforme de clusters gérés qui simplifie l'exécution des infrastructures big data, telles qu'Apache Hadoop et Apache Spark, sur AWS pour traiter et analyser de grandes quantités de données.

AWS AMR

AWS EMR est un framework Big Data pour le traitement de grandes quantités de données à l'aide d'outils open source tels que Apache Spark, Apache Hive, Apache HBase. AWS EMR est complètement intégré à l'écosystème AWS Big Data, en particulier avec S3 Bucket pour le stockage des données. C'est l'un des services les plus utilisés sur AWS, lié à la plateforme Big Data, grâce à sa facilité et à la fiabilité de ses fonctions basées sur les Clusters.

Les clusters sont des ensembles d'instances Elastic Compute Cloud (Amazon EC2), et chaque instance est appelée "node".

Voir un exemple de migration

Master Node

Un node avec des composants logiciels qui exécute uniquement des tâches et ne stocke pas de données dans HDFS. Les nodes de tâches sont facultatifs

Core Node

Un node exécute des tâches et stocke des données dans le système HDFS d’un cluster. Les clusters multi-nœuds possèdent au moins un nœud central.

Task Node

Un node avec des composants logiciels qui exécute uniquement des tâches et ne stocke pas de données dans HDFS. Les nodes de tâches sont facultatifs

Avantages

Amazon EMR s'intègre à d'autres services AWS pour fournir des capacités et des fonctionnalités liées au réseau, au stockage et à la sécurité de votre cluster.

Sécurité intégrée à l'application AWS

Évolutivité et flexibilité

Avec EMR, vous pouvez rapidement exécuter votre module dans un cluster composé de plusieurs groupes d'instances. Ainsi, par exemple, vous pouvez utiliser des instances à la demande dans un groupe pour une puissance de traitement garantie, ainsi que des instances ponctuelles dans un autre groupe pour que vos travaux soient exécutés plus rapidement et à moindre coût. En outre, les clusters EMR sont évolutifs à tout moment, afin que les algorithmes soient toujours exécutés dans un environnement sur mesure. En outre, EMR permet d'utiliser différentes couches de stockage, HDFS ou EMRFS. Dans le premier cas, les données sont stockées à l'intérieur de HDFS dans le Core Node de vos clusters, évitant ainsi de stocker ces données de manière permanente. Dans le second cas, vous pouvez stocker les données sur S3 en tant que couche de données pour les applications fonctionnant sur votre cluster, ce qui vous permet de séparer le calcul et le stockage, et de conserver les données en dehors du cycle de vie de votre cluster.

Fiabilité

Amazon EMR surveille les nœuds de votre cluster et arrête et remplace automatiquement une instance en cas de défaillance. Amazon EMR propose des options de configuration qui contrôlent la manière dont votre cluster est terminé, automatiquement ou manuellement. Si vous configurez votre cluster pour qu'il se termine automatiquement, il se termine une fois que toutes les étapes sont terminées. Il s'agit alors d'une grappe transitoire. Toutefois, vous pouvez configurer la grappe pour qu'elle continue à fonctionner une fois le traitement terminé, afin que vous puissiez choisir de la terminer manuellement lorsque vous n'en avez plus besoin. Vous pouvez également créer une grappe, interagir directement avec les applications installées, puis mettre fin manuellement à la grappe lorsque vous n'en avez plus besoin. Dans ces exemples, les grappes sont appelées grappes à longue durée d'exécution.

Facilité de déploiement et de contrôle

AWS EMR est facile à déployer, il suffit de configurer le nombre et le type de nœuds et le cluster est opérationnel en quelques minutes. Le déploiement de l'application est également très facile et peut être automatisé à l'aide d'outils CI/CD comme Jenkins. AWS EMR s'intègre à CloudWatch pour suivre les mesures de performance du cluster et des travaux au sein du cluster. Vous pouvez configurer des alarmes basées sur une variété de mesures telles que l'inactivité du cluster ou le pourcentage de stockage utilisé.

Réduction des coûts

Meilleures Pratiques

Data Reply, AWS Premier Consulting Partner, a développé une forte expertise sur la mise en œuvre de la plateforme AWS Big Data. Au cours de cette période, nous avons acquis une expertise dans l'utilisation d'AWS EMR, ce qui peut garantir la fiabilité et la réduction des coûts dans son utilisation.

Governance
Logging
Coûts

La gouvernance d'AWS EMR est possible grâce à un tableau de bord centralisé qui offre au client la possibilité de gérer (créer, supprimer, dimensionner, configurer,...) les clusters, permettant aux utilisateurs d'avoir toujours une vision claire des coûts et de la puissance du cluster. De plus, en utilisant EMR en collaboration avec Glue, il est possible de créer un catalogue de données centralisé, où vous pouvez consommer les métadonnées associées aux données et aux tables utilisées par EMR.

AWS EMR est totalement intégré à AWS Cloudwatch. Grâce à cette fonctionnalité, nous pouvons collecter des logs et des métriques liés à EMR, et les utiliser pour surveiller en permanence les pipelines.

Un des avantages d'AWS EMR est la possibilité d'utiliser des Instances Spot. Les Instances Spot sont des capacités Amazon EC2 inutilisées pour lesquelles vous faites une offre ; le prix que vous payez est déterminé par l'offre et la demande d'Instances Spot. Le coût de l'utilisation des instances Spot peut être inférieur de 80 % à celui de l'utilisation des instances On-Demand. Toutes les charges de travail ne peuvent pas être exécutées sur des instances Spot ; dans ce cas, nous pouvons utiliser des machines on-demand, qui peuvent être partagées entre plusieurs petits travaux ou équipes.

Approche Migratoire

En tant que Data Reply, nous apportons notre expertise en matière de migration AWS, acquise dans différents secteurs industriels, au fil de plusieurs années de projets. Nous avons distillé notre expertise dans notre approche de la migration, qui consiste en 4 modules qui peuvent être combinés et sélectionnés en fonction du niveau de maturité du client :

Expériences et cas d'utilisation de l'entreprise

Comprendre les principaux défis et objectifs de l'entreprise, afin d'identifier les lacunes et les opportunités, et de planifier l'état actuel et futur.

Atelier Technique

Au cours de la phase d'atelier, nous réalisons une évaluation technique et des opportunités, en planifiant une session d'approfondissement technique, afin d'identifier les critères de réussite de la migration, les résultats du Data Lake pour l'entreprise.

Pilot

La phase pilote vise à créer une solution testable pour les clients. Nous définissons l'architecture cible, exécutons la migration des données, et, après l'UAT, le pilote est prêt à être mis en service !

Mise en oeuvre

La mise en œuvre se fait par vagues avec l’approche Dual Target, suivie d’imports, validations et tests avant le GO LIVE.

Data Reply

Data Reply est la société du groupe Reply offrant une large gamme de services d'analyse avancée et de données alimentées par l'IA. Nous opérons dans différentes industries et fonctions commerciales, en travaillant directement avec des professionnels de niveau exécutif et des directeurs généraux leur permettant d'obtenir des résultats significatifs grâce à l'utilisation efficace des données.