Big Data dans le Cloud - Quel est le niveau de sécurité de nos données?

Auteur: Roger Morrison
Date De Création: 19 Septembre 2021
Date De Mise À Jour: 1 Juillet 2024
Anonim
Big Data dans le Cloud - Quel est le niveau de sécurité de nos données? - La Technologie
Big Data dans le Cloud - Quel est le niveau de sécurité de nos données? - La Technologie

Contenu


Source: Cuteimage / Dreamstime.com

À emporter:

Explorez les plus grandes menaces pour le Big Data dans le nuage et découvrez des moyens de vous protéger.

Le volume de données volumineuses augmente énormément de jour en jour. De 2 500 exaoctets en 2012, le big data devrait passer à 40 000 exaoctets en 2020. Par conséquent, le stockage des données est un défi de taille que seule l'infrastructure du cloud peut gérer. Le nuage est devenu une option populaire principalement en raison de son énorme capacité de stockage et de ses conditions d'utilisation qui n'imposent aucune obligation à l'abonné. Le stockage en nuage peut être offert sous la forme d'abonnements et les services durent pendant une période prédéterminée. Après cela, le client n’a aucune obligation de le renouveler.

Cependant, le stockage de données volumineuses dans le nuage pose de nouveaux problèmes de sécurité auxquels ne peuvent répondre les mesures de sécurité adoptées pour les données statiques régulières. Bien que le big data ne soit pas un concept novateur, sa collecte et son utilisation ont commencé à s'accélérer ces dernières années seulement. Dans le passé, le stockage et l’analyse de données volumineuses ne concernaient que les grandes entreprises et le gouvernement qui disposait des infrastructures nécessaires au stockage et à l’exploitation de données. Cette infrastructure était propriétaire et non exposée aux réseaux généraux. Cependant, le big data est désormais disponible à moindre coût pour tous les types d'entreprises via l'infrastructure de cloud public. En conséquence, de nouvelles menaces sophistiquées pour la sécurité sont apparues et elles continuent à se multiplier et à évoluer.


Problèmes de sécurité dans les cadres de programmation distribués

Les cadres de programmation distribués traitent le Big Data avec des techniques de calcul et de stockage parallèles. Dans de tels frameworks, les mappeurs non authentifiés ou modifiés, qui divisent des tâches énormes en sous-tâches plus petites afin que les tâches puissent être agrégées pour créer un résultat final, peuvent compromettre les données. Les nœuds de travail défectueux ou modifiés, qui prennent des entrées du mappeur pour exécuter les tâches, peuvent compromettre les données en exploitant la communication de données entre le mappeur et les autres nœuds de travail. Les nœuds de travail non autorisés peuvent également créer des copies de nœuds de travail légitimes. Le fait qu’il soit extrêmement difficile d’identifier des mappeurs non autorisés ou des nœuds non fiables dans un cadre aussi vaste rend encore plus difficile la sécurité des données.


La plupart des infrastructures de données en nuage utilisent la base de données NoSQL. La base de données NoSQL est bénéfique pour la gestion de grands ensembles de données non structurés, mais du point de vue de la sécurité, elle est mal conçue. NoSQL a été conçu à l'origine sans aucune considération de sécurité. L'intégrité transactionnelle est l'une des plus grandes faiblesses de NoSQL. Ses mécanismes d'authentification sont médiocres, ce qui le rend vulnérable aux attaques d'interception ou de rejeu. Pour aggraver les choses, NoSQL ne prend pas en charge l'intégration de modules tiers pour renforcer les mécanismes d'authentification. Les mécanismes d'authentification étant plutôt laxistes, les données sont également exposées à des attaques d'initiés. Les attaques peuvent passer inaperçues et ne pas être suivies en raison de la faiblesse des mécanismes de journalisation et d'analyse des journaux.

Problèmes liés au journal de données et aux transactions

Les données sont généralement stockées sur un support de stockage à plusieurs niveaux. Il est relativement facile de suivre les données lorsque le volume est relativement petit et statique. Mais lorsque le volume augmente de manière exponentielle, des solutions de hiérarchisation automatique sont utilisées. Les solutions de hiérarchisation automatique stockent les données à différents niveaux, mais ne suivent pas les emplacements. C'est un problème de sécurité. Par exemple, une organisation peut disposer de données confidentielles rarement utilisées. Cependant, les solutions de hiérarchisation automatique ne feront pas la distinction entre les données sensibles et non sensibles, mais se contenteront de stocker les données rarement consultées dans le niveau le plus bas. Les niveaux les plus bas ont la sécurité disponible la plus basse.

Problèmes de validation des données

Dans une organisation, les mégadonnées peuvent être collectées à partir de diverses sources, notamment des périphériques clients tels que des applications logicielles et des périphériques matériels. Il est difficile de s’assurer que les données collectées ne sont pas malveillantes. Toute personne ayant des intentions malveillantes peut altérer le périphérique qui fournit les données ou l’application qui collecte les données. Par exemple, un pirate informatique peut provoquer une attaque Sybil sur un système, puis utiliser les fausses identités pour fournir des données malveillantes au serveur ou au système de collecte central. Cette menace est particulièrement applicable dans un scénario BYOD (Branchez votre propre appareil), car les utilisateurs peuvent utiliser leurs appareils personnels au sein du réseau de l'entreprise.

Surveillance en temps réel de la sécurité des données volumineuses

La surveillance en temps réel des données est un défi de taille, car vous devez surveiller à la fois l’infrastructure Big Data et les données qu’elle traite. Comme indiqué précédemment, l'infrastructure Big Data du cloud est constamment exposée à des menaces. Des entités malveillantes peuvent modifier le système pour qu'il accède aux données, puis générer sans relâche des faux positifs. Il est extrêmement risqué d'ignorer les faux positifs. En plus de cela, ces entités peuvent essayer d'éviter la détection en construisant des attaques d'évasion ou même en utilisant un empoisonnement des données pour réduire la fiabilité des données en cours de traitement.

Pas de bugs, pas de stress - Votre guide étape par étape pour créer un logiciel qui change la vie sans vous détruire

Vous ne pouvez pas améliorer vos compétences en programmation lorsque personne ne se soucie de la qualité des logiciels.

Stratégies pour faire face aux menaces à la sécurité

Les stratégies de sécurité des mégadonnées en sont encore à leurs balbutiements, mais elles doivent évoluer rapidement. Les réponses aux menaces à la sécurité résident dans le réseau lui-même. Les composants réseau ont besoin d'une fiabilité absolue, ce qui peut être obtenu avec des stratégies de protection des données solides. Les mesures de protection des données laxistes doivent faire l’objet d’une tolérance zéro. Il devrait également exister un mécanisme puissant et automatisé de collecte et d'analyse des journaux d'événements.

Améliorer la fiabilité dans les cadres de programmation distribués

Comme indiqué précédemment, les mappeurs non approuvés et les nœuds de travail peuvent compromettre la sécurité des données. Ainsi, la fiabilité des mappeurs et des nœuds est requise. Pour ce faire, les mappeurs doivent authentifier régulièrement les nœuds de travail. Lorsqu'un noeud de travail envoie une demande de connexion à un maître, la demande est approuvée sous réserve que le travailleur ait un ensemble prédéfini de propriétés de confiance. Ensuite, le travailleur sera régulièrement examiné pour vérifier sa conformité aux politiques de confiance et de sécurité.

Politiques de protection des données solides

Les menaces à la sécurité des données en raison de la faiblesse inhérente de la protection des données dans l'infrastructure distribuée et la base de données NoSQL doivent être traitées. Les mots de passe doivent être hachés ou cryptés avec des algorithmes de hachage sécurisés. Les données inactives doivent toujours être cryptées et non laissées à l'air libre, même après avoir pris en compte l'impact sur les performances. Le chiffrement matériel et en bloc de fichiers est de nature plus rapide et pourrait résoudre les problèmes de performances dans une certaine mesure, mais le chiffrement d'une appliance matérielle peut également être violé par des attaquants. Compte tenu de la situation, il est recommandé d’utiliser SSL / TLS pour établir des connexions entre le client et le serveur et pour la communication entre les nœuds du cluster. De plus, l'architecture NoSQL doit autoriser les modules d'authentification tiers enfichables.

Une analyse

Les analyses de données volumineuses peuvent être utilisées pour surveiller et identifier les connexions suspectes aux nœuds du cluster et exploiter en permanence les journaux pour identifier les menaces potentielles. Bien que l'écosystème Hadoop ne comporte aucun mécanisme de sécurité intégré, d'autres outils peuvent être utilisés pour surveiller et identifier les activités suspectes, sous réserve que ces outils respectent certaines normes. Par exemple, ces outils doivent être conformes aux instructions du projet OWASP (Open Web Application Security). On s'attend à ce que la surveillance en temps réel des événements s'améliore grâce à certains développements déjà en cours. Par exemple, le protocole SCAP (Security Content Automation Protocol) est progressivement appliqué au Big Data. Apache Kafka et Storm promettent d'être de bons outils de surveillance en temps réel.

Détecter les valeurs aberrantes lors de la collecte de données

Il n’existe toujours pas de système anti-intrusion pour empêcher complètement les intrusions non autorisées au moment de la collecte des données. Cependant, les intrusions peuvent être considérablement réduites. Tout d'abord, les applications de collecte de données doivent être développées de manière à être aussi sécurisées que possible, en gardant à l'esprit le scénario BYOD lorsque l'application peut s'exécuter sur plusieurs périphériques non fiables. Deuxièmement, des attaquants déterminés vont probablement violer le système de collecte central, même le plus puissant des systèmes de défense et des données malveillantes. Donc, il devrait y avoir des algorithmes pour détecter et filtrer ces entrées malveillantes.

Conclusion

Les vulnérabilités Big Data dans le cloud sont uniques et ne peuvent pas être traitées par les mesures de sécurité traditionnelles. La protection des mégadonnées dans le nuage est encore un domaine naissant car certaines bonnes pratiques, telles que la surveillance en temps réel, sont en train de se développer et que les meilleures pratiques ou mesures disponibles ne sont pas strictement mises à profit. Néanmoins, compte tenu de la rentabilité des mégadonnées, les mesures de sécurité ne manqueront pas de se rattraper dans un proche avenir.