Les défis du stockage de données d’une décennie à l’autre 2014-2024, quelles différences ?
mai 2024 par Federica Monsone, fondatrice et CEO de l’agence RP A3 Communications
Comme l’a expliqué A.Einstein, la perception de la vitesse à laquelle le temps passe dépend du point de vue de l’observateur. Pour un chien, une année est perçue comme sept ans pour un humain. Quant au secteur du stockage de données, les changements se produisent à un rythme beaucoup plus rapide que dans la plupart des autres domaines. Aussi, nous avons demandé à un groupe d’experts (16 au total) de comparer les défis en matière de stockage et de gestion des données auxquels les entreprises étaient confrontées il y a dix ans et ceux auxquels elles sont confrontées aujourd’hui. Nous leur avons également demandé comment le paysage actuel du stockage de donnée et ses défis de plus en plus complexes influencent les développements technologiques. Tous s’accordent avec le dicton selon lequel l’histoire ne se répète pas, mais les rendez-vous se ressemblent.
Aussi, plusieurs d’entre eux ont déclaré que les défis en matière de stockage de données auxquels les entreprises informatiques ont été confrontées en 2014 sont très similaires à ceux auxquels elles sont confrontées aujourd’hui. "Les défis n’ont pas beaucoup changé, même si la technologie a évolué. Le plus important était probablement de faire face aux demandes sans cesse croissantes en matière de capacité de stockage. Le deuxième défi était la protection des données. Même si l’intensité des attaques ransomware n’était pas la même qu’aujourd’hui, la protection des données restait un problème majeur. Le troisième défi était le manque de personnel pour gérer la charge de travail liée au stockage. Ce problème de personnel n’a fait qu’empirer depuis", déclare Randy Kerns, senior strategist and analyst du cabinet Futurum Group. Brock Mowry, CTO & VP of products chez Tintri, fournisseur de systèmes de stockage ajoute une précision importante : « Les défis sont fondamentalement les mêmes qu’il y a dix ans, mais la portée et l’ampleur de ces défis ont radicalement changé ».
Erfane Arwani, Président de Biomemory, une start-up spécialisée dans le stockage ADN, a souligné les difficultés à suivre la croissance des données en 2014. « Les entreprises ont lutté pour gérer la croissance exponentielle des données avec des solutions technologiques qui n’étaient pas encore optimisées pour les grands volumes de données » a-t-il déclaré.
E.Arwani a fait remarquer qu’il y a dix ans, les capacités des disques d’entreprise variaient entre 1 et 4To seulement. Au cours des dix années qui ont suivi, les capacités des disques ont grimpé en flèche pouvant supporter aujourd’hui 30 To. Dans le même temps, l’utilisation du stockage flash dans les centres de données a explosé, et les plus grands disques flash d’entreprise ont une capacité désormais supérieure à 60 To.
En 2014, les entreprises se concentraient encore sur le stockage sur site et utilisaient les services de stockage dans le cloud public dans une moindre mesure qu’aujourd’hui. "Il s’agissait de choisir entre NAS et SAN, et les solutions de cloud étaient comparables à des bains de glace bénéfiques mais ne convenant pas à tout le monde", a déclaré Ferhat Kaddour, vice-président des ventes et des partenaires chez Atempo, un fournisseur de logiciels de protection et de gestion des données. Garantir une capacité globale suffisante pour une entreprise est une activité à multiples facettes. "Le défi de l’évolutivité consistait à prévoir les besoins futurs en matière de stockage, à optimiser l’utilisation du stockage et à mettre en œuvre des stratégies efficaces de hiérarchisation du stockage", a déclaré Drew Wanstall, vice president of business development chez Scale Logic, un fournisseur d’infrastructures de stockage et de flux de travail pour la production de médias.
Aujourd’hui, les données continuent de se multiplier à un rythme effréné. "Il est intéressant de voir comment les données continuent de croître à un rythme effréné", a déclaré Enrico Signoretti, vice-président des produits et des partenariats chez Cubbit, un fournisseur de systèmes de stockage cloud géo distribuables. Valéry Guilleaume, Président de Nodeum, fournisseur de logiciels de gestion de données, a identifié certaines des nouvelles sources de données qui perpétuent cette croissance et ont déjà inauguré l’ère de ce que l’on appelle le Big Data. "Aujourd’hui, ce ne sont pas seulement les utilisateurs qui génèrent des données, mais aussi les systèmes développés au sein de chaque industrie, par exemple : les voitures génératrices de données, les microscopes électroniques, les scanners de lames ou les capteurs sismiques. Ces nouvelles sources créent des données à une vitesse sans commune mesure avec les sources génératrices de données d’il y a dix ou quinze ans", a-t-il déclaré.
Toutefois, les difficultés liées à l’augmentation de la capacité de stockage physique pour suivre la croissance des données ont été atténuées, du moins dans une certaine mesure, par l’utilisation accrue du stockage cloud public et par les améliorations apportées à la technologie de stockage des données. Parmi les évolutions technologiques des dix dernières années, la plus notable a été l’énorme réduction du prix de la mémoire flash, qui a conduit à l’utilisation généralisée de la mémoire flash dans les centres de données des entreprises. "La demande de capacité se maintient, mais l’échelle et les performances de la technologie flash permettent une plus grande consolidation et moins de systèmes physiques, moins d’exigences en matière d’énergie, de refroidissement et d’espace, et des moyens plus simples pour améliorer les performances", a déclaré R.Kerns. "La technologie permettant de résoudre les problèmes est disponible et plus efficace qu’il y a dix ans. Le grand problème est d’avoir le personnel nécessaire pour en tirer parti".
Bien que d’autres membres du panel aient déclaré qu’ils pensaient que l’évolutivité du stockage restait un problème majeur, le point de vue de R.Kerns a été repris par d’autres analystes de l’industrie présents dans notre panel. « L’augmentation du nombre de données rend la gestion plus complexe, mais moins que par le passé. Les solutions de stockage sont beaucoup plus évolutives qu’auparavant. Le défi de l’explosion des données, en particulier dans le domaine de l’IA, est de trouver les bonnes données, de les mettre dans le bon format et de les exploiter aussi rapidement que l’organisation le souhaite. Aujourd’hui, le défi n’est pas tant de stocker les données que de les utiliser » a déclaré Scott Sinclair, directeur des pratiques au sein du cabinet d’analystes Enterprise Storage Group (ESG).
David Norfolk, practice leader au sein du cabinet d’analyse Bloor Research, a déclaré : « Les problèmes techniques d’il y a dix ans ont largement disparu. Le stockage est aujourd’hui bon marché, fiable et facilement extensible. Mais la gestion du stockage, y compris la gestion des menaces, est aujourd’hui une source de coûts ».
Les menaces auxquelles Norfolk fait référence comprennent les cyberattaques, dont le nombre et l’intensité ont augmenté de manière significative au cours de la dernière décennie, selon plusieurs experts de notre panel. « La sécurité est clairement le principal défi actuel en matière de stockage de données. Bien qu’il y ait toujours eu des menaces de sécurité de la part d’acteurs et d’utilisateurs malveillants, les problèmes d’aujourd’hui sont en effet plus difficiles et plus coûteux à résoudre, en raison des « ransomware » bien organisés et financés, souvent par des groupes parrainés par l’État » a déclaré Paul Speciale, directeur du marketing chez l’éditeur de logiciels de stockage dans le cloud Scality.
« Avec l’essor continu des ransomwares et l’émergence d’outils d’IA malveillants et de modèles de cybercriminalité as-a-service, la protection des données est au premier plan des défis du stockage aujourd’hui. Les violations sont non seulement plus fréquentes, mais elles sont aussi plus puissantes avec des tactiques améliorées comme la double (et triple) extorsion et les attaques à double souche observées plus récemment », a déclaré Sergei Serdyuk, vice-président de la gestion des produits chez Nakivo, un fournisseur de solutions de sauvegarde, de protection contre les ransomwares et de reprise après sinistre.
Ce n’est pas le seul changement dans le paysage informatique qui a fait augmenter les coûts de gestion du stockage. Il y a dix ans, la croissance des données était alimentée par la numérisation générale des entreprises et par l’utilisation croissante de l’analytique. Aujourd’hui, elle est également alimentée par la nécessité de collecter des données pour former les systèmes d’IA et d’apprentissage automatique et, comme l’a décrit Valéry Guilleaume, par la croissance de l’internet des objets (IoT) en tant que source de données. Bien que le terme IoT ait été inventé dans les années 1990, ce n’est qu’au cours des dix dernières années qu’il est devenu une réalité courante. Dans le même temps, les entreprises ont également stocké davantage de données non structurées, telles que des vidéos et du texte. Les données non structurées représentent aujourd’hui la majorité des données stockées par les entreprises. Contrairement aux données structurées, les données non structurées ne sont pas organisées selon un schéma de base de données prédéfini, ce qui les rend beaucoup plus difficiles à gérer.
« Aujourd’hui, c’est comme naviguer dans un vaste océan de big data. Des interactions avec les clients aux données collectées par les capteurs, même les petites entités gèrent des pétaoctets, et les plus grandes, des exaoctets. Les difficultés ne résident pas seulement dans la quantité de données, mais aussi dans les tactiques stratégiques nécessaires pour les extraire, les classer et les sauvegarder » a déclaré K. Kaddour.
D.Norfolk, de Bloor Research, a mentionné un attribut essentiel des données qui est difficile à atteindre lorsqu’on utilise des données non structurées : « La qualité, maintenant que les données proviennent de l’extérieur, est un élément essentiel de la gestion de l’information ».
L’informatique en périphérie et l’utilisation de clouds publics dans le cadre de stratégies informatiques hybrides ont également compliqué le stockage des données. « La gestion efficace des données à la périphérie est devenue cruciale. Garantir la disponibilité et la résilience des données dans des environnements distribués présente de nouveaux défis », a déclaré Johan Pellicaan, vice-président et directeur général de Scale Computing, un fournisseur de solutions informatiques de pointe, de virtualisation et d’hyperconvergence.
Outre la sécurisation des données à la périphérie, les entreprises doivent également être en mesure de déplacer les données entre plusieurs sites. « Les défis d’aujourd’hui sont tous liés au déplacement des données dans des environnements multicloud et hybrides. Environ 50 % des entreprises indiquent qu’elles déplacent des données entre des environnements sur site et hors site tout le temps ou régulièrement. Ces problèmes sont plus difficiles à résoudre en raison de la disparité des environnements lorsque vos données s’étendent sur AWS, Azure, GCP, le centre de données, la périphérie, etc… », a déclaré Scott Sinclair, practice director au cabinet d’analyste the Enterprise Storage Group (ESG).
Les mouvements de données et le besoin d’interopérabilité entre plusieurs sites informatiques ne sont pas les seules complications créées par l’informatique dématérialisée. « Étant donné que les clouds publics sont l’une des principales solutions pour conserver la majorité des données des entreprises, la dépendance à l’égard de ces fournisseurs externes pour la continuité des activités, ou même d’autres questions plus importantes liées à la souveraineté, est désormais un défi croissant » a déclaré Ricardo Mendes, PDG cofondateur de Vawlt, un fournisseur de logiciels de stockage et de sécurité.
D’autres experts de notre panel ont également mentionné la souveraineté des données comme un défi pour les entreprises utilisant le cloud public. Pour Cubbit, E.Signoretti a déclaré : « Naviguer dans les réglementations complexes de la souveraineté des données, telles que RGPD et NIS2, ajoute une couche de complexité pour les entreprises ».
Les services SaaS dans le cloud public ont également introduit de nouveaux endroits où les données doivent être protégées. « La grande différence aujourd’hui est le nombre d’endroits où les entreprises hébergent des données critiques. Cela est particulièrement évident si l’on considère l’utilisation accrue des applications SaaS. L’entreprise moyenne utilise plus de 200 applications SaaS, mais il existe très peu d’options disponibles pour fournir une protection des données capable d’évoluer pour protéger ces applications et fournir une restauration rapide et granulaire » a déclaré Kim King, directeur marketing produit chez l’éditeur de logiciels de sauvegarde HYCU. Selon K.King, plus de 50 % des attaques ransomware réussies commencent par cibler les applications SaaS.
R.Kerns a confirmé ce point de vue sur la protection des données SaaS. « Répondre aux mêmes exigences d’entreprise pour la protection des actifs informationnels dans le cloud public que dans les locaux a été une expérience d’apprentissage qui a nécessité des efforts et souvent de nouvelles solutions logicielles ». Notez qu’il utilise le passé dans cette déclaration.
Bien que les clouds publics aient posé des problèmes, de nombreux expert ont déclaré que les avantages qu’ils offraient comprenaient la démocratisation des technologies au profit des petites entreprises. D.Norfolk, de Bloor Research, en est un exemple : « Il y avait auparavant une énorme différence entre les grandes entreprises disposant de bases de données adéquates et les petites entreprises dont les armoires de données ne supportaient pas l’ACID [Atomicité, Cohérence, Isolation et Durabilité]. Les technologies en cloud ont permis d’égaliser cette différence ».
Nous avons demandé à nos experts comment les défis actuels modifient les technologies de stockage et les services proposés par les fournisseurs. Selon S.Serdyuk de Nakivo, les défis en matière de sécurité sont relevés en développant des défenses encore plus sophistiquées contre les cyber-attaques. « Les fournisseurs intègrent dans leurs solutions des mécanismes de cryptage avancés, des contrôles d’accès et des fonctions de conformité. Nombre d’entre eux proposent des enclaves sécurisées et une sécurité matérielle pour répondre à l’évolution du paysage des menaces. Cependant, de nombreuses solutions de stockage restent dépourvues d’outils complets de sauvegarde et de récupération » a-t-il déclaré.
La nécessité d’extraire et de classer les données provenant de diverses sources entraîne le développement d’outils logiciels qui automatisent ce processus. S.Serdyuk a ajouté : « Les outils de gestion tels que l’étiquetage des métadonnées, le contrôle des versions et les capacités d’analyse gagnent du terrain ».
« Les solutions émergentes qui permettent d’analyser les données gagnent du terrain. Les nouvelles solutions d’analyse des données permettent désormais de faire parler les données et d’en extraire des métadonnées d’une manière incomparable par rapport à ce qui était possible dans le passé » ajoute Valéry Guilleaume de Nodeum.
Par ailleurs, les entreprises ont désormais besoin d’un logiciel de gestion des données qui prenne en charge les infrastructures hybrides et multiclouds. « Les fournisseurs qui en sont conscients développent des solutions qui facilitent l’intégration avec différents fournisseurs de cloud, l’infrastructure sur site et les configurations mixtes. Ils proposent également des outils permettant une migration et une synchronisation transparentes des données entre les différents environnements » explique S.Serdyuk.
« On observe une tendance à la cohérence des technologies entre les environnements, certains fournisseurs placent leur technologie dans le cloud » a déclaré S.Sinclair. « C’est le cas de NetApp, dont les logiciels de stockage et de gestion des données sur site sont désormais intégrés dans les clouds publics AWS, Microsoft Azure et Google Cloud. « D’autres intègrent des technologies tierces telles que VMware ou Red Hat OpenShift qui peuvent être déployées sur plusieurs sites » a ajouté S.Sinclair.
En ce qui concerne les complications causées par la nécessité de maintenir la souveraineté des données et de se conformer aux multiples réglementations sur les données qui s’appliquent au stockage des données dans ce qui peut être plusieurs clouds publics et plusieurs pays, E.Signoretti, de Cubbit, a déclaré : « Les fournisseurs donnent la priorité aux solutions souveraines pour les industries réglementées comme la santé et le secteur public, en mettant l’accent sur la conformité dans des régions comme l’EMEA et l’APAC. Bien que toujours soumis à la loi CLOUD, Microsoft et AWS ont récemment lancé des offres de stockage en cloud souverain ». Le CLOUD (Clarifying Lawful Overseas Use of Data) act est une législation américaine mise en œuvre en 2018 qui donne aux autorités américaines et non américaines enquêtant sur des crimes le droit d’accéder aux données d’entreprise détenues par les fournisseurs de services.
Sur le plan technique, Craig Carlson, conseiller au conseil technique de la Storage Networking Industry Association (SNIA), a évoqué la nécessité de fournir aux systèmes d’IA un accès rapide aux données. « L’IA est actuellement abordée en examinant ce qui peut être fait pour amener les réseaux à leur plus haut niveau de performance tout en étant hautement évolutifs. Ce travail est en cours dans des groupes tels que Ultra Ethernet » a-t-il déclaré. Un organisme appelé Ultra Ethernet Consortium développe une architecture qui, selon lui, rendra l’Ethernet aussi rapide que les interconnexions de supercalculateurs actuelles, tout en étant hautement évolutif et aussi omniprésent et rentable que l’Ethernet actuel, et en étant rétro compatible. AMD, Arista, Broadcom, Cisco Systems, Huawei, HPE et Intel figurent parmi les membres de ce consortium qui bénéficie d’un important soutien.
Les dernières questions que nous avons posées à nos experts portaient sur les défis futurs auxquels ils s’attendent à ce que les entreprises soient confrontées à mesure que les volumes de données continuent de croître, en particulier dans le contexte de l’IA et de l’apprentissage automatique. Un point de vue consensuel sur la relation entre la taille des données et les difficultés de gestion a été caractérisé par B.Mowry chez Tintri, qui a déclaré : « Plus de données entraîne absolument des défis de plus en plus complexes liés au stockage. La croissance des données augmente les exigences dans toutes les dimensions, soulignant la nécessité d’un plus grand effet de levier selon le proverbe « faire plus avec moins ».
Les leviers plus importants dont nous avons tant besoin seront probablement disponibles grâce au progrès des systèmes de gestion des données - le marquage des métadonnées, le contrôle des versions et les capacités d’analyse évoqués par Valéry Guilleaume. David Norfolk a suggéré que l’IA serait à l’origine de ces progrès et d’autres encore. « Je suppose que le grand problème aujourd’hui est l’industrie de l’IA et son appétit pour les données ainsi que la durabilité et le coût des ressources de vastes quantités de données, même si chaque bit individuel est moins cher à stocker", a-t-il déclaré.
« La qualité des données sera un énorme défi. Les décisions ne devraient pas être basées sur des données obsolètes, incorrectes ou biaisées
L’IA devrait également faire progresser la mobilité des données » selon Valéry Guilleaume.
« L’IA/ML va encore accélérer le besoin de mobilité des données entre les niveaux où elles sont stockées et ceux où elles sont analysées ».
« Ces avancées en matière de gestion du stockage et de mobilité ne se limitent pas uniquement à l’utilisation de l’IA. Il y a toujours un effet de ruissellement dans la technologie. Ainsi, les technologies développées aujourd’hui pour les centres de données d’IA les plus haut de gamme deviendront plus courantes dans quelques années » a déclaré G.Carlson, de la SNIA.
D.Norfolk n’est pas le seul expert à avoir fait référence à la durabilité. Roy Illsley, analyste du cabinet de recherche Omdia, a déclaré : Je pense que la grande question est la suivante : « Comment le stockage et toutes les données que nous possédons peuvent-ils être aussi verts que possible ? À un moment donné, nous devrons soit changer notre mode de vie et notre façon de faire les choses, soit la technologie viendra à notre rescousse. Je pense qu’il s’agira d’une combinaison des deux, ce qui signifie que nous devons trouver un moyen de générer moins de données ou d’être plus précis quant aux données que nous possédons ».
E.Arwani a également cité l’impact environnemental du stockage, notamment en terme d’émissions de CO2 et d’utilisation de l’énergie, comme un défi actuel en matière de stockage, au même titre que l’interopérabilité et la sécurité des plateformes. Il a cité une estimation de l’Agence internationale de l’énergie (AIE) selon laquelle la consommation d’électricité des centres de données en 2022 représentait environ 1 % à 1,3 % de la demande mondiale. L’AIE a également prédit que la consommation d’énergie des centres de données pourrait être multipliée par trois ou quatre d’ici à 2026.
E.Arwani a déclaré : « Ces problèmes sont plus coûteux et plus complexes à résoudre : "Ces problèmes sont plus coûteux et plus complexes à résoudre, car ils nécessitent non seulement des avancées technologiques, mais aussi une prise de conscience et des changements dans la gouvernance des données ».
En ce qui concerne le matériel, G.Carlson a commenté le fait que la courbe de la technologie flash semble s’essouffler, car il est devenu beaucoup plus difficile pour les fabricants de puces flash de réduire les coûts en entassant encore plus de bits de données dans chaque cellule de mémoire flash. « Quelle sera la prochaine technologie qui apportera des performances élevées et fiables au stockage dans les dix à vingt prochaines années ? L’utilisation à long terme du modèle actuel bande-disque-flash pourrait ne pas être possible. D’où le développement de nouvelles technologies (encore très expérimentales) telles que le stockage ADN », a-t-il ajouté.
Sans surprise, E.Arwani de Biomemory, estime que le stockage ADN sera effectivement la solution : « Les fournisseurs développent des solutions plus écologiques, comme les disques durs à l’hélium qui réduisent la consommation d’énergie, ou des technologies de stockage de l’ADN telles que celles développées par Biomemory et Catalog DNA. Ces technologies promettent une densité de stockage d’un exaoctet par gramme et une durabilité de plusieurs millénaires. De plus, elles ouvrent la voie à de nouveaux cas d’utilisation, tels que les premiers centres de données spatiaux. Si cette dernière prédiction se réalise, n’oubliez pas que vous l’avez lu ici en premier ».