Rechercher

Maîtriser le déluge de données pour en extraire de la valeur

gettyimages 2172249360
Maîtriser le déluge de données pour en extraire de la valeur

Il est de notoriété publique qu’une quantité colossale de données est créée chaque minute, chaque jour. Les contenus et images générés par l’IA et l’IA générative n’ont fait qu’amplifier cette montagne de données. En contraste avec cette profusion numérique actuelle, l’un des plus anciens documents écrits connus est une plainte client gravée dans de l’argile, âgé d’environ 3 500 ans. Les générations futures regarderont-elles les données que nous produisons aujourd’hui avec le même intérêt ?

Une contribution par Jonathan Bourhis, Country Manager France de Pure Storage.

 

Face au déluge de données auquel nous sommes confrontés aujourd’hui, il faut stocker plus d’informations que jamais. Coûteuses, difficiles à gérer, peu performantes et inefficaces sur le plan énergétique, les solutions de stockage ne pourront pas soutenir les entreprises d’aujourd’hui. La question est de savoir comment gérer les volumes générés, tout en anticipant les besoins à venir.


 

La différence de valeur entre les données générées par l’homme et celles générées par des machines

Une proportion croissante des données créées chaque jour provient de machines plutôt que d’êtres humains. Par exemple, la quantité de données générée par une seule caméra de surveillance en haute définition. Où l’on peut ajouter à cela toutes les données produites par les systèmes informatiques pour des raisons de sécurité, de résilience ou de conformité réglementaire, et on comprend facilement pourquoi les entreprises peuvent se sentir dépassées par cette masse de données. À cela s’ajoutent encore les données générées par l’IA, un nouveau défi que de nombreuses entreprises commencent à peine à appréhender, ce qui souligne l’urgence d’adopter une stratégie à la fois évolutive et flexible pour faire face à ce déluge d’informations.

Même si l’on doute que les générations futures étudieront ces données avec un grand intérêt, il est largement reconnu qu’il vaut mieux en conserver un maximum, comme il suffit d’un seul incident pour regretter d’avoir supprimé un certain data set. On observe d’ailleurs une prise de conscience croissante que les données créées par l’homme sont devenues essentielles pour entraîner les nouveaux modèles d’IA et éviter ce que l’on appelle “l’effondrement des modèles”. La valeur des données créées par l’homme est donc nettement plus élevée.

 

Enjeux de croissance et gravité des données

On estime que 90 % des données disponibles dans le monde ont été générées au cours des deux dernières années. Concrètement, cela signifie que les données produites dans les prochaines années dépasseront rapidement, en volume, l’ensemble de celles déjà accumulées. Cette croissance exponentielle rend indispensable la mise en place de politiques adaptées en matière de localisation, de protection et de conservation des données, comme les enjeux associés ne feront que s’amplifier avec le temps.

La gravité des données signifie que non seulement un ensemble de données devient plus difficile à déplacer au fur et à mesure qu’il grandit, mais il tendra aussi à attirer d’autres ensembles de données plus petits au même endroit, notamment s’ils sont liés par les mêmes applications. Cela aggrave le problème, car les regroupements de data sets prennent de l’ampleur, et les applications qui en dépendent deviennent, à leur tour, très difficiles à migrer ou à adapter à d’autres environnements.

Dorénavant, une question se pose : comment faire face au déluge de données ? Voici quelques stratégies que les entreprises devraient envisager pour mieux faire face à ces défis.

 

Un placement hybride et une certaine mobilité : La plupart des grandes organisations adoptent une approche hybride du cloud, avec certains ensembles de données hébergés sur site et d’autres dans le cloud public. Il est essentiel de comprendre les implications en termes de coût, sécurité et résilience, et de réagir rapidement, car plus les données croissent, plus elles sont complexes à déplacer. Une question clé qui peut être bien de se poser est : “Mes choix restent-ils pertinents si ce dataset est multiplié par dix ?” Un taux de croissance de 40 % y mène en seulement sept ans. Si les données doivent être déplacées, cela doit pouvoir se faire sans réécriture des couches supérieures logicielles ou d’infrastructure.

 

Une consommation à la demande pour de nouveaux besoins : La consommation à la demande de systèmes de stockage sur site peut aider non seulement à répondre à des besoins imprévus, mais aussi à comprendre les besoins actuels. Mais également le profil de croissance des nouvelles applications et des ensembles de données associés.

 

Une sécurité et un besoin croissant de résilience des données : La montée des attaques par ransomware ainsi que des exigences réglementaires de plus en plus larges ont entraîné un accent accru sur la résilience des données. Plus de résilience implique souvent plus de copies de données et de systèmes pour les gérer. Il faut rechercher des solutions offrant une résilience cyber des données avec une faible empreinte en termes de stockage, mais aussi avec une récupération rapide, avec des OTR de plus en plus courts, souvent inaccessibles aux sauvegardes traditionnelles.

 

La durabilité : Les coûts de durabilité doivent également être pris en compte. Cela comprend l’efficacité énergétique des systèmes de stockage de données ainsi que leur “coût carbone”. L’efficacité énergétique s’évalue en capacité et performance par watt et le coût carbone sur l’ensemble du cycle de vie (fabrication, transport, démantèlement).

 

Un archivage à long terme : Soyez très attentifs lors de l’évaluation des solutions d’archivage et de conservation à long terme des données (qu’elles soient sur site ou dans le cloud), car leur profil de coût sera très différent si les données sont consultées (même rarement) par rapport à des données complètement froides. Prenez en compte le coût total basé sur un ratio réaliste de données consultées. Cela comprend les délais logistiques pour les supports comme les bandes.

 

Le cas particulier des données vidéo : La vidéo représente environ 50 % des données mondiales, il est donc logique d’employer des stratégies spécifiques pour la gérer. Les progrès en compression et optimisation ont réduit les besoins en stockage, mais les besoins en accès ont évolué. Traditionnellement, une grande partie des données vidéo était archivée, mais l’essor de la vision par IA pousse à les analyser. Ces données nécessitent un stockage adapté à leur conservation et un accès simultané croissant. Le stockage Flash haute capacité peut faciliter à la fois un stockage économique et un accès aux données avec les performances requises.

 

Il y aura toujours des exigences et des options différentes en matière de stockage de données. Les besoins métiers évoluent, de nouveaux projets émergent, les capacités sont atteintes, de nouvelles réglementations entrent en vigueur. Tout cela s’accompagne d’un flux constant d’innovations technologiques tant dans la génération que dans le stockage des données. Une partie de l’innovation se concentre désormais sur le stockage sur céramique, matériau ayant prouvé sa capacité à protéger les données, même les plaintes client les plus banales, sur de longues périodes. Recherchez une plateforme de données qui offre de la flexibilité (tant en termes d’options de placement que de cohérence entre les clouds, ainsi que de mobilité des données), qui puisse être consommée à la demande ou détenue, et qui soit capable de répondre aux nouveaux besoins d’accès aux données, de sécurité et de résilience de la manière la plus efficace possible.

 


À lire également : Villes et données : l’énorme manque à gagner d’une exploitation encore trop timide

Vous avez aimé cet article ? Likez Forbes sur Facebook

Abonnez-vous au magazine papier

et découvrez chaque trimestre :

1 an, 4 numéros : 30 € TTC au lieu de 36 € TTC