banner
Centre d'Information
Le système qualité que nous avons mis en place garantit le meilleur à nos clients.

Plus de données, plus de problèmes ? 10 conseils pour gérer les données d'IA générative

Jun 17, 2023

Le contenu de la datamation et les recommandations de produits sont indépendants du point de vue rédactionnel. Nous pouvons gagner de l'argent lorsque vous cliquez sur des liens vers nos partenaires. Apprendre encore plus.

La plupart des responsables informatiques et de nombreux dirigeants réfléchissent, voire planifient et exécutent déjà, à des initiatives basées sur l'IA. Il existe des dizaines d'outils rien que chez les trois plus grands fournisseurs de cloud public pour l'IA et l'apprentissage automatique, au-delà des nombreuses technologies open source qui ont fait leur apparition depuis le lancement de ChatGPT à l'automne 2022.

Le potentiel est énorme : le marché de l’IA générative est sur le point de croître pour atteindre 1 300 milliards de dollars au cours des 10 prochaines années, contre une taille de marché de seulement 40 milliards de dollars en 2022, selon un nouveau rapport de Bloomberg Intelligence.

La réussite de l’IA repose sur des données de qualité, en particulier des données non structurées. Le succès de l’IA dépend de la conservation et de la gestion appropriées de ces données de fichiers et d’objets, qui représentent au moins 80 % de toutes les données dans le monde. Cet article identifie les défis de ces efforts et propose 10 conseils pour les relever.

Les données non structurées, compte tenu de leur volume et des nombreux types de fichiers et formats différents qu'elles comprennent (des documents et images aux données de capteurs et d'instruments, vidéos, etc.), sont difficiles à gérer. Souvent distribués sur plusieurs systèmes de stockage dans une entreprise de plus en plus hybride et multi-cloud, il est difficile de rechercher, de segmenter et de se déplacer selon les besoins.

En raison de leur croissance, les données non structurées sont coûteuses à stocker et à sauvegarder. En fait, une majorité (68 %) des entreprises interrogées en 2022 consacrent 30 % ou plus de leur budget informatique au stockage. Ces problèmes sont aggravés dans les secteurs à forte intensité de données, car les copies de données redondantes, obsolètes et triviales (ROT) sont rarement supprimées par les chercheurs et autres équipes une fois les projets terminés.

La gestion des données non structurées pour l'IA nécessite de nouvelles solutions et tactiques, notamment une approche centrée sur les données pour guider les décisions rentables en matière de stockage et de mobilité des données entre les fournisseurs et les cloud.

Il est également de plus en plus nécessaire de garantir que les bons ensembles de données sont exploités. Une nouvelle recherche de Stanford a révélé que les performances des grands modèles de langage (LLM) « diminuent considérablement à mesure que le contexte d’entrée s’allonge, même pour les modèles explicitement à contexte long ». En d’autres termes, la conservation des bons ensembles de données peut être plus importante que les grands ensembles de données, selon le projet.

Les solutions, directives et pratiques d’IA générative évoluent quotidiennement. Mais établir les bases d’une gestion intelligente des données non structurées peut aider les organisations à s’adapter et à s’adapter à cette ère de transformation. Voici quelques tactiques à considérer.

L'indexation des données est un moyen puissant de catégoriser toutes les données non structurées de l'entreprise et de les rendre consultables par métadonnées clés (données sur vos données) telles que la taille du fichier, l'extension du fichier, la date de création du fichier et la date du dernier accès. La visibilité est essentielle pour placer les données au bon endroit afin de répondre aux besoins changeants de l'entreprise en matière d'archivage, d'analyse, de conformité, etc.

Lorsqu’on jette les bases de l’IA, il est préférable d’avoir plus d’informations. Plus vous disposez d'informations sur vos données, mieux vous serez préparé à les transmettre aux outils d'IA et de ML au bon moment, et mieux vous serez préparé pour garantir que vous disposez de l'infrastructure de stockage adaptée à ces nouveaux cas d'utilisation. . Au minimum, vous devrez comprendre les volumes et les taux de croissance des données, les coûts de stockage, les principaux types et tailles de données, les statistiques d'utilisation des données par département et les données « chaudes » ou actives par rapport aux données « froides » ou rarement consultées.

Une fois que vous avez un niveau de compréhension de base sur vos actifs de données, vous pouvez les enrichir avec des métadonnées pour des fonctionnalités de recherche supplémentaires. Par exemple, vous souhaiterez peut-être rechercher des fichiers contenant des informations personnellement identifiables (PII) ou des données client, des données de propriété intellectuelle (IP), le nom de l'expérience ou l'ID de l'instrument. Ces fichiers pourraient être segmentés pour un stockage conforme ou pour alimenter une plateforme d'analyse.

Avec autant de cas d'utilisation dans les organisations aujourd'hui pour l'IA et d'autres recherches, les liaisons informatiques centrales et départementales doivent travailler ensemble pour concevoir des stratégies de gestion des données. Cela garantit que les utilisateurs ont un accès rapide à leurs données les plus importantes, mais peuvent également accéder aux données plus anciennes archivées sur un stockage à faible coût lorsqu'ils en ont besoin.