Les bébés apprennent à parler en entendant d'autres humains - principalement leurs parents - produire des sons à plusieurs reprises. Lentement, à travers la répétition et la découverte de modèles, les bébés commencent à relier ces sons au sens. Grâce à beaucoup de pratique, ils parviennent finalement à produire des sons similaires que les humains autour d'eux peuvent comprendre.
Apprentissage automatique les algorithmes fonctionnent à peu près de la même manière, mais au lieu d'avoir quelques parents à copier, ils utilisent des données, minutieusement classées par des milliers d'humains qui doivent examiner manuellement le données et dites à la machine ce que cela signifie.
Cependant, ce processus fastidieux et chronophage n'est pas le seul problème avec les données du monde réel utilisées pour former des algorithmes d'apprentissage automatique.
Prenez la détection des fraudes dans les réclamations d'assurance. Pour qu'un algorithme puisse distinguer avec précision un cas de fraude des réclamations légitimes, il doit voir les deux. Des milliers et des milliers des deux. Et parce que AI les systèmes sont souvent fournis par des tiers - donc non gérés par la compagnie d'assurance elle-même - ces tiers doivent avoir accès à toutes ces données sensibles. Vous voyez où cela mène, car il en va de même pour les dossiers médicaux et les données financières.
Plus ésotériques mais tout aussi inquiétants sont tous les algorithmes formés sur du texte, des images et des vidéos. À part question de droit d'auteur, De nombreux les créateurs ont exprimé leur désaccord avec leur travail aspiré dans un ensemble de données pour former une machine qui pourrait éventuellement prendre (une partie de) leur travail. Et cela en supposant que leurs créations ne sont pas racistes ou problématiques d'une autre manière –– ce qui pourrait à son tour conduire à des sorties problématiques.
De plus, que se passe-t-il s'il n'y a tout simplement pas assez de données disponibles pour former une IA à toutes les éventualités ? Dans un Rapport 2016 de la société RAND, les auteurs ont calculé combien de kilomètres « une flotte de 100 véhicules autonomes roulant 24 heures sur 365, 25 jours par an, à une vitesse moyenne de 500 miles par heure » devrait parcourir pour montrer que leur taux d'échec (entraînant des tués ou blessés), était de manière fiable inférieur à celui des humains. Leur réponse ? 11 ans et XNUMX milliards de miles.
Vous n'avez pas besoin d'être un génie super intelligent pour comprendre que le processus actuel n'est pas idéal. Alors, que pouvons-nous faire? Comment pouvons-nous créer suffisamment de données, respectueuses de la vie privée, non problématiques, couvrant toutes les éventualités et étiquetées avec précision ? Vous l'avez deviné : plus d'IA.
De fausses données peuvent aider les IA à traiter des données réelles
Même avant le rapport RAND, il était tout à fait clair pour les entreprises travaillant sur la conduite autonome qu'elles étaient terriblement sous-équipées pour collecter suffisamment de données pour former de manière fiable des algorithmes pour conduire en toute sécurité dans toutes les conditions ou circonstances.
Prenez Waymo, la société de conduite autonome d'Alphabet. Au lieu de s'appuyer uniquement sur leurs véhicules du monde réel, ils ont créé un monde totalement simulé, dans lequel des voitures simulées avec des capteurs simulés pouvaient rouler sans fin, collectant des données réelles sur leur chemin simulé. Selon l'entreprise, en 2020, il avait collecté des données sur 15 milliards de kilomètres de conduite simulée, contre un maigre 20 millions de kilomètres de conduite dans le monde réel.
Dans le langage de l'IA, cela s'appelle des données synthétiques, ou "des données applicables à une situation donnée qui ne sont pas obtenues par mesure directe", si vous voulez être technique. Ou moins techniquement : les IA produisent de fausses données afin que d'autres IA puissent en apprendre davantage sur le monde réel à un rythme plus rapide.
Un exemple est Task2Sim, un modèle d'IA créé par le MIT-IBM Watson AI Lab qui crée des données synthétiques pour la formation des classificateurs. Plutôt que d'apprendre au classificateur à reconnaître un objet à la fois, le modèle crée des images qui peuvent être utilisées pour enseigner plusieurs tâches. La évolutivité de ce type de modèle rend la collecte de données moins longue et moins coûteuse pour les entreprises avides de données.
Ajoutant à cela, Rogerio Feris, un IBM chercheur qui a co-écrit l'article sur Task2Sim a déclaré,
La beauté des images synthétiques est que vous pouvez contrôler leurs paramètres - l'arrière-plan, l'éclairage et la façon dont les objets sont posés.
Grâce à toutes les préoccupations énumérées ci-dessus, la production de toutes sortes de données synthétiques a explosé ces dernières années, avec des dizaines de startups dans le domaine fleurissent et ramasser des centaines de millions de dollars d'investissements.
Les données synthétiques générées vont des «données humaines» comme les dossiers de santé ou financiers aux images synthétisées d'un large éventail de visages humains - à des ensembles de données plus abstraits comme les données génomiques, qui imitent la structure de l'ADN.
Comment créer de vraies fausses données
Cette génération de données synthétiques se produit de plusieurs manières, dont la plus courante et la mieux établie est appelée GAN ou réseaux antagonistes génératifs.
Dans un GAN, deux IA s'affrontent. Une IA produit un ensemble de données synthétiques, tandis que l'autre essaie d'établir si les données générées sont authentiques. Le retour d'information de ce dernier revient dans le premier "entraînement" pour devenir plus précis dans la production de fausses données convaincantes. Vous avez probablement vu l'un des nombreux ce-X-n'existe-pas sites Web – allant des personnes aux chats en passant par les bâtiments – qui génèrent leurs images en fonction des GAN.
Dernièrement, d'autres méthodes de production de données synthétiques ont gagné du terrain. Les premiers sont connus sous le nom de modèles de diffusion, dans lequel les IA sont formées pour reconstruire certains types de données tandis que de plus en plus de bruit - des données qui corrompent progressivement les données de formation - est ajouté aux données du monde réel. Finalement, l'IA peut recevoir des données aléatoires, qu'elle retravaille dans un format sur lequel elle a été formée à l'origine.
Les fausses données sont comme de vraies données sans, eh bien, la réalité
Les données synthétiques, quelle que soit leur forme de production, offrent un certain nombre d'avantages très concrets par rapport à l'utilisation de données du monde réel. Tout d'abord, il est plus facile d'en collecter beaucoup plus, car vous n'avez pas à compter sur les humains pour le créer. Deuxièmement, les données synthétiques sont parfaitement étiquetées, il n'est donc pas nécessaire de compter sur des centres de données à forte intensité de main-d'œuvre pour étiqueter (parfois de manière incorrecte) les données. Troisièmement, cela peut protéger la vie privée et le droit d'auteur, car les données sont, eh bien, synthétiques. Et enfin, et peut-être le plus important, cela peut réduire les résultats biaisés.
L'IA jouant un rôle de plus en plus important dans la technologie et la société, les attentes concernant les données synthétiques sont plutôt optimistes. Gartner a estimé que 60% des données de formation seront des données synthétiques d'ici 2024. Analyste de marché Cognilytica a valorisé le marché de la génération de données synthétiques à 110 millions de dollars en 2021 et atteignant 1.15 milliard de dollars d'ici 2027.
Les données ont été qualifiées de biens les plus précieux à l'ère numérique. La grande technologie s'est assise sur des montagnes de données d'utilisateurs qui lui ont donné un avantage sur les plus petits concurrents dans l'espace de l'IA. Les données synthétiques peuvent donner aux petits acteurs la possibilité de renverser la vapeur.
Comme vous vous en doutez, la grande question concernant les données synthétiques concerne la soi-disant fidélité – ou dans quelle mesure elles correspondent aux données du monde réel. Le jury est toujours sur ce point, mais la recherche semble montrer que la combinaison de données synthétiques avec des données réelles donne des résultats statistiquement solides. Cette année, des chercheurs du MIT et du MIT-IBM AI Watson Lab ont montré qu'un classificateur d'images pré-entraîné sur des données synthétiques en combinaison avec des données réelles, ainsi qu'un classificateur d'images formé exclusivement sur des données réelles.
Dans l'ensemble, les feux stop synthétiques et réels semblent être au vert pour la domination future des données synthétiques dans la formation de modèles d'IA respectueux de la vie privée et plus sûrs, et avec cela, un avenir possible d'IA plus intelligentes pour nous est juste à l'horizon .
[…] Technocratie.news […]
[...] https://www.technocracy.news/training-ai-fake-data-is-cheaper-than-real-data/ [...]
[…] Formation IA : les fausses données sont moins chères que les vraies données […]