L'unité DeepMind de Google, qui travaille au développement d'ordinateurs super intelligents, a créé un système de synthèse vocale générée par une machine qui surpasse de loin la technologie existante de 50%.
DeepMind, basé au Royaume-Uni, que Google a acquis pour environ 400 (533), a développé une intelligence artificielle appelée WaveNet qui peut imiter le discours humain en apprenant à former les ondes sonores individuelles créées par une voix humaine, a-t-il déclaré. article de blog vendredi. Lors de tests à l'aveugle concernant l'anglais américain et le chinois mandarin, des auditeurs ont découvert que les discours générés par WaveNet semblaient plus naturels que ceux créés avec l'un des programmes de synthèse vocale existants de Google, basés sur différentes technologies. WaveNet continue de sous-performer les enregistrements de la parole humaine.
De nombreux programmes de parole générés par ordinateur fonctionnent en utilisant un grand ensemble de données de courts enregistrements d’un seul locuteur humain, puis en combinant ces fragments de parole pour former de nouveaux mots. Le résultat est intelligible et semble humain, sinon complètement naturel. L'inconvénient est que le son de la voix ne peut pas être facilement modifié. D'autres systèmes forment la voix de manière entièrement électronique, généralement basée sur des règles relatives à la manière de prononcer certaines combinaisons de lettres. Ces systèmes permettent de manipuler facilement le son de la voix, mais ils ont tendance à sembler moins naturels que les discours générés par ordinateur basés sur des enregistrements de locuteurs humains, a déclaré DeepMind.
WaveNet est un type d'IA appelé réseau neuronal conçu pour imiter le fonctionnement de certaines parties du cerveau humain. Ces réseaux doivent être formés avec de grands ensembles de données.
Pat cloue la situation avec son commentaire, encore une fois.