[ after header ] [ Mobile ]

[ after header ] [ Mobile ]

L’IA parle 1600 langues ! Meta libère son système ASR pour l’inclusion numérique

Meta dévoile l'Omnilingual Automatic Speech Recognition (ASR) : La reconnaissance vocale s'étend à plus de 1 600 langues mondiales. Une avancée majeure incluant 500 langues à faibles ressources jamais prises en charge par l'IA auparavant. Le système et son corpus de données sont publiés en open source pour combler la fracture numérique.

LA VÉRITÉ


Meta a dévoilé son nouveau système d’Intelligence Artificielle (IA), l’Omnilingual Automatic Speech Recognition (ASR), capable de transcrire la parole dans plus de 1 600 langues, y compris 500 langues à faibles ressources. Ce développement majeur, annoncé par l’équipe Fundamental AI Research (FAIR) de l’entreprise et publié le 11 novembre 2025, représente un changement significatif visant à rendre la technologie vocale accessible à toutes les communautés linguistiques mondiales.

 

Une couverture linguistique sans précédent

Le système Omnilingual ASR peut transcrire la parole dans plus de 1 600 langues, dont 500 langues qui n’avaient jamais été prises en charge par l’IA auparavant. Historiquement, les systèmes ASR excellaient uniquement pour une poignée de langues à forte ressource, telles que l’anglais, l’espagnol et le mandarin. Cependant, les langues à faibles ressources, souvent parlées par des millions de personnes dans le monde, restaient exclues des systèmes numériques. Meta estime que cette exclusion perpétue les inégalités en matière d’éducation, d’accès et de participation numérique.

Le modèle le plus performant de Meta, le 7B-LLM-ASR (sept milliards de paramètres), obtient des taux d’erreur de caractère inférieurs à 10 pour près de 80 % des langues testées. Cette performance est atteinte en apprenant des représentations généralisées de la parole sans nécessiter d’énormes ensembles de données étiquetées.

 

Ouverture et accessibilité des ressources

En plus du système lui-même, Meta a rendu plusieurs actifs clés disponibles en open-source. L’entreprise a notamment publié Omnilingual wav2vec 2.0, un modèle de parole multilingue auto-supervisé de sept milliards de paramètres. Elle a également mis à disposition l’Omnilingual ASR Corpus, une collection de discours transcrits couvrant 350 langues mal desservies. Les modèles sont publiés sous la licence Apache 2.0, tandis que les ensembles de données sont sous licence CC-BY. Cela garantit qu’ils sont utilisables et modifiables par la communauté mondiale de l’IA.

L’architecture du système réduit la quantité de données et l’expertise requises pour construire des modèles ASR fonctionnels. L’Omnilingual ASR introduit deux variantes de décodeur, l’une basée sur le cadre traditionnel de classification temporelle par connexion (CTC) et l’autre utilisant un décodeur LLM basé sur un transformateur. De plus, le système a la capacité d’intégrer de nouvelles langues avec seulement quelques exemples. Cette technique, empruntée à l’apprentissage contextuel dans les LLM, permet aux locuteurs de langues sous-représentées de contribuer à l’inclusion de leur langue sans nécessiter des calculs haut de gamme ou des ensembles de données massifs.

 

Partenariats et impact global

Afin de constituer l’ensemble de données, Meta a travaillé en collaboration avec des partenaires locaux et des organisations linguistiques à travers le monde. Ces collaborations impliquaient le recrutement et la rémunération de locuteurs natifs pour enregistrer la parole dans leurs propres langues. L’entreprise a notamment collaboré, dans le cadre du Language Technology Partner Program, avec des groupes tels que Common Voice de la Fondation Mozilla et Lanfrica/NaijaVoices. Les portions commandées de ces données de formation ont été publiées publiquement sous le nom d’Omnilingual ASR Corpus, décrit comme le « plus grand ensemble de données ASR spontané ultra-faibles ressources » au monde.

Cette initiative pourrait avoir des implications vastes. Dans le domaine de l’éducation, elle peut soutenir la transcription et la traduction de traditions orales ou de conférences dans les langues natales. Pour les gouvernements et les ONG, elle pourrait rendre les interfaces vocales et les outils de documentation accessibles aux groupes marginalisés. Elle démontre également que les systèmes d’IA à l’échelle mondiale peuvent être construits sur des fondations ouvertes et communautaires.


À lire aussi
commentaires
Loading...
[ Footer Ads ] [ Desktop ]

[ Footer Ads ] [ Desktop ]