Google Translate franchit une nouvelle étape avec l’ajout de 110 nouvelles langues, incluant des langues africaines, créoles et cantonais.
Google Translate réalise sa plus grande expansion jamais vue avec l’ajout de 110 nouvelles langues. La société attribue cette avancée notable à son modèle de langage de grande taille, PaLM 2 (de 2023 avant Gemini), qui a rendu cela possible.

Google Translate ajoute 110 nouvelles langues
PaLM 2 a été un élément clé du puzzle, aidant Translate à apprendre plus efficacement les langues qui sont étroitement liées les unes aux autres. Vous avez, entre autres, des langues proches de l’hindi, comme l’awadhi et le marwadi. Ainsi que les créoles français comme le créole seychellois et le créole mauricien.
Ces ajouts couvrent plus de 614 millions de locuteurs, « ouvrant ainsi des traductions pour environ 8 % de la population mondiale. » Il s’agit de la plus grande expansion de Google pour les langues africaines à ce jour, avec un quart des ajouts d’aujourd’hui venant d’Afrique.
Certaines sont des langues mondiales majeures avec plus de 100 millions de locuteurs. D’autres sont parlées par de petites communautés de peuples autochtones, et quelques-unes n’ont presque plus de locuteurs natifs, mais font l’objet d’efforts actifs de revitalisation.
Quelques nouveautés à découvrir
Afar est une langue tonale parlée à Djibouti, en Érythrée et en Éthiopie. De toutes les langues de ce lancement, l’afar a eu le plus de contributions communautaires bénévoles.
Le cantonais a longtemps été l’une des langues les plus demandées pour Google Translate. Comme le cantonais chevauche souvent le mandarin à l’écrit, il est difficile de trouver des données et de former des modèles.
Le mannois est la langue celtique de l’île de Man. Elle a failli disparaître avec la mort de son dernier locuteur natif en 1974. Mais grâce à un mouvement de renouveau à l’échelle de l’île, il y a maintenant des milliers de locuteurs.
NKo est une forme standardisée des langues mandingues de l’Afrique de l’Ouest qui unifie de nombreux dialectes en une langue commune. Il faut préciser que son alphabet unique a été inventé en 1949. En outre, il a une communauté de recherche active qui développe des ressources et des technologies pour elle aujourd’hui.
Le pendjabi (Shahmukhi) est la variété du pendjabi écrite en script perso-arabe (Shahmukhi). C’est également la langue la plus parlée au Pakistan.
Le tamazight (amazigh) est une langue berbère parlée à travers l’Afrique du Nord. Bien qu’il existe de nombreux dialectes, la forme écrite est généralement mutuellement compréhensible. Elle est écrite en alphabet latin et en tifinagh, tous deux pris en charge par Google Translate.
Le tok pisin est un créole basé sur l’anglais et la langue véhiculaire de la Papouasie-Nouvelle-Guinée. Si vous parlez anglais, essayez de traduire en tok pisin, vous pourriez être capable de comprendre le sens !
À l’avenir, Google souhaite « soutenir encore plus de variétés linguistiques et de conventions orthographiques au fil du temps. » L’objectif plus large est de « construire des modèles d’IA qui soutiendront les 1 000 langues les plus parlées dans le monde. »
Ce qu’il faut retenir
- Ajout massif : Google Translate ajoute 110 nouvelles langues, sa plus grande expansion à ce jour.
- PaLM 2 : Le modèle de langue PaLM 2 a permis cette avancée.
- Impact mondial : Ces ajouts couvrent plus de 614 millions de locuteurs.
- Diversité linguistique : Inclusion de langues majeures et de communautés autochtones.
- Langues spécifiques : Le cantonais, le mannois, NKo, le pendjabi (Shahmukhi), le tamazight (amazigh), et le tok pisin sont inclus.




0 commentaires