13 maart 2023

Google brengt nieuwste update AI-spraakmodel uit

Terug

Een van de vele producten die Google aan het ontwikkelen is, is een spraakmodel (Universal Speech Model - USM), een model dat ‘live’ gesproken taal moet kunnen omzetten. Door gebruikmaking van kunstmatige intelligentie (AI), moet het model uiteindelijk 1000 talen kunnen begrijpen en vertalen. De recent uitgebrachte, nieuwste update is inmiddels getraind in meer dan 300 talen. Het model kan automatische spraakherkenning uitvoeren op veelgebruikte talen zoals Engels en Mandarijn, maar ook op talen zoals Punjabi, Balinees, Shona, Malagasi, Xhosa en Lingala, om er maar een paar te noemen.
Het maken van een spraakmodel kent twee grote uitdagingen:

  • Het eerste is het verkrijgen van voldoende gegevens om AI goed te trainen. Het huidige model is getraind met meer dan 12 miljoen uur gesprekken en 28 miljard zinnen tekst. Sommige talen worden door minder dan twintig miljoen mensen gesproken, waardoor het erg moeilijk is om trainingsgegevens te vinden op YouTube.
  • Ten tweede moet het leeralgoritme flexibel genoeg zijn om grote hoeveelheden gegevens uit verschillende bronnen te gebruiken en toe te passen op nieuwe talen en gebruiksscenario's. In eerste instantie was het model ontworpen om ondertitels op YouTube-video's te maken en automatische spraakherkenning in 100 talen te kunnen doen, maar het moet ook gebruikt kunnen worden voor nieuwe doeleinden en andere talen.

Stand van zaken

Het meest recente model voor YouTube-ondertiteling haalt een foutpercentage van 30% in 73 talen. Maar met slechts 90.000 uur aan doorlopen gegevens presteert dit model al wel beter dan Whisper, een algemeen systeem dat is getraind op meer dan 400.000 uur aan gegevens en een foutprercentage heeft van 40%.
Maar het lijkt er vooralsnog dus op dat er nog heel wat te doen is, voordat het foutpercentage bijvoorbeeld onder de 3% komt en het model daadwerkelijk ingezet kan worden. Maar Google heeft wel aangetoond dat het zijn trainingsproces effectief kan inzetten voor aanpassing aan nieuwe talen en gegevens. Het is nu dus nog een kwestie van heel veel oefenen met materiaal, maar dan kan het ook heel snel gaan.

image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor image decor