Interessante ervaring met een tekst naar stem AI-applicatie

De afgelopen week heb ik bij Hogeschool voor de Kunsten kennis gemaakt met een interessante applicatie waarmee je op basis van geschreven tekst podcasts kunt maken.

voxpopIk ben een intensief gebruiker van ChatGPT en via deze generatieve AI-applicatie maak ik ook afbeeldingen met DALL-E. Andere ontwikkelingen op het gebied van generatieve AI volg ik ook, maar ik ben geen gebruiker.

De afgelopen week heb ik bij mijn opdrachtgever HKU een inspiratiedag bijgewoond. Daar heb ik kennisgemaakt met een applicatie die men met behulp van Elevenlabs heeft gemaakt en waarmee je op basis van geschreven tekst podcasts kunt maken. Je kunt daarbij heel intuïtief fragmenten invoeren en elk fragment door een andere stem laten uitspreken. Je kunt er daarbij ook voor kiezen of je een achtergrond geluid wilt gebruiken. Uiteraard kun je ook een intromuziekje en een afsluitend muziekje er aan toe voegen. Met een druk op de knop maak je vervolgens een podcast. Dat ging erg goed.

Ik heb afgesproken de link van de applicatie niet te delen, omdat de toepassing nog experimenteel is. Je kunt bij Tom van de Wetering terecht voor meer informatie: https://www.linkedin.com/in/twetering/ 

Dit initiatief leidde er ook toe dat ik me wat meer ben gaan verdiepen in Elevenlabs. ElevenLabs’ AI-stemtechnologie stelt je in staat geschreven teksten automatisch te vertalen naar gesproken tekst met realistisch klinkende stemmen. Daarnaast kun je video’s automatisch in 29 talen vertalen (gesproken tekst). In de gratis versie werd 1 minuut van een video van mij in keurig Duits vertaalt.

Het maken van educatieve video’s voor doelgroepen uit diverse landen, het meer toegankelijk maken van educatieve video’s voor mensen die de oorspronkelijke taal niet beheersen, wordt daarmee eenvoudiger. Ook kun je leerinhoud gemakkelijker beschikbaar maken voor mensen die om wat voor reden dan ook moeite hebben met geschreven taal (zoals ernstig dyslectische lerenden). Communicatie tussen werknemers van een internationaal opererend bedrijf, die verschillende talen spreken, verloopt soepeler.

Deze toepassingen werken nog niet allemaal perfect. De intonatie is bijvoorbeeld voor verbetering vatbaar. De applicaties weten nog niet heel goed welke emotie mee gegeven moet worden met een uitspraak. Maar ik vind het heel bijzonder wat al allemaal mogelijk is met ‘van tekst naar spraak’-toepassingen.

Nota bene: mijn blog is bijna een dag offline geweest. Heeft volgens mij te maken gehad met het toevoegen van een DNS-record. Bovendien kon ik dat record vanochtend pas verwijderen omdat het controlpanel van mijn hostingprovider ook onbereikbaar was. Excuus daarvoor.

 

This content is published under the Attribution 3.0 Unported license.

Delen

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *