Talsyntes

Talsyntes (ofta även text-till-tal eller TTS, efter det engelska text-to-speech) är namnet för tekniker för att skapa artificiellt tal för att efterlikna människans röst skapat med datorer. Talsyntes kan implementeras både i programvara och maskinvara. Man kan dela in talsyntes i två huvudtyper:

En maskin som ska kunna läsa upp meningar i ett särskilt sammanhang, var och en bestående av ett antal förinspelade ord ur en begränsad mängd.
En maskin som ska kunna läsa upp en tidigare okänd text på ett sätt som är rätt, tydligt samt behagligt att lyssna på.

Typ 1: Hopklippt tal

Den första kategorin finns exempelvis i telefonväxlar, till exempel:

"Anknytning fjorton femtiotre sextioåtta är på tjänsteresa och återkommer den tjugosjunde februari klockan nollåtta och trettio."

I detta fall kan alla ord uttalas med neutralt tonfall. Tydlighet är viktigare än att "låta mänsklig". Det systemet gör är bara att byta ut enstaka ord som datum, klockslag och anledning till att personen inte svarar. Alla ord som systemet ska använda finns redan förinspelade och datorn kan, så att säga, bara slå upp rätt ord i sitt "lexikon".

Typ 2: Syntetiserat tal

Syntetiskt tal av den andra typen är det som man oftast avser då man talar om talsyntes. Detta är betydligt mer komplicerat. Eftersom alla tänkbara ord omöjligt kan finnas inspelade måste man istället konstruera åtminstone de ovanligare orden med hjälp av antingen helt syntetiserade språkljud, fonem, eller genom att klippa ihop stavelser ifrån förlagrade inspelade fonem. I det senare fallet är det i praktiken nödvändigt att använda bifoner, det vill säga förlagrade tvåfonemssekvenser eller hela stavelser, eftersom varje fonem i naturligt tal redan föregriper nästa språkljud och i praktiken inte förekommer i ren och neutral form. På detta sätt går det idag att generera ord med rimligt människolik uttalskvalitet. Större kvarstående utmaningar är till exempel lånord och kodväxling, där ordens uttal inte följer språkets standarduttalsmönster.

Syntetiserat tal upplevs ofta som monotont, även om uttalet av de enstaka orden skulle vara helt korrekta. Efter fonemgenerering måste talsignalen hantera språkets prosodi, det vill säga tempo, betoning och satsmelodi. Vissa av dessa skillnader finns att hämta redan i vanlig skriven text, till exempel i skiljetecken som kan hjälpa skilja mellan frågor, utrop och påståenden. Även då kvarstår en hel del problem, vilket kan åskådliggöras med följande enkla fråga som kan uttalas på minst fem sätt beroende på sammanhanget.

Har Lisa klippt gräset? (Neutral fråga, ja eller nej.)

Har Lisa klippt gräset? (Förvånad, trodde inte hon hade gjort det)

Har Lisa klippt gräset? (Det var ju vattna det hon skulle göra.)

Har Lisa klippt gräset? (Det var ju Pelle som skulle göra det.)

Har Lisa klippt gräset? (Det var ju häcken hon skulle klippa.)

Modernare talsyntesenheter har därför stöd för programmerbar satsmelodi och betoningar som måste föras in som "taggar" i texten. Att få fram mer naturtroget tal är ännu en forskningsfråga och tekniker från artificiell intelligens och maskininlärning används för att förbättra dagens talsyntesprogramvara.

Se även

Externa länkar

Wikimedia Commons har media som rör Talsyntes.
Bilder & media