Talsyntes

Från Wikipedia
Hoppa till: navigering, sök

Talsyntes är artificiellt tal som ska efterlikna människans röst skapat med datorer. Tekniken kan implementeras både i mjukvara och hårdvara. Man kan dela in talsyntes i två huvudtyper:

  1. En maskin som ska kunna läsa upp meningar i ett särskilt sammanhang, var och en bestående av ett antal förinspelade ord ur en begränsad mängd.
  2. En maskin som ska kunna läsa upp en helt okänd text på ett sätt som är rätt, tydligt samt behagligt att lyssna på.

Typ 1[redigera | redigera wikitext]

Den första kategorin stöter vi ofta på i exempelvis telefonväxlar, till exempel:

"Anknytning fjorton femtiotre sextioåtta är på tjänsteresa och återkommer den tjugosjunde februari klockan nollåtta och trettio."

I detta fall kan alla ord uttalas med neutralt tonfall. Tydlighet är viktigare än att "låta mänsklig". Det systemet gör är bara att byta ut enstaka ord som datum, klockslag och anledning till att personen inte svarar. Alla ord systemet ska använda finns redan förinspelade och datorn kan så att säga bara slå upp rätt ord i sitt "lexikon".

Typ 2[redigera | redigera wikitext]

Syntetiskt tal av den andra typen är det som man oftast avser då man talar om talsyntes. Detta är betydligt mer komplicerat. Eftersom alla tänkbara ord omöjligt kan finnas inspelade måste man istället konstruera åtminstone de ovanligare orden med hjälp av fonem, vilket ungefär motsvarar förinspelade stavelser. Sådant tal låter ofta monotont och tråkigt, även om uttalet av de enstaka orden är helt korrekt. Det är ganska enkelt att förbättra naturtrogenheten en aning genom att lära programmet uttalsskillnader mellan till exempel vanliga meningar, frågor och utrop, dessa skillnader syns ju på skiljetecknen, men även då kvarstår en hel del problem, vilket kan åskådliggöras med följande enkla fråga som kan uttalas på minst fem sätt beroende på sammanhanget.

Har Lisa klippt gräset? (Neutral fråga, ja eller nej.)
Har Lisa klippt gräset? (Förvånad, trodde inte hon hade gjort det)
Har Lisa klippt gräset? (Det var ju vattna det hon skulle göra.)
Har Lisa klippt gräset? (Det var ju Pelle som skulle göra det.)
Har Lisa klippt gräset? (Det var ju häcken hon skulle klippa.)

Datorn förstår inte vad den läser och kan därför inte anpassa uttal och betoningar efter sammanhanget. Vissa talsyntesenheter har stöd för programmerbar satsmelodi och betoningar som måste föras in som "taggar" i texten. I enklare enheter "lurar" man ibland talsyntesen genom lustiga felstavningar och särskrivningar som ger ett mer "korrekt" uttal. För att få mer "intelligent" bot på detta problem har man börjat använda sig av artificiell intelligens i talsyntesprogramvaran, men trots det återstår mycket innan man fått fram en maskin som läser tillnärmelsevis lika bra som en tränad människa. Vidare kan man ju tänka sig till exempel engelska facktermer eller franska ortnamn i en svensk text för att ytterligare komplicera det hela.

Se även[redigera | redigera wikitext]

Externa länkar[redigera | redigera wikitext]