Formant

Från Wikipedia
Hoppa till: navigering, sök
Spektrogram med synliga formanter

Formanter är frekvensband med hög energi hos röster eller hos musikinstrument. De framträder som tydliga band vid spektralanalys av sådana ljud och flyttar sig inte när ljudets tonhöjd ändras.

Snäv och vid definition[redigera | redigera wikitext]

Inom tal- och språkforskning definieras formant enbart som en resonans i människans ansatsrör.[1][2] Ansatsröret är håligheterna i svalg, mun och näsa. Ett ansatsrör har flera resonanser på olika frekvenser, alltså flera formanter.

Det är människans förmåga att förändra dessa resonanser som ger henne möjligheten att skapa vokaler av olika färg. Men för att förstå vad någon säger krävs också att vi som lyssnare har förmågan att uppfatta formanter i andras tal. Den förmågan har vi, och vi använder den till mycket mer än till talförståelse – den utgör en viktig dimension i all vår ljuduppfattning. Vi hör att ett bräkande får säger bä och inte by, vi uppfattar att bastrumman låter bom och inte bim, och vi kan förstå datorer utan ansatsrör som framställer syntetiskt tal.

För att kunna beskriva hur vi associerar karaktären på ljud från skilda källor med mänskliga vokalklanger har vi behov av ett utvidgat formantbegrepp, ett begrepp som fångar den likhet mellan egna och främmande ljud som vi faktiskt upplever. I så fall kan vi också inkludera formanter som den mänskliga talapparaten inte kan åstadkomma men som ändå tillhör samma dimension av vår hörupplevelse.

Enligt en vid definition kan en formant vara ett maximum i spektrumenvelopen, vars frekvensläge inte nämnvärt påverkas av grundfrekvensen.[2] Denna definition tar inte ställning till vem eller vad som är ljudkällan och inte heller på vilket sätt formantkaraktären uppstår, bara att det är ett frekvensområde som är speciellt gynnat i ljudbilden från en viss källa. Att denna vida definition begränsar sig till enbart ljud och till frekvenser där människan kan uppleva formantkaraktär utsägs inte men förefaller vara underförstått i det givna sammanhanget. Annars blir termen bara ett annat ord för resonans.

Uppkomst och klassificering[redigera | redigera wikitext]

Formanter i rösten uppstår genom att ljudet i talapparaten – det vill säga munhålan, näshålan och luftstrupen, ända ner till lungornaresonerar vid vissa frekvenser, som bestäms av bland annat tungans och underkäkens position, vilket ger upphov till band av frekvenser med högre energi.

En formant identifieras vanligen med sin resonansfrekvens, ibland även med sin bandbredd. De olika banden namnges från f1, för bandet med lägst frekvens, och uppåt: f2, f3, …. I analogi med detta kallas grundtonen, något missvisande, ibland för f0.

För vokaler är vanligen tre till fem formanter mätbara. Genom experiment med röstsyntes har fastställts att de tre första formanterna är de mest informationsbärande. Dessa tre har stark korrelation med underkäkens, tungans och läpparnas placering:

  • f1 är starkt korrelerad med tungans och käkens position i höjdled; se sluten respektive öppen vokal
  • f2 är starkt korrelerad med tungans position i djupled; se främre respektive bakre vokal
  • f3 är starkt korrelerad med läpparnas rundning; se rundad respektive orundad vokal

För mycket ljusa röster, som sopranstämma, kan grundtonen hamna nära och till och med över de lägsta formanterna, f1 och f2. Dessa ljud blir då mycket svåra att identifiera och särskilja.

Vokalformantcentrum
Vokal IPA Formant f1 Formant f2
U u 320 Hz 800 Hz
O o 500 Hz 1000 Hz
Å ɑ 700 Hz 1150 Hz
A a 1000 Hz 1400 Hz
Ö ø 500 Hz 1500 Hz
Y y 320 Hz 1650 Hz
Ä ɛ 700 Hz 1800 Hz
E e 500 Hz 2300 Hz
I i 320 Hz 3200 Hz
Vokalformanter
Vokal Huvudformantområde
U 200 till 400 Hz
O 400 till 600 Hz
A 800 till 1200 Hz
E 400 till 600 och 2200 till 2600 Hz
I 200 till 400 och 3000 till 3500 Hz

Uppmätning och estimering[redigera | redigera wikitext]

Flera metoder för att beräkna formanternas värden har tagits fram. De flesta utgår ifrån den akustiska signalen, det vill säga ljudet som produceras, men det finns också metoder där talapparatens egenskaper mäts upp, varpå en modell för ljudproduktionen används för att estimera formanternas värden.

De flesta metoder fungerar bäst då de sätts i ett sammanhang, så att tidigare formantvärden kan användas för att predicera kommande.

Estimering med autoregressiv modell[redigera | redigera wikitext]

Talljud kan modelleras som en för kortare tidsintervall svagt stationär stokastisk process, vanligtvis som linjärt filtrerad vitt brus. Om X(n) är en stokastisk, vit process och Y(n) är en modell av talljudet, så kan Y skrivas som en autoregressiv process:

Y(n) + a_1 Y(n-1) + a_2 Y(n-2) + \ldots + a_N Y(n-N) = b_0 X(n).

Parametrarna a_m och b_0 löses med hjälp av Yule–Walker-ekvationerna och en estimering av Y:s autokorrelationsfunktion.

Y:s spektrum ges av

H(f) = \frac{b_0}{1 + a_1 e^{-i2\pi f}+ a_2 e^{-i2\pi 2f} + \ldots + a_N e^{-i2\pi N f}}

H är ett filter med resonansfrekvenser

Talrörsestimering[redigera | redigera wikitext]

Den akustiska resonanslåda som talröret motsvarar kan estimeras med hjälp av sammanlänkade rörsegement av olika storlek. Detta rör är stängt i ena änden (vid stämläpparna eller lungorna) och öppet i den andra (vid läpparna eller näsborrarna. Givet denna modell och rörsegmentens respektive diameter kan formanterna estimeras med god precision.

Talröret, eller rättare sagt rörsegmenten, kan estimeras från röntgenfotografier eller -filmer av huvudet under uttal av språkljud. Det är dock en metod som på grund av strålningen inte lämpar sig för större studier på enskilda personer. I dag används hellre magnetisk resonanstomografi, vilket visserligen är dyrare och långsammare, men inte skadligt.

Användning[redigera | redigera wikitext]

Formanter har länge varit ett av de viktigaste sätten att akustiskt beskriva språkljud på, och då i synnerhet vokaler.

Igenkänning utan större framgång ...

Tidiga röstsyntetiserare byggdes upp av filter som efterliknade formanternas karaktär, och kallades ofta för formantsyntetiserare.

Typvärden för några svenska vokaler[redigera | redigera wikitext]

Formantliknande ljud[redigera | redigera wikitext]

I detta avsnitt ges några exempel på ljud som uppvisar formantkaraktär. Ordet formant används då i den vidare bemärkelse som inte alla erkänner.

Blåsinstrument med dubbla rörblad har en formant som beror på rörbladens sätt att svänga. Fagotten har en karakteristisk topp runt 500 Hz som utgör den enda påtagliga likheten mellan instrumentets olika toner i en spektralanalys. Ljudet är lätt att härma med den mänskliga rösten. Oboens formant ligger en dryg oktav högre än fagottens.[3][4]

Den akustiska gitarren liksom många andra stränginstrument har sina strängar som ursprunglig orsak till ljudet. Men strängarnas vibrationer övergår i huvudsak till hörbara luftvibrationer genom att först fortplantas till och färgas av en resonanslåda och dess delvis inneslutna luftvolym. Både lådan och luftvolymen har resonanser vid fasta frekvenser, vilket kan kallas för gitarrens formanter. Det är en stor utmaning för gitarrbyggaren att skapa formanter som ger en bra klang genom att bestämma storlek på resonanslådan samt form, material och materialtjocklek i olika punkter.

En wah-wah är en elektronisk effektpedal med en flyttbar formant för modifiering av en elektrisk audiosignal, främst från elgitarr. Ju mer man "gasar", desto högre upp i frekvens hamnar resonansen. Frekvenser som ligger lägre än resonansen släpps också fram ganska bra medan högre frekvenser stryps. Med pedalrörelser kan man ge de spelade tonerna en karaktär som påminner om uttalet "wa-wa-wa".[5] Ett berömt exempel på elgitarr med wah-wah-effekt är introduktionen till Jimi Hendrix' låt "Voodoo child".

En talkbox är en anordning för att modifiera en elektrisk audiosignal med munnen. Signalen kommer ofta från ett spelande musikinstrument eller från en enda övertonsrik syntton. Apparaten har en innesluten liten högtalare som skickar ljudet genom en slang som man leder in i munnen. Man skapar sedan formanter precis som vid vanligt tal, men där stämbanden ersätts med ljudslang. Det modifierade ljudet har en tydlig talkaraktär med mänskliga vokaler som kan fångas upp i en vanlig sångmikrofon precis som när man sjunger.

Referenser[redigera | redigera wikitext]

Noter[redigera | redigera wikitext]

  1. ^ Sundberg 1989 s 133
  2. ^ [a b] Sohlmans 1975
  3. ^ Sundberg 1989 s 146
  4. ^ Berg & Stork s 108
  5. ^ R.G. Keen 1999, Human Voices and the Wah Pedal (besökt 2008-11-09)

Källor[redigera | redigera wikitext]

  • Sohlmans. Sohlmans musiklexikon. Sohlmans Förlag AB. ISBN 91 7198 020 2  (Uppslagsord "formant" av Johan Sundberg, om snäv och vid definitioner av formant)
  • Johan Sundberg. Musikens ljudlära – hur toner alstras och uppfattas (3:e uppl). Stockholm: Proprius förlag. ISBN 91-7118-653-0  (Om formanter i tal och sång, formantfrekvenser för olika vokaler, att höra sina egna formanter, fagott, oboe och synt kontra mänskliga formanter, anser att formanter bara bör avse det mänskliga röstorganet)
  • Richard E. Berg, David G. Stork. The physics of sound. Prentice Hall. ISBN 0-13-183047-3 

Se även[redigera | redigera wikitext]