FLMP

FLMP (även utläst Fuzzy-logical model of perception) är inom fonetik en perceptionsmodell, utarbetad av Dominic Massaro verksam vid University of California, Santa Cruz. FLMP kan tillämpas inom många områden, däribland multimodal talperception. I vardagligt tal är talperception en audiovisuell process där lyssnaren, förutom ljud, även har tillgång till visuell information från talarens ansikte och dennes talgester. Det är uppenbart att den visuella signalen underlättar förståelsen i bullriga miljöer. Men den visuella signalen påverkar det vi hör, även då den akustiska signalen inte är störd av brus.

Ett exempel på detta är McGurk-effekten: Ett ansikte som till synes uttalar [gaga], då den akustiska signalen är utbytt mot [baba] percipieras som [dada] av en överväldigande majoritet. Perceptet är i och med detta en sammansmältning av informationen från de båda modaliteterna.

Enligt FLMP sker perceptionen i tre steg: Evaluering, integration och avgörande.

Evaluering

Det första steget innebär att informationen evalueras i de båda modaliteterna (den auditiva och den visuella) var för sig. Evalueringen innebär att den inkommande signalen matchas mot lagrade prototyper av möjliga responser. Signalens förhållande till var och en av prototyperna registreras som graderat sanningsvärde på en skala 0 till 1 (se även suddig logik/fuzzy logic). Till skillnad från sannolikheter kan summan av de olika graderna av sanningsvärde för de olika prototyperna överstiga 1.

Integration

FLMP utgår från bayesiansk integration. Trots att Bayes sats opererar på sannolikheter, tillämpas den här istället på graderat sanningsvärde.

Bayes sats säger att:

{\begin{aligned}P(A|B)&={\frac {P(B|A)\cdot P(A)}{P(B)}}\end{aligned}}

Dvs. sannolikheten för A betingat B är lika med sannolikheten för att B betingat A, multiplicerat med sannolikheten för A, delat med sannolikheten för B.

I termer av sannolikhet för percipierat språkljud $c_{i}$ , givet den akustiska evidensen A och den visuella evidensen V, får vi:

{\begin{aligned}P(c_{i}|A)&={\frac {P(A|c_{i})\cdot P(c_{i})}{P(A)}}\\\\P(c_{i}|V)&={\frac {P(V|c_{i})\cdot P(c_{i})}{P(V)}}\end{aligned}}

Sannolikheten för två händelser, A och B, är detsamma som produkten av dessa händelser för sig, givet att de är oberoende:

{\begin{aligned}P(A\cap B|c_{i})&=P(A|c_{i})\cdot P(B|c_{i})\end{aligned}}

Detta ger följande responssannolikheter för språkljudet $c_{i}$ :

{\begin{aligned}P(c_{i}|A&V)&={\frac {P(c_{i}|A)\cdot P(c_{i}|V)\cdot P(c_{i})}{\sum _{j}{P(c_{j}|A)\cdot P(c_{j}|V)}}}\end{aligned}}

Eftersom språkljudskategorin $c_{i}$ existerar:

{\begin{aligned}P(c_{i})=1\end{aligned}}

Avgörande

Det slutgiltiga perceptet bygger på de bayesianska responssannolikheterna för var och en av de tänkbara percepten. Dessa räknades ut i det tidigare steget. En viktig detalj är att perceptionsobjektet enligt FLMP är amodalt. På denna punkt skiljer sig modellen från gestuella och auditiva talperceptionsteorier.

Källor

Massaro W.M. & Stork D.G. (1998). ”Speech Recognition and Sensory integration”. American Scientist 86: sid. 236-244.
McGurk H. & MacDonald J. (1976). ”Hearing lips and seeing voices”. Nature 264: sid. 746-748.
Sumby, W.H. & I. Pollack (1954). ”Visual contribution to speech intelligibility in noise”. Journal of the Acoustical Society of America 26: sid. 212-215.