Gestigenkänning

Från Wikipedia
Hoppa till: navigering, sök

Gestigenkänning är ett område inom språkteknologi som syftar på att automatiskt avläsa och fastställa innebörden hos mänskliga gester, och ger möjlighet till en multimodal interaktion (via flera kanaler) med en dator. Traditionellt har gestigenkänning applicerats på gester utförda med händer och fingrar, men även gester via ansiktsuttryck och kroppshållning / kroppsspråk har utforskats. Avläsning av gester sker antingen optiskt med hjälp av kameror eller med hjälp av redskap som agerar som en förlängning av kroppsdelen.

Exempelområden inom gestigenkänning:

  • Rörelsekommandon i spel
  • Automatisk avläsning av Teckenspråk
  • Ökad tillgänglighet vid funktionsnedsättning
  • Automatisk läppläsning
  • Musgester

Vid kamerabaserad gestigenkänning analyseras bilden med hjälp av datorseende-algoritmer för att fastställa gestens natur. Problem som kan uppstå är att bildbrus och även andra samtida rörelser kan störa avgörandet, samt att gester framför andra objekt kan vara svåra att avläsa.

På senare tid har ett flertal applikationer av redskapsbaserad gestigenkänning m.h.a Nintendo Wiis accelerometer-försedda fjärrkontroll framtagits.[1] [2] Ett problem som föreligger vid gestigenkänning är det s.k. segmenteringsproblemet, d.v.s. var börjar och slutar en gest? Vid redskapsbaserad gestigenkänning kan problemet i viss mån undvikas genom att utföraren själv markerar början och slut, exempelvis genom att hålla nere en knapp, men förslag finns på lösningar som opererar på en kontinuerlig ström av data[3].

Ett mer generellt problem består i att med en eller flera kameror registrera användarens gester, exempelvis genom att mäta en hands rörelser och att använda denna information för att styra annan utrustning[4][5][6][7][8][9][10][11][12][13][14][15] alternativt att mäta användarens ögon- och huvudrörelser samt eventuellt också ansiktsuttryck och utifrån dessa mätningar dra slutsatser som användarens aktiviteter och/eller intentioner.

Vid avgörande av en gests innebörd används matematiska formalismer, vanligen statistiska sådana såsom dolda Markovmodeller[2] eller artificiella neurala nätverk[16], men även tillståndsmaskiner[1] samt dynamisk programmering[17] har visats kapabla.

Se även[redigera | redigera wikitext]

Externa länkar[redigera | redigera wikitext]

  • SignWiiver - Ett gestigenkänningssystem som använder en Nintendo Wii-kontroll som accelerometer
  • Tricom Solutions - Kommersiell gestigenkänning

Referenser[redigera | redigera wikitext]

  1. ^ [a b] Per Malmestig och Sofie Sundberg, SignWiiver - en implementation av teckenspråkteknologi
  2. ^ [a b] Thomas Schlomer, Benjamin Poppinga, Niels Henze, Susanne Boll, Gesture Recognition with a Wii Controller, Proceedings of the 2nd international Conference on Tangible and Embedded interaction, 2008
  3. ^ Ernhagen, Joakim, Artificiella neurala nätverk som lösning på segmenteringsproblemet vid gestigenkänning
  4. ^ Lars Bretzner and Tony Lindeberg "Use Your Hand as a 3-D Mouse ...", Proc. 5th European Conference on Computer Vision (H. Burkhardt and B. Neumann, eds.), vol. 1406 of Lecture Notes in Computer Science, (Freiburg, Germany), pp. 141--157, Springer Verlag, Berlin, June 1998.
  5. ^ Matthew Turk and Mathias Kölsch, "Perceptual Interfaces", University of California, Santa Barbara UCSB Technical Report 2003-33
  6. ^ M Porta "Vision-based user interfaces: methods and applications", International Journal of Human-Computer Studies, 57:11, 27-73, 2002.
  7. ^ Afshin Sepehri, Yaser Yacoob, Larry S. Davis "Employing the Hand as an Interface Device", Journal of Multimedia, vol 1, number 2, pages 18-29, 2006
  8. ^ Henriksen, K. Sporring, J. Hornbaek, K. " Virtual trackballs revisited", IEEE Transactions on Visualization and Computer Graphics, Volume 10, Issue 2, paged 206-216, 2004
  9. ^ Christian von Hardenberg and François Bérard, "Bare-hand human-computer interaction", ACM International Conference Proceeding Series; Vol. 15 archive Proceedings of the 2001 workshop on Perceptive user interfaces, Orlando, Florida, Pages: 1 - 8, 2001
  10. ^ Lars Bretzner, Ivan Laptev, Tony Lindeberg "Hand gesture recognition using multi-scale colour features, hierarchical models and particle filtering", Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition, Washington, DC, USA, 21-21 May 2002, pages 423-428. ISBN 0-7695-1602-5, doi 10.1109/AFGR.2002.1004190
  11. ^ Domitilla Del Vecchio, Richard M. Murray Pietro Perona, "Decomposition of human motion into dynamics-based primitives with application to drawing tasks", Automatica Volume 39, Issue 12, December 2003, Pages 2085-2098 , doi:10.1016/S0005-1098(03)00250-4.
  12. ^ Thomas B. Moeslund and Lau Nørgaard, "A Brief Overview of Hand Gestures used in Wearable Human Computer Interfaces", Technical report: CVMT 03-02, ISSN: 1601-3646, Laboratory of Computer Vision and Media Technology, Aalborg University, Denmark.
  13. ^ M. Kolsch and M. Turk "Fast 2D Hand Tracking with Flocks of Features and Multi-Cue Integration", CVPRW '04. Proceedings Computer Vision and Pattern Recognition Workshop, May 27-June 2, 2004, doi 10.1109/CVPR.2004.71
  14. ^ Xia Liu Fujimura, K., "Hand gesture recognition using depth data", Proceedings of the Sixth IEEE International Conference on Automatic Face and Gesture Recognition, May 17-19, 2004 pages 529- 534, ISBN 0-7695-2122-3, doi 10.1109/AFGR.2004.1301587.
  15. ^ Stenger B, Thayananthan A, Torr PH, Cipolla R: "Model-based hand tracking using a hierarchical Bayesian filter", IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(9):1372-84, Sep 2006.
  16. ^ S. S. Fels and G. E. Hinton, Glove-TalkII - A Neural-Network Interface which Maps Gestures to Parallel Formant Speech Synthesizer Controls, IEEE Transactions on Neural Networks, September 1997, s. 977-984
  17. ^ Seki, Kojima, Nagaya and Oka: Efficient gesture recognition algorithm based of Continuous Dynamic Programming, Proc. of RWC Symposium Technical Report, 1995, s. 47-48.