Gestigenkänning

Från Wikipedia

Gestigenkänning är ett område inom språkteknologi som syftar på att automatiskt avläsa och fastställa innebörden hos mänskliga gester, och ger möjlighet till en multimodal interaktion (via flera kanaler) med en dator. Traditionellt har gestigenkänning applicerats på gester utförda med händer och fingrar, men även gester via ansiktsuttryck och kroppshållning / kroppsspråk har utforskats. Avläsning av gester sker antingen optiskt med hjälp av kameror eller med hjälp av redskap som agerar som en förlängning av kroppsdelen.

Exempelområden inom gestigenkänning:

  • Rörelsekommandon i spel
  • Automatisk avläsning av Teckenspråk
  • Ökad tillgänglighet vid funktionsnedsättning
  • Automatisk läppläsning
  • Musgester

Vid kamerabaserad gestigenkänning analyseras bilden med hjälp av datorseende-algoritmer för att fastställa gestens natur. Problem som kan uppstå är att bildbrus och även andra samtida rörelser kan störa avgörandet, samt att gester framför andra objekt kan vara svåra att avläsa.

På senare tid har ett flertal applikationer av redskapsbaserad gestigenkänning m.h.a Nintendo Wiis accelerometer-försedda fjärrkontroll framtagits.[1] [2] Ett problem som föreligger vid gestigenkänning är det s.k. segmenteringsproblemet, d.v.s. var börjar och slutar en gest? Vid redskapsbaserad gestigenkänning kan problemet i viss mån undvikas genom att utföraren själv markerar början och slut, exempelvis genom att hålla nere en knapp, men förslag finns på lösningar som opererar på en kontinuerlig ström av data[3].

Ett mer generellt problem består i att med en eller flera kameror registrera användarens gester, exempelvis genom att mäta en hands rörelser och att använda denna information för att styra annan utrustning[4][5][6][7][8][9][10][11][12][13][14][15] alternativt att mäta användarens ögon- och huvudrörelser samt eventuellt också ansiktsuttryck och utifrån dessa mätningar dra slutsatser som användarens aktiviteter och/eller intentioner.

Vid avgörande av en gests innebörd används matematiska formalismer, vanligen statistiska sådana såsom dolda Markovmodeller[2] eller artificiella neurala nätverk[16], men även tillståndsmaskiner[1] samt dynamisk programmering[17] har visats kapabla.

Se även[redigera | redigera wikitext]

Externa länkar[redigera | redigera wikitext]

  • SignWiiver - Ett gestigenkänningssystem som använder en Nintendo Wii-kontroll som accelerometer
  • Tricom Solutions - Kommersiell gestigenkänning

Referenser[redigera | redigera wikitext]

  1. ^ [a b] Per Malmestig och Sofie Sundberg, SignWiiver - en implementation av teckenspråkteknologi Arkiverad 22 oktober 2008 hämtat från the Wayback Machine.
  2. ^ [a b] Thomas Schlomer, Benjamin Poppinga, Niels Henze, Susanne Boll, Gesture Recognition with a Wii Controller, Proceedings of the 2nd international Conference on Tangible and Embedded interaction, 2008
  3. ^ Ernhagen, Joakim, Artificiella neurala nätverk som lösning på segmenteringsproblemet vid gestigenkänning
  4. ^ Lars Bretzner and Tony Lindeberg "Use Your Hand as a 3-D Mouse ...", Proc. 5th European Conference on Computer Vision (H. Burkhardt and B. Neumann, eds.), vol. 1406 of Lecture Notes in Computer Science, (Freiburg, Germany), pp. 141--157, Springer Verlag, Berlin, June 1998.
  5. ^ Matthew Turk and Mathias Kölsch, "Perceptual Interfaces" Arkiverad 22 juli 2013 hämtat från the Wayback Machine., University of California, Santa Barbara UCSB Technical Report 2003-33
  6. ^ M Porta "Vision-based user interfaces: methods and applications", International Journal of Human-Computer Studies, 57:11, 27-73, 2002.
  7. ^ Afshin Sepehri, Yaser Yacoob, Larry S. Davis "Employing the Hand as an Interface Device" Arkiverad 24 maj 2010 hämtat från the Wayback Machine., Journal of Multimedia, vol 1, number 2, pages 18-29, 2006
  8. ^ Henriksen, K. Sporring, J. Hornbaek, K. " Virtual trackballs revisited", IEEE Transactions on Visualization and Computer Graphics, Volume 10, Issue 2, paged 206-216, 2004
  9. ^ Christian von Hardenberg and François Bérard, "Bare-hand human-computer interaction", ACM International Conference Proceeding Series; Vol. 15 archive Proceedings of the 2001 workshop on Perceptive user interfaces, Orlando, Florida, Pages: 1 - 8, 2001
  10. ^ Lars Bretzner, Ivan Laptev, Tony Lindeberg "Hand gesture recognition using multi-scale colour features, hierarchical models and particle filtering" Arkiverad 1 augusti 2009 hämtat från the Wayback Machine., Proceedings of the Fifth IEEE International Conference on Automatic Face and Gesture Recognition, Washington, DC, USA, 21-21 May 2002, pages 423-428. ISBN 0-7695-1602-5, doi 10.1109/AFGR.2002.1004190
  11. ^ Domitilla Del Vecchio, Richard M. Murray Pietro Perona, "Decomposition of human motion into dynamics-based primitives with application to drawing tasks" Arkiverad 2 februari 2010 hämtat från the Wayback Machine., Automatica Volume 39, Issue 12, December 2003, Pages 2085-2098 , doi:10.1016/S0005-1098(03)00250-4.
  12. ^ Thomas B. Moeslund and Lau Nørgaard, "A Brief Overview of Hand Gestures used in Wearable Human Computer Interfaces" Arkiverad 19 juli 2011 hämtat från the Wayback Machine., Technical report: CVMT 03-02, ISSN 1601-3646, Laboratory of Computer Vision and Media Technology, Aalborg University, Denmark.
  13. ^ M. Kolsch and M. Turk "Fast 2D Hand Tracking with Flocks of Features and Multi-Cue Integration" Arkiverad 21 augusti 2008 hämtat från the Wayback Machine., CVPRW '04. Proceedings Computer Vision and Pattern Recognition Workshop, May 27-June 2, 2004, doi 10.1109/CVPR.2004.71
  14. ^ Xia Liu Fujimura, K., "Hand gesture recognition using depth data", Proceedings of the Sixth IEEE International Conference on Automatic Face and Gesture Recognition, May 17-19, 2004 pages 529- 534, ISBN 0-7695-2122-3, doi 10.1109/AFGR.2004.1301587.
  15. ^ Stenger B, Thayananthan A, Torr PH, Cipolla R: "Model-based hand tracking using a hierarchical Bayesian filter", IEEE Transactions on Pattern Analysis and Machine Intelligence, 28(9):1372-84, Sep 2006.
  16. ^ S. S. Fels and G. E. Hinton, Glove-TalkII - A Neural-Network Interface which Maps Gestures to Parallel Formant Speech Synthesizer Controls, IEEE Transactions on Neural Networks, September 1997, s. 977-984
  17. ^ Seki, Kojima, Nagaya and Oka: Efficient gesture recognition algorithm based of Continuous Dynamic Programming, Proc. of RWC Symposium Technical Report, 1995, s. 47-48.