Ordklasstaggning

Från Wikipedia
Hoppa till: navigering, sök

Ordklasstaggning är processen för att märka upp ordklass eller andra syntaktiska klasser till ord i en korpus,[1] och det är en språkteknologisk metod. Före ordklasstaggning måste en serarering av ord i en text göras, det kallas att tokenisera. Skiljetecken och interpunktionstecken som till exempel punkt (.), kommatecken (,), kolon (:), semikolon (;) och talstreck (-) separeras också från orden och märks upp.

Ordklasstaggning är en disambigueringsuppgift eftersom ord kan vara tvetydiga. Problemet med ordklasstaggning är att särskilja tvetydigheten, att välja rätt ordklass för kontexten.[1] Ordklasstaggare är antingen regelbaserade eller stokastiska. Regelbaserad taggare, för automatisk tilldelning av ordklass, använder lexikon och en mängd handskrivna disambigueringsregler som avgör vilken ordklass ett ord tillhör genom att se till kontexten.En stokastisk taggare består av ett lexikon, en träningskorpus samt mjukvara som tillämpar algoritmer av Markov och Viterbi. Lexikonet listar alla ord som förekommer i träningskorpusen antingen som lemmata eller som böjda former och deras möjliga ordklasstaggar. Ett lexikon är i regel finit, men vissa taggare tillämpar i stället en morfologisk skanner. En morfologisk skanners främsta fördel är att den kan tagga även ord som inte förekommer i lexikonet och på så sätt ”lära sig”. En träningskorpus fungerar som konsultation till lexikonet för att avgöra ett ords lexikala tillhörighet. Det är oerhört viktigt att träningskorpusen är 100% tillförlitlig, således måste den taggas för hand.[2]


Tagguppsättning[redigera | redigera wikitext]

Tagguppsättningen kan se olika ut och innehålla mer eller mindre morfologisk information. PAROLE och SUC (Stockholm Umeå Corpus) är två ordklasstaggade korpusar.

Tagguppsättning för substantiv neutrum pluralis definit genitiv definieras på följande sätt:

PAROLE: NCNPG@DS [3]
SUC: NN NEU PLU DEF GEN [3]

Exempelmening[redigera | redigera wikitext]

Hunden jagade en liten katt på gården."

Meningen tokeniserad och taggad med SUC tagguppsättning[redigera | redigera wikitext]

Hunden nn ut sg def nom
jagade vb prt akt
en dt ut sg ind
liten jj pos ut sg ind nom
katt nn ut sg ind nom
pp
gården nn ut sg def nom
. mad --

Förklaring av taggarna ovan[redigera | redigera wikitext]

nn ut sg def nom = substantiv utrum singularis definit nominativ
vb prt akt = verb preteritum aktiv
dt ut sg ind = determinerare utrum singularis indefinit
jj pos ut sg ind nom = adjektiv positiv utrum singularis indefinit nominativ
nn ut sg ind nom = substantiv utrum singularis indefinit nominativ
pp = preposition
nn ut sg def nom = substantiv utrum singularis definit nominativ
mad -- = meningsskiljande interpunktion

Utöver morfosyntaktisk annotering så kan en corpus också annoteras syntaktiskt (fraser, satser), semantiskt (tematiska roller) och pragmatiskt (till exempel identifikation av talakter). [4]

Källor[redigera | redigera wikitext]

  1. ^ [a b] Jurafsky & Martin: ”Ordklasstaggning”, sidan 167. Speech and language processing - An Introduction to Natural Language Processing, Computational Linguistics and Speech Recognition, 2009
  2. ^ F. Tamburini (2000). Annotazione grammaticale e lemmatizzazione di corpora in italiano, Linguistica e informatica: multimedialita', corpora e percorsi di apprendimento, Rossini Favretti R. (a cura di), Bulzoni, Roma, 57-73.
  3. ^ [a b] Ejerhed, Eva, Ridings, Daniel. ”Taggtabell”. Språkbanken. Språkbanken. http://spraakbanken.gu.se/parole/. Läst 5 juli 2010. 
  4. ^ Lenci A., Montemagni S., Pirrelli V. (2005). Testo e computer. Roma: Carocci. Sidor 214-217