Korpuslingvistik

Från Wikipedia
Hoppa till: navigering, sök

Korpuslingvistik kallas metoden att använda en korpus för språkstudier[1]. Termen myntades först på 1980-talet, men metoden användes redan årtionden tidigare.

Korpus[redigera | redigera wikitext]

En korpus är en stor samling språklig data, det kan röra sig om både transkriberat tal och skriven text. Det finns lite olika sätt att definiera en korpus, men vanligen lagras en korpus elektroniskt med syfte att vara representativ för språket i fråga.

En korpus kan vara synkron eller diakron. Det vanliga är att en korpus har finit storlek, men det finns också korpusar/korpora som växer med tiden, kallade monitorkorpusar. En korpus kan innehålla mer än ett språk, och vara av typen parallellkorpus eller jämförbar korpus. En parallellkorpus är i allmänhet också en översättningskorpus, det vill säga att den innehåller texter på ett språk som kopplas samman med översättningar till ett annat språk, och vice versa.

Tidiga korpusar var ofta noggrant viktade så att man valde texter från en noga genomtänkt blandning av genrer, till exempel både skönlitteratur och många olika sorters facklitteratur, och texter av många olika författare. Ett exempel på en sådan korpus som framställts i Sverige är Uppsalakorpusen, som innehåller en miljon ord. Idag är de flesta korpusar för språkvetenskaplig forskning betydligt större. Korpusar används bland annat för att ta fram ordböcker.

Man kan också tala om det material som ligger till grund för en viss artikel eller avhandling som en korpus.

Exempel på korpusar: SUC[2] Europarl[3] BNC[4] Brown University Corpus[5] Uppsalakorpusen[6]

En stor mängd svenska korpusar finns tillgängliga genom Språkbanken vid Göteborgs universitet[7]

Referenser[redigera | redigera wikitext]

  1. ^ http://sprakteknologi.se/vad-aer-sprakteknologi/lexikon/korpusar, läst 26 februari 2009.
  2. ^ http://www.ling.su.se/staff/sofia/suc/suc.html, läst 26 februari 2009.
  3. ^ http://www.statmt.org/europarl/, läst 26 februari 2009.
  4. ^ http://www.natcorp.ox.ac.uk/, läst 26 februari 2009.
  5. ^ http://pioneer.chula.ac.th/~awirote/ling/corpuslst.htm, läst 26 februari 2009.
  6. ^ http://www.slaviska.uu.se/ryska/corpus.html, läst 2 juni 2009.
  7. ^ http://spraakbanken.gu.se/, läst 31 augusti 2011.
  • McEnery, T., Xiao, R., Tono Y. 2006. Corpus-Based Language Studies - an advanced resource book