Korpuslingvistik

Från Wikipedia
Hoppa till: navigering, sök

Korpuslingvistik kallas metoden att använda en korpus för språkstudier[1]. Termen myntades först på 1980-talet, men metoden användes flera årtionden innan dess. Inom ämnet verkar flera framstående svenska forskare, som Sture Allén, Karin Aijmer och Sofie Johansson.

Några begrepp på engelska och svenska[redigera | redigera wikitext]

align = länka

annotate = märka upp

Korpus[redigera | redigera wikitext]

En korpus är en stor samling språkliga data, det kan röra sig om både transkriberat tal och skriven text. Det finns olika sätt att definiera en korpus, men vanligen lagras en korpus elektroniskt med syfte att vara representativ för språket i fråga.

En korpus kan vara synkron eller diakron. Det vanliga är att en korpus har en bestämd (finit) storlek, men det finns också korpusar/korpora som växer med tiden, kallade monitorkorpusar. En korpus kan innehålla mer än ett språk, och kallas då parallellkorpus eller jämförbar korpus. En parallellkorpus är i allmänhet också en översättningskorpus, det vill säga att den innehåller texter på ett språk som kopplas samman med översättningar till ett annat språk och vice versa.

Tidiga korpusar var ofta noggrant viktade så att man valde texter från en noga genomtänkt blandning av genrer, till exempel både skönlitteratur och många olika sorters facklitteratur, och texter av många olika författare. Ett exempel på en sådan korpus som framställts i Sverige är Uppsalakorpusen, som innehåller en miljon ord. Idag är de flesta korpusar för språkvetenskaplig forskning betydligt större. Korpusar används bland annat för att ta fram ordböcker.

Man kan också tala om det material som ligger till grund för en viss artikel eller avhandling som en korpus.

Exempel på korpusar:

Referenser[redigera | redigera wikitext]

  1. ^ http://sprakteknologi.se/vad-aer-sprakteknologi/lexikon/korpusar, läst 26 februari 2009.
  2. ^ http://spraakbanken.gu.se/, läst den 18 april 2018.
  3. ^ ”Arkiverade kopian”. Arkiverad från originalet den 4 augusti 2010. https://web.archive.org/web/20100804212751/http://www.ling.su.se/staff/sofia/suc/suc.html. Läst 26 februari 2009. , läst 26 februari 2009.
  4. ^ http://www.statmt.org/europarl/, läst 26 februari 2009.
  5. ^ http://www.natcorp.ox.ac.uk/, läst 26 februari 2009.
  6. ^ ”Brown Corpus, direktsökning”. https://the.sketchengine.co.uk/corpus/first_form?corpname=preloaded/brown_1;. , den 20 april 2018.
  7. ^ ”Arkiverade kopian”. Arkiverad från originalet den 23 maj 2009. https://web.archive.org/web/20090523210240/http://www.slaviska.uu.se/ryska/corpus.html. Läst 2 juni 2009. , läst 2 juni 2009.
  8. ^ ”Tjeckiska nationalkorpusen”. https://korpus.cz.  (Tryck på "English" uppe till höger.) Innehåller bland annat Intercorp, en parallellkorpus med bland annat svensk skönlitteratur översatt till tjeckiska. Läst den 20 april 2018.
  • McEnery, T., Xiao, R., Tono Y. 2006. Corpus-Based Language Studies - an advanced resource book