Informationsextraktion

Från Wikipedia
Hoppa till: navigering, sök

Informationsextraktion (engelska Information Extraction) innebär inom informationsteknik att information i datorlagrad form läses ut med hjälp av olika tekniker och teknologier.

Informationsextraktion är ett med informationssökning närbesläktat forskningsområde inom informationsåtkomst och språkteknologi. Informationsextraktion bygger på automatisk textförståelse, men förståelse bara av ett begränsat ämnesområde. Eftersom mänskliga språk är variationsrika är informationsextraktion svår att utföra med både god täckning och god precision. Om användaren kan finna sig i lägre täckning ger dock informationsextraktionssystem idag mycket god precision och höga prestanda. Forskningsområdet är ett av de första viktiga tillämpningsområdena för språkteknologi och har i hög grad definierats genom konferensserien MUC (Message Understanding Conferences, 1987-1998) finansierad av Förenta Staternas statsförvaltning.

Jämförelse med informationssökning[redigera | redigera wikitext]

I jämförelse med informationssökning, som bygger på att en användare formulerar sitt informationsbehov som en sökfråga och får en mängd eller en lista med dokument eller andra informationselement som svar, så är uppgiften för ett informationsextraktionssystem att för ett mer beständigt informationsbehov extrahera fakta eller relationer i strukturerad form, på ett sätt som lämpar sig för att föra in i en databas eller tabell av något slag.


Ingående tekniker[redigera | redigera wikitext]

Som ett första steg använder informationsextraktionssystem oftast någon sorts ordklasstaggning och något slags ytlig syntaktisk analys av texten. Därefter kan enkla och effektiva regler identifiera mönster som kan användas för att plocka ut viktiga referenter som till exempel *beslutsfattare* och *företag* och relationer som till exempel *PERSON arbetar på ETT FÖRETAG* i texten. Mer avancerade system använder logiska inferensregler för att kunna härleda fler relationer mellan identifierade referenter.

Igenkänning och kategorisering av namn eller andra fixa uttryck[redigera | redigera wikitext]

Ofta handlar extraktionsuppgiften om att hitta relationer mellan olika personer, organisationer, platser, prisuppgifter, tidsuttryck eller artefakter. Ett system måste kunna identifiera namn eller sifferuppgifter av olika slag och kunna kategorisera dem efter typ. Både kunskapsbaser, mönstermatchningsmetoder och maskininlärningsmetoder har använts för att lösa detta problem och med sådana metoder uppnår man idag resultat som är i nivå med mänsklig förmåga.

Exempel på uppgift[redigera | redigera wikitext]

Ett exempel på en extraktionsuppgift (anpassad från en uppgift från en Message Understanding Conference) skulle kunna vara det följande:

Tag fram all nyhetsrapportering om alla förändringar på chefsbefattningar inom börsnoterade företag och rapportera vilken post, vilket företag, vilka personer det gäller.

En enkel nyhetsnotis som uttrycker den här sortens information skulle kunna lyda:

Gudrun Strävling, 42, utsågs igår till ny styrelseordförande i Eckym Ropos Inc. Hon efterträds på posten som VD i Assam Pärks AB av den tidigare chefen för affärsområdet bromsklossar.

och målet för ett extraktionssystem vore att leverera ett resultat som:


Händelse_1

  • Post: styrelseordförande
    • Företag: Eckym Ropos Inc.
  • Börjar_jobb:
    • Person: Gudrun Strävling
    • Från_jobb: Händelse_2:Post
    • Lämnar_jobb: ?

Händelse_2

  • Post: VD
    • Företag: Assam Pärks AB
  • Börjar_jobb:
    • Person: ?
    • Från_jobb: Händelse_3:Post
    • Lämnar_jobb: Händelse_1:Börjar_jobb:Person

Händelse_3

  • Post: chef för affärsområdet bromsklossar
    • Företag: Händelse_2:Företag
  • Börjar_jobb: ?
    • Lämnar_jobb: Händelse_2:Börjar_jobb:Person



Referenser[redigera | redigera wikitext]

Webbkällor[redigera | redigera wikitext]

Tryckta källor[redigera | redigera wikitext]

  • Maria Teresia Pazienza (Red.) 1997. Information Extraction: A Multidisciplinary Approach to an Emerging Information Technology Lecture Notes in Artificial Intelligence. Springer.