Informationsåtkomst

Från Wikipedia
Hoppa till: navigering, sök

Informationsåtkomst är ett begrepp inom informatiken för tekniker och praxis för att underlätta och effektivisera för människor att hantera informationsmängder, i synnerhet sådana som finns i digital form.

Tekniker som brukar användas är informationssökning (eng. information retrieval, IR), informationsextraktion, informationsfiltrering, textsammanfattning, databrytning och andra relaterade analystekniker som syftar till att förädla och generalisera stora och obändiga informationsmängder och -strömmar.

Innehåll

Modeller för informationssökning [redigera]

Vid digital informationssökning, representeras dokument enligt olika modeller. Modellerna kan delas upp baserat på underliggande matematisk grund i:

  • Mängdteoretiska modeller
  • Algebraiska modeller
  • Sannolikhetsbaserade modeller

Algebraiska modeller [redigera]

Algebraiska modeller för informationssökning representerar vanligen dokument och söksträngar som vektorer i en n-dimensionell vektorrymd. Varje dimension representerar en specifik term, alltså finns lika många dimensioner som det finns termer i dokumentrymden. Om termen förekommer i dokumentet är dess position i vektorn större än 0. Det finns flera sätt att vikta termer, det vanligaste är tf-idf (termfrekvens-inverterad dokumentfrekvens). Med denna viktning värderas ovanliga termer i dokumentsamlingen högt och hänsyn tas till dokumentets längd. I den klassiska vektorrymdsmodellen beräknas likheten mellan dokument och söksträng som vinklar mellan vektorerna i vektorrymden, något som har använts sedan sjuttiotalet[1]

En utökning av vektorrymdsmodellen är latent semantisk indexering[2], LSI, en metod som använder singulärvärdesuppdelning för att hitta mönster i dokumentsamlingen. LSI bygger på antagandet att termer som används i samma kontext har liknande betydelser. Genom jämförandet av dokumentens underliggande latenta semantiska strukturer, möjligt med hjälp av dimensionsreducering genom singulärvärdesuppdelning, kan metoden till viss del hantera synonymer och polynymer.

Utvärdering av informationssökning [redigera]

Flera olika mätetal för utvärdering av informationssökning har utvecklats, täckning och precision är de mest kända. Mätetalen värderar en söksträngs sökresultat i en dokumentsamling, men bygger på det förenklade antagandet att alla dokument antingen är relevanta eller irrelevanta.

Täckning [redigera]

Täckning är andelen relevanta dokument i dokumentsamlingen som hittades av söksträngen. Det kan tolkas som sannolikheten att ett relevant dokument finns bland sökresultaten.

\mbox{täckning}=\frac{|\{\mbox{relevanta dokument}\}\cap\{\mbox{funna dokument}\}|}{|\{\mbox{relevanta dokument}\}|}

Man kan alltid uppnå 100% täckning genom att returnera samtliga dokument i samlingen oavsett söksträng, alltså krävs ytterligare mätetal för att utvärdera informationssökning.

Precision [redigera]

Precision är andelen funna dokument som är relevanta.

 \mbox{precision}=\frac{|\{\mbox{relevanta dokument}\}\cap\{\mbox{funna dokument}\}|}{|\{\mbox{funna dokument}\}|}

Övriga mätetal [redigera]

  • F-värdet är det harmoniska medelvärdet mellan precision och täckning.
  • Avdragen kumulativ nytta, eng. discounted cumulative gain, används bland annat för sökmotorer. Tar hänsyn till rankningen av sökresultat.

Se även [redigera]

SIGIR

Referenser [redigera]

  • Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval. Addison-Wesley. 1999.

Fotnoter [redigera]

  1. ^ G. Salton, A. Wong, and C. S. Yang (1975), "A Vector Space Model for Automatic Indexing," Communications of the ACM, vol. 18, nr. 11, pages 613–620.
  2. ^ Deerwester, S., et al, Improving Information Retrieval with Latent Semantic Indexing, Proceedings of the 51st Annual Meeting of the American Society for Information Science 25, 1988, pp. 36–40.