Hoppa till innehållet

Språkmodell

Från Wikipedia

Språkmodell (engelska: language model) är en statistisk modell och sannolikhetsfördelning som används för att förutsäga sekvenser av ord.[1] Inom artificiell intelligens (AI) och språkteknologi används språkmodeller för att få datorers kommunikation att efterlikna mänskligt språk.

En språkmodell tränas på en textkorpus (stora mängder insamlad text) för att lära sig sannolikheterna för hur olika ord kombineras i olika språkliga kontexter. Resultatet blir ett system som kan generera trovärdiga texter, svara på frågor, översätta språk eller sammanfatta dokument.

Historia och traditionell användning

[redigera | redigera wikitext]

Språkmodeller har länge varit en central komponent inom klassisk språkteknologi (datalingvistik). Historiskt sett har de använts i bakgrunden för att stödja andra tekniker genom att säkerställa att datorn gissar på rimliga och sannolika ordsekvenser.

Exempel på traditionella användningsområden är:

Algoritmer och teknik

[redigera | redigera wikitext]

En språkmodell utvärderar en given sekvens av ord och tilldelar en matematisk sannolikhet för vilket ord som logiskt sett borde komma härnäst. Eftersom det mänskliga språket kan kombineras i ett oändligt antal unika meningar, står språkmodelleringen inför utmaningen att kunna hantera begripliga meningar som den aldrig tidigare har sett i sin träningsdata.

För att lösa detta har forskningen gått från äldre statistiska modeller (som N-gram, vilka bygger på Markovegenskapen) till avancerade neurala nätverk. Idag baseras de flesta språkmodeller på djupinlärning, där arkitekturer som recurrent neural networks (RNN) eller transformatorer (Transformers) används för att fånga upp komplexa samband och långa kontexter i texter.[7] Dessa neurala metoder gör språkmodellerna generativa, vilket innebär att de själva kan skapa helt nya textsekvenser istället för att enbart kategorisera existerande data.

För att göra modellerna interaktiva och säkra kombineras de ofta med tekniker som RLHF, förstärkningsinlärning från mänsklig feedback (Reinforcement Learning from Human Feedback), där mänskliga granskare poängsätter modellens svar under en finjusteringsfas.

Stora språkmodeller (LLM)

[redigera | redigera wikitext]

En stor språkmodell (engelska: large language model, LLM) är en modern form av språkmodell som utmärker sig genom sin massiva skala. Denna typ av modell är det mest kända exemplet på vad som inom AI-forskningen kallas för en grundmodell. De tränas på enorma datamängder, ofta bestående av miljontals böcker, vetenskapliga artiklar och stora delar av det öppna innehållet på webben. Genom denna massiva träning uppvisar LLM:er ofta emergenta egenskaper; de blir kapabla till logiska resonemang och problemlösning utan att specifikt ha programmerats för det.

Stora språkmodeller som även har tränats på källkod har visat sig mycket framgångsrika i att förstå och generera nya datorprogram, antingen genom att slutföra påbörjad kod eller genom att skriva kod utifrån instruktioner på naturligt språk.[8]

LLM:er ligger till grund för den våg av generativ AI, chattbottar och digitala assistenter som fick sitt globala genombrott i början av 2020-talet.

Betydande stora språkmodeller

[redigera | redigera wikitext]

Utvecklingen av de största språkmodellerna domineras av ett fåtal stora teknikföretag och forskningsinstitut, på grund av de enorma kraven på beräkningskraft. Några av de mest uppmärksammade är:

  • GPT (Generative Pre-trained Transformer): Utvecklad av OpenAI.
    • Versionerna GPT-3 och GPT-3.5 introducerade världen för den virala chattbotten ChatGPT i slutet av 2022.
    • Den mer avancerade versionen GPT-4 (släppt 2023) används i betalversionen av ChatGPT och utgör även motorn i Microsoft Copilot (integrerad i Windows 11 och Microsoft 365).
    • Det kod-specifika verktyget GitHub Copilot bygger också på anpassade GPT-modeller.
  • Gemini: Utvecklad av Google (Alphabet). Lanserades som både en LLM och en chattbot (ursprungligen under namnet Bard) i början av 2023 för att konkurrera med OpenAI.
  • Claude: En familj av LLM:er utvecklade av det amerikanska företaget Anthropic, med ett uttalat fokus på AI-säkerhet och styrbarhet.
  • Llama (Large Language Model Meta AI): Utvecklad av Meta Platforms och släppt som öppen källkod (open source), vilket gjort den mycket populär inom forskningsvärlden och för lokala implementationer.
  • Mixtral 8x7B: Utvecklad av det franska företaget Mistral AI.
  • GPT-SW3: En specifik storskalig språkmodell för de nordiska språken, utvecklad av det svenska forskningsinstitutet AI Sweden, vilken blev allmänt tillgänglig under 2023.
  1. Jurafsky, Dan; Martin, James H. (2021). ”N-gram Language Models”. Speech and Language Processing (3:e). https://web.stanford.edu/~jurafsky/slp3/. Läst 24 maj 2022
  2. Pham, Vu, et al. "Dropout improves recurrent neural networks for handwriting recognition." 2014 14th International Conference on Frontiers in Handwriting Recognition. IEEE, 2014.
  3. Kuhn, Roland, and Renato De Mori. "A cache-based natural language model for speech recognition." IEEE transactions on pattern analysis and machine intelligence 12.6 (1990): 570-583.
  4. Andreas, Jacob, Andreas Vlachos, and Stephen Clark. "Semantic parsing as machine translation." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
  5. (1998) "A language modeling approach to information retrieval" in Proceedings of the 21st ACM SIGIR Conference. {{{booktitle}}}: 275–281, ACM. DOI:10.1145/290941.291008. 
  6. (1998) "A linguistically motivated probabilistically model of information retrieval" in Proceedings of the 2nd European conference on Research and Advanced Technology for Digital Libraries. {{{booktitle}}}: 569–584, LNCS, Springer. DOI:10.1007/3-540-49653-X_34. 
  7. Google trials its own AI chatbot Bard after success of ChatGPT i The Guardian den 6 februari 2023
  8. Xu, Frank F.; Alon, Uri; Neubig, Graham; Hellendoorn, Vincent Josua (2022-06-13). ”A systematic evaluation of large language models of code”. Proceedings of the 6th ACM SIGPLAN International Symposium on Machine Programming (Association for Computing Machinery): sid. 1–10. doi:10.1145/3520312.3534862. https://doi.org/10.1145/3520312.3534862. Läst 13 februari 2023.