GPT-2

Från Wikipedia
Hoppa till navigering Hoppa till sök

Generative Pre-trained Transformer 2 (GPT-2) är en autoregressiv språkmodell som använder djupinlärning för att producera sådan text, som människor producerar.

GPT-2 översätter text, svarar på frågor, sammanfattar passager, och genererar textutdata på en nivå som, även om den ibland inte kan skiljas från människors, kan bli repetitiva eller meningslösa när man genererar långa passager.Det är en allmäninlärare; den var inte specifikt utbildad för att utföra någon av dessa uppgifter, och dess förmåga att utföra dem är en förlängning av dess allmänna förmåga att exakt syntetisera nästa objekt i en godtycklig sekvens. GPT-2 skapades som en "direkt uppskalning" av OpenAI:s 2018 GPT-modell, med en tiofaldig ökning av både dess parameterantal och storleken på dess träningsdatauppsättning.

GPT-arkitekturen implementerar ett djupt neuralt nätverk, specifikt en transformatormodell,som använder uppmärksamhet i stället för tidigare återkommande- och faltningsbaserade arkitekturer. Uppmärksamhetsmekanismer tillåter modellen att selektivt fokusera på segment av inmatad text som den förutspår att vara den mest relevanta. Denna modell möjliggör kraftigt ökad parallellisering och överträffar tidigare riktmärken för RNN/CNN/LSTM-baserade modeller

OpenAI släppte den kompletta versionen av språkmodellen GPT-2 (med 1,5 miljarder parametrar) i november 2019. GPT-2 skulle följas av 175 miljarder-parametern GPT-3, som avslöjades för allmänheten 2020 (vars källkod aldrig har gjorts tillgänglig). Tillgång till GPT-3 tillhandahålls exklusivt via ett API som erbjuds av Microsoft.

Referenser[redigera | redigera wikitext]

Den här artikeln är helt eller delvis baserad på material från engelskspråkiga Wikipedia, GPT-2, 27 december 2021.

Noter[redigera | redigera wikitext]