Wikipedia:Projekt Fredrika/Dialektordbok

Från Wikipedia

En projektsida om att förbättra lexikografisk data i Wikidata med hjälp av innehåll från Ordbok över Finlands svenska folkmål, även kallad "dialektordboken" vars nätversion finns tillgänglig vid kaino.kotus.fi/fo. Förkortningen "FO" står för "folkmålsordboken".

Se sökning över lexem med identifierare Ordbok över Finlands svenska folkmål ID (P12032). Och en sökning med ordbokens uttal konverterade till IPA.

Projektets resultat delades med och diskuterades i svenska Wikipedias bybrunn 4 december 2023, se här.

Institutet för de inhemska språken delade med i mars 2024 en ingående sida om arbetet: Dialekt och digitalisering: överföring av material ur Ordbok över Finlands svenska folkmål till Wikidata.

Utgångsläget[redigera | redigera wikitext]

Dialektordboken[redigera | redigera wikitext]

Verket som inofficiellt beskrivs som en dokumentationsordbok innehåller för tillfället 78 500 artiklar (uppslagsord ab-ry) och kommer som färdig att innehålla 120 000. Finns att ladda ner som XML-filer från sidan Sähköiset aineistot kootusti (kotus.fi).

Existerande lexem i Wikidata[redigera | redigera wikitext]

Det finns 41 387 svenska lexem (14.9.2023): se allmän lexem-statistik, Ordia, eller sökning över svenska lexem. Ett lexem är en abstrakt enhet varav lemma är en del - lemma är grundformen (uppslagsformen) av ordet i en ordbok.

Planerade och förverkligade åtgärder i Wikidata. Vi har delat in arbetet i

  • redan existerande lexem / nyskapade lexem i Wikidata
  • simplex / compound ord (enkla eller sammansatta ord)
  • uttal

1. Matcha FO-ordbokens ord med existerande Wikidata-lexem

Vi lägger till P-koden Ordbok över Finlands svenska folkmål ID (P12032) i Wikidata med en pekare med uppslagsordet vid kaino.kotus.fi/fo.

Av 79 048 uppslagsord matchades 6877 (8,7%) uppslagsord till redan existerande 5594 svenska Wikidata lexem. Av de matchade 6877 FO-uppslagsord var 1 623 compound (24%), dvs FO-ordet innehåller bindesstreck, och 5 254 simplex (76%)

Skillnaden mellan 6877 och 5594 beror på att FOs varianter av homografiska uppslagsord räknas som skilda enheter, medan Wikidatas lexem samlar ihop flera betydelser under samma lemma (grundformen) och ordklass (substantiv, verb, adverb, etc). Exempel på Wikidata lexem med mera än motsvarighet i FO: and L251549, anda L477545, ankare L590490.

2. Skapa nya lexem

Vi har även ämnat skapa nya lexem i ett senare skede.

3. Föra in uttal

Vi har skapat en konverteringstabell mellan ordbokens "fin-beteckning" och IPA, så att vi kan föra in uttalens ljudprov med egenskapen IPA-uttal (P898) under varje lexem, samt uttrycka regionerna för uttalet med uttalsvariation (P5237).

Vi har 4. december 2023 slutfört införande av 13 247 uttal för redan existerande simplex uppslagsord (cirka 5254 från a till r), för redan existerande lexem. Mängden data är totalt 59 632 rader tillsammans med regionerna för uttalen. Se sökning på svenska lexem med FO-id, uttal och region.

Vi har 18. december fört in uttal för existerande sammansatta compound ord, motsvarande 3341 rader med data för uttal och regioner. Se sökning.

Kvar är därmed att föra in uttal för nyskapade lexem då det görs.

Python kod

Koden vi skrivit för projektet finns på github vid projekt-fredrika/kotus-fo - den parsar XML-filerna, filtrerar bort uttal som inte är i grundform, matchar ord till Wikidata med hjälp av Wikidatas API (wikidata.org/w/api.php), konverterar uttal till IPA, och förbereder uppladdningar till Wikidata med QuickStatements och LexData. Vi använde även wikibase-cli för att städa några tusen qualifiers inom lexem.

Egenskaper för lexem[redigera | redigera wikitext]

Se dokumentation över typiska egenskaper att föra in - en del viktigare än andra

Grunduppgifter (grundkriterier)

Uttalande

Identifierare

Betydelser (kan ha flera)

Form (böjningar)

Transkription av uttal[redigera | redigera wikitext]

Hur konvertera till IPA?

  • Wikidata använder Internationella fonetiska alfabetet
  • ordens uttal beskrivs i FO med två olika metoder, båda bundna till svenskan
    1. fint uttal
    2. grovt uttal
  • det är oklart om det är trivialt att ur FO-uttalsbeskrivningen går att härleda vilkendera formen det rör sig om
    • utrett: uttalen är definierade i XML som fin eller grov.

Hur ange det som är viktigt för östsvenskt uttal?

  • vokalernas längd är oberoende av betoningen
    • viktigt med vilken stavelse som betonas, liksom i västsvenska
    • ord kan ha enbart korta vokaler, i motsats till västsvenska
    • finlir och nyanser i betoningen saknas, törhända med undantag av västnyländska
  • viktigt att tje- och sje-ljuden uttalas annorlunda än i västsvenska dialekter
    • det som skrivs "tjölvå" är väl snarare [tʂœlːvɔ] än [ɕœlːvɔ]?
  • annorlunda (kanske?) vokaler
    • hur översätter man FO:s ɷ ⱺ o ö ø å till IPA?
    • i Wikidata-artikeln om IPA görs skillnad på ö-ljudet i "förr" och "högg", varför?

Hur ange regional variation?

  • Wikidata understryker behovet att ange uttal för samtliga böjningsformer (kölva, kölvan, kölvorna, kölvornas etc.)
  • Ur FO-synvinkel är det däremot den regionala variationen som är intressant (tjöḷvɷ, tjøḷvɷ, tjöḷvⱺ, køḷvo, tjälvå)

Redskap och annat[redigera | redigera wikitext]

Skapa, redigera lexem

Behandla data

  • GetWordinSAOB.py, exempel på pythonkod på github för att hämta ord och IDn från SAOB

Wikidata sökninar (queryn)