Uniform Resource Locator
- Uppslagsordet URL leder hit. För svenska upphovsrättslagen, se Upphovsrätt i Sverige.
|
Uniform Resource Locator (URL), på svenska kallat webbadress, är den teckensträng som identifierar en webbplats, till exempel http://sv.wikipedia.org:80/wiki.
URL uppfanns 1989 av Tim Berners-Lee i samband med att World Wide Web lanserades. URLen är konstruerad för att peka ut resurser på Internet och ange hur de kan hittas. En URL kan även användas för att hitta en fil på den egna datorn. Jämför Uniform Resource Identifier (URI).
Exempelvis URL:en http://sv.wikipedia.org:80/w/index.php?title=Dator&action=edit#Historia består av sex olika delar som var och en visar olika information som är nödvändig för att hitta viss information på Internet.
http:talar om vilket protokoll (språk) som skall användas. I detta fall används protokollet HTTP (det vanligaste på WWW). Allt som följer efter:beror på vilket protokoll som man har angett i URLen. Andra vanliga protokoll är FTP (ftp://användarnamn:lösenord@domain/sökväg/fil) ellerfile://för en lokal fil.
- Protokollet kan också avgöra vilket program datorn ska använda för att öppna länken, till exempel öppnas
irc:i ens ircklient,mailto:i ens E-postklient ochdchub:i Direct Connect.
//sv.wikipedia.orgtalar om vilken domän (dator) vi ska leta oss fram till. Genom domännamnssystemet omvandlas domännamnet till en IP-adress (IP-adressen kan också ges direkt).:80talar om vilken port i mottagardatorn vi ska använda. TCP-port 80 som används i det här fallet är standard vid kommunikation med en HTTP-server och behöver därför inte anges explicit./w/index.phpvisar ofta vilken fil vi söker på serverdatorn. Ofta består denna del av ett filnamn, inklusive dess läge i filträdet relativt någon för webbservern definierad baskatalog. Snedstrecket avskiljer element i en hierarki, men i övrigt är tolkningen beroende på webbserverns inställningar (istället för en fil kan här till exempel syftas på en post i en databas).?title=Dator&action=editär extra information vi ska skicka till Wikipedias server, ofta parametrar till ett datorprogram som (explicit eller implicit) anges genom filnamnet. I det här fallet ska vi gå till artikeln Dator och redigera den (action=edit).#Historiatalar om att webbläsaren ska hoppa till stycket Historia. Denna del skickas inte till webbservern utan tolkas lokalt med hjälp av ankaren som ingår i webbsidans HTML-kod.
URL-design[redigera]
Den del av en webbadressen som uppfattas som sökstig, filnamn och parametrar (”/w/index.php?title=Dator&action=edit”) i exemplet ovan tolkas av webbservern och behöver alltså inte betyda någonting visst. Det är ändå praxis att tolka den på vissa sätt och det är en fördel om webbadressen konstrueras så att administratörer och besökare kan dra slutsatser om webbplatsens logiska och fysiska struktur utgående från dem.
Ett vanligt sätt att använda adressen är att låta den första delen vara en sökstig från en basadress till den fil som skall visas, till ett skript (datorprogram) som skall generera den önskade sidan eller liknande (basadressen kan bero på resten av adressen). En eventuell parameterdel ges som indata åt programmet. En sådan struktur är lätt att tolka för dem som arbetar med webbservern. En annan modell är att låta adressen avspegla en logisk struktur, oberoende av hur filerna ligger på datorn. I bästa fall sammanfaller de båda i rätt stor utsträckning.
Då allt fler webbplatser använder databaser som inte är beroende av filträdet på datorns hårddisk, utan istället använder nycklar, är det rätt vanligt att adressen är en kod utan betydelse annat än inne i databasen. En sådan adress är svår att komma ihåg eller ens teckna ner och minsta misstag leder till att rätt resurs inte hittas.
Ett speciellt problem är då webbplatsen omorganiseras eller serverprogramvaran byts ut. Ofta är resultatet länkröta, att adresser till webbplatsen runt kring Internet upphör att fungera. Genom att adresserna ursprungligen valts enligt ett logiskt schema gör man det enklare att omdirigera dem till rätt sida efter ändringen.
URL-kodning[redigera]
Engelska bokstäver A-Z och a-z, siffror 0-9 samt tecknen - _ . ~ kan användas fritt som de är i en URL. Övriga tecken i en URL måste URL-kodas för att överföras korrekt. Det gäller dels reserverade tecken som har speciell betydelse i en URL, som bland annat & # / ? +, och alla övriga tecken. Vill man använda dessa som vanliga filnamn måste de kodas med ett procenttecken och två hexadecimala siffror.
För binära värden, som inte är text, kodar man byte för byte. För text, vilket är det vanligaste (mera specifikt är det oftast filnamn) måste man veta vilken teckenkodning det är (samband mellan nummer och tecken). Enligt den standard som gällt sedan 2005 ska det vara Unicode kodad med UTF-8. Det innebär en byte för ASCII-tecken (7-bits) och 2 bytes för (nästan alla) övriga latinska och kyrilliska tecken, och tre bytes för (nästan alla) övriga tecken. Sedan kodas varje byte med % och två hexadecimala siffror. Normalt i sker detta automatiskt av webbläsaren, åtminstone nyare webbläsare, och de använder normalt UTF-8.
Dock kan servrar i vissa fall vara konfigurerade att använda en annan teckentabell, till exempel Latin-1. I så fall bör webadressen alltid skrivas med %-kodning. Traditionellt undviker man helt enkelt tecken utöver US-ASCII, till exempel å,ä,ö. För att säkerställa en korrekt transfer av adressens tecken anges de enligt följande exempel:
| Tecken | Kod (Latin-1) | Kod (unicode) |
|---|---|---|
| <space> | %20 | %20 |
| % | %25 | %25 |
| & | %26 | %26 |
| , | %2C | %2C |
| å | %E5 | %C3%A5 |
| ä | %E4 | %C3%A4 |
| ö | %F6 | %C3%B6 |
| ü | %FC | %C3%BC |
| Å | %C5 | %C3%85 |
| Ä | %C4 | %C3%84 |
| Ö | %D6 | %C3%96 |
| æ | %E6 | %C3%A6 |
| ø | %F8 | %C3%B8 |
| é | %E9 | %C3%A9 |
| ć | finns ej | %C4%87 |
| œ | finns ej | %C5%93 |
| 華 | finns ej | %E8%8F%AF |
| Exempel: http://sv.wikipedia.org/wiki/Malmö bör skrivas som http://sv.wikipedia.org/wiki/Malm%C3%B6. Nyare webbläsare gör detta automatiskt. | ||
När det gäller själva domännamnet används en annan nyare och mer kompakt standard, Punycode.