Utökad ASCII

Från Wikipedia
Hoppa till: navigering, sök

Termen utökad ASCII syftar, något missvisande, på olika 8-bitars teckenkodningar där de första 127 koderna stämmer med ASCII-standarden. Syftet är att kunna representera tecken från andra språk än engelska. Tidigare i datorhistorien används varianter av ASCII, ISO/IEC 646, det vill säga olika 7-bitskodningar där de olika språkens speciella tecken stoppades in på olika platser bland de 127 första koderna. Båda dessa sätt att koda tecken är på väg att ersättas av system som använder mer än 8 bitar och som därmed har kapacitet att samtidigt representera alla språks tecken, nämligen Unicode och ISO/IEC 10646.

ISO har definierat ett antal ASCII-utvidgningar i form av ISO 8859-serien standarder för 8-bitarstecken. Till exempel ISO 8859-1, även känd som ISO Latin-1, som någotsånär klarar de flesta västeuropeiska språk. För östeuropeiska tecken finns ISO 8859-2 och för kyrilliska tecken ISO 8859-5. Även Microsoft (CP 1252, CP 949, ...) och Apple (MacRoman, MacCyrillic, MacJapanese, ...) har vardera definierat ett antal olika utvidgningar av ASCII.

Det finns även utvidgningar av ASCII som är "multi-byte", alltså mer än en byte, per tecken används för att representera många av de tecknen som kan representeras i en viss codepage. ASCII-tecknen representeras ändå med en byte, annars är det ingen utökad ASCII. Dessa utvidgningar används traditionellt mest för kinesiska, japanska och koreanska, men finns även för europeiska språk (ISO/IEC 6937). Kodningsformen UTF-8 av Unicode, som numera är vanligast på webben, är en multi-byte-utvidgning av ASCII.

Utökad ASCII som princip är viktig för dataspråk som C och HTML. Alla nyckelord och speciella tecken som har särskild betydelse i språken använder ren ASCII och tolkas likadant oberoende av vilken utökad ASCII det är. Det förenklar den programvara som tolkar sådana språk.