Sonderzeichen und UTF-8: Hier kommt der Euro
Teil 2 der Unicode-Saga | Dem Zeichensatz ISO-8859-1 fehlen ein paar französische und finnische Zeichen, das niederländische ij, die deutschen Anführungszeichen unten und er kennt obendrein zwar einen japanischen Yen ¥, aber noch keinen Euro.
Darum wurde der Zeichensatz ISO-8859-15 geschaffen. Dort fehlen dann wieder einige der selten benutzen Zeichen aus ISO 8859-1 wie 1/4 usw., wir müssen immer noch amerikanisch zitieren und mdash; schreiben, wenn wir einen Gedankenstrich nicht mit einem Bindestrich simulieren wollen. Weiterhin kann ein Sprachmix — z.B. aus Russisch und Deutsch ‐ nur über Umwege realisiert werden. Es wird Zeit, dass sich das Web Unicode auf die Fahne schreibt.
Anmerkung: Der Windows Latin-1 Zeichenvorrat deckt den gesamten Latin-1-Vorrat, beherrscht die typografischen Feinheiten wie em-dash und en-dash, das ?-Zeichen und Zeichen aus Latin-9 wie Z-hacek und S-hacek. Das soll aber nicht heißen, dass man Windows 1252 schreiben soll, um an die typografischen Auszeichnungen zu kommen.
Ein Schritt voran mit Siebenmeilenstiefeln: Unicode
Das W3C empfiehlt anstelle von ISO 8859 die Verwendung von UTF-8, das viele Sprachen, Piktogramme, Satzzeichen, Sonderzeichen und Ziffern innerhalb einer Kodierung unterstützt.
Erst mit Unicode funktioniert die mehrsprachige Gestaltung einer Webseite zufriedenstellend — vorausgesetzt, der gewählte Zeichensatz bietet den entsprechenden Vorrat an Zeichen.
Mathematiker und Physiker freuen sich, dass ihnen nun jede Menge griechischer und mathematischer Zeichen zur Verfügung stehen, Historiker danken dafür, dass Sie altgermanische Runen so einfach verwenden können. Die Typografen werden dem deutschen „Anführungszeichen unten” einen Platz im Naturschutzpark einräumen oder holen die deutschen »typografischen Anführungszeichen« wieder aus der Schublade.
Und die üblichen Probleme?
Nun, zunächst mal bringt Unicode keine Probleme und keinen Umstellungsaufwand mit sich. Die alten Ascii-Zeichen gelten unverändert in Unicode (UTF-8), so dass keine Konvertierung notwendig ist. UTF-8 Zeichen haben keine feste Länge, sie beträgt dynamisch je nach Zeichen ein bis vier Byte.
Fonts für Fans
Die herkömmlichen Schriften reichen nicht aus, aber inzwischen stehen neue Fonts recht zuverlässig zur Verfügung. NT enthält mit Lucida Sans Serif immerhin einen Font mit 1300 Zeichen. Arial Unicode MS, die 2001/2002 noch bei Microsoft herunter geladen werden konnte, konnte mit einem Zeichenvorrat von rund 10.000 Zeichen noch fast alle Unicode-Zeichen darstellen, selbst die Zeichen vieler asiatischer Schriften, wird jetzt allerdings nur noch mit Office geliefert. Mit Mac OS X Panther wird Lucida Grande geliefert, die über einen ähnlich großen Umfang verfügt wie Lucida Sans Serif. Dann gibt es noch Lucida Sans Unicode mit rund 1.800 Zeichen. Times New Roman, Arial und Courier sollen rund 600 Glyphen aufweisen. Tahoma auf dem Mac ist eine freundlichen Gabe von Microsoft und enthält rund 1000 Zeichen.
Auf der Seite Sonderzeichen liegt eine lange Liste von häufig verwendeten Sonderzeichen vom griechischen α über jede Menge mathematischer Zeichen feine Formeln bis hin zu Dingbats:
❦ ❤ ❖ ✆ ✄ ♣
Editoren für Alle! und Browsersupport für Unicode
Auch die Editoren warten auf mehrsprachige Dokumente, aufregendende Formeln und die Blogs der Cherokee-Indianer in Oklahoma. Waren die Programmeditoren bislang auf allein-selig-machendes Ascii beschränkt, so verstehen sie sich jetzt heute schon wie Namo, BBEdit und Dreamweaver auf multilinguale Dokumente. Alan Wood bietet eine nicht zu überbietende Übersicht über Windows, Mac und Unix-Editoren (direkt nach einem umfassenden Kompendium der ISO-Namen für Pestizide) und hat Browser für Windows, Mac OS 9 und X und Unix untersucht.






Wow, der Beitrag ist viereinhalb Jahre und mir war die Info immer noch neu.
Das war quasi Rettung in letzter Sekunde bei meinem Problem.
Danke für die ausführliche Erläuterung!
Schöne Grüße,
Andy
Kommentar von Blogberry — 12. November 2008 @ 11:32