![]() |
Vorwort |
Es kommt zwar nicht sehr häufig vor, dass Webauftritte oder einzelne Untersektionen in vielen verschiedenen Sprachen der Welt funktionieren müssen, so dass der Autor auf die Verwendung mehrerer Charcodes (Zeichenkodierungen) angewiesen ist. Sollte es dennoch nötig sein, stellt sich plötzlich die Frage der Umsetzung. Wer sich schon näher mit dem Problem der Internationlisierung befasst hat, ist mit dem System des Unicodes in Berührung gekommen. Allerdings ist die Verwendung von Unicode auf Webseiten eine eher schwierige Geschichte. Spätestens wenn es um Interaktion zwischen Browser und Server geht, ist guter Rat teuer. Denn während die Darstellung auf der Seite des Benutzers dessen Ansprüchen, d.h. seinem im Browser eingestellten Charset (Zeichensatz) entspricht, müssen auf dem Server gegebenen Falls mehrere Codierungen verarbeitet werden.
Dieser Artikel befasst sich mit einer Möglichkeit, Benutzereingaben entsprechend Unicode zu verarbeiten. Das können beispielsweise Formulardaten in Anwendungen wie Gästebüchern, Foren oder Content Management Systemen (CMS) sein. Dabei werden die Texte in einen robusten Datenstrom geparst. In diesem Zusammenhang werden zwei grundlegende Methoden erläutert. Erstens, UTF-8, das der Notierung von Unicode in normaler 8-bit Schreibweise dient. Zweitens, base64, welches der Integrität von Bitstreams auf textbasierten Systemen dient. Schließlich werden beide Verfahren in JavaScript implementiert.
Zum besseren Verständnis empfiehlt es sich, die entsprechenden grundlegenden Artikel in SELFHTML zu lesen. In diesem Zusammenhang ist natürlich das Kapitel
Internationalisierung zu nennen, besonders die Abschnitte
Zeichensätze (iso-8859-Familie und andere) und
Das Unicode-System.
Außerdem wird ein grundlegendes Wissen über das binäre Zahlensystem vorausgesetzt.
© 2007
Impressum
© 2000-2005
tobias@justdreams.de für den Text auf dieser Seite