Wir leben in einer globalisierten Welt. Die Zusammenarbeit mit weit entfernten Ländern ist aus der modernen Gesellschaft nicht mehr wegzudenken. Überall entstehen neue kulturelle Überschneidungen und Freihandelsabkommen sprießen wie Unkraut aus der Erde.
Doch diese, relativ neue globale Verbundenheit bringt auch Herausforderungen mit sich. Eine hiervon ist die Frage, wie Menschen im digitalen Zeitalter miteinander kommunizieren, wenn doch nicht nur die Sprachen, sondern auch die Schriftsysteme unterschiedlicher nicht sein könnten. »Moment!«, mag da manch einer sagen. »Wir haben doch zahllose Übersetzungsprogramme, in die man den fremd erscheinenden Text einfach einfügen kann und die Probleme sind gelöst.«
Damit mag er heutzutage auch recht haben, doch hinter den Kulissen gestaltet sich die Angelegenheit etwas komplizierter. Denn wie gelingt es, dass wir eine so diverse Zeichenlandschaft auf unterschiedlichen Betriebssystemen überhaupt darstellen können? Lassen sich all die Schrift- und Sonderzeichen in einem einzelnen Datensatz speichern?
Mit diesem Problem sahen sich Mitte der 80er Jahre auch Joe Becker und sein Team bei Xerox konfrontiert und entwarfen ein Kodierungssystem, das alle Zeichen umfassen sollte, welchen weltweit eine Bedeutung zugeschrieben wird. Dies war die Geburtsstunde dessen, was wir heute als den Unicode kennen.
Aber der Reihe nach: Wenn wir uns der Relevanz dieses Systems bewusst werden wollen, kommen wir nicht umhin, uns die missliche Lage der vergangenen Kodierungssysteme anzusehen. Also der Systeme, die die Zeichen, die wir als Buchstaben, Satzzeichen usw. deuten, für den Computer, dessen Gehirn ja bekanntlich nur mit Einsen und Nullen arbeitet, übersetzen.
Als die elektronische Datenverarbeitung noch in ihren Kinderschuhen steckte, waren etwa 60 verschiedene Kodierungen in Gebrauch, ehe sich der 1972 festgelegte 7-Bit-ASCII-Standard weitgehend durchgesetzt hat. Wie der Name (»American Standard Code for Information Interchange«) schon sagt, diente der ASCII ursprünglich zur Darstellung von Schriftzeichen der englischen Sprache.
Dieses System bot demnach aber keine Möglichkeit, mit verschiedenen nationalen Zeichensätzen kodierte Daten gleichzeitig darzustellen. So wurde dieser 7-Bit-Code, unter Beibehaltung seines Kodierungsschemas auf ganze 8 Bit, also konkret von 128 Zeichen auf 256 Zeichen erweitert. Er war nun zumindest in der Lage, den größten Teil der Sonderzeichen europäischer Sprachen gleichzeitig darstellen zu können.
Auch ein 8-Bit-Code bietet zu wenig Platz, alle Sonderzeichen gleichzeitig unterzubringen, weshalb es von dieser Art allein 15 regionale Versionen gibt. An die Festlegung eines brauchbaren chinesischen Zeichensatzes in 8-Bit-Kodierung ist gar nicht zu denken. Die eingangs erwähnte zunehmende Internationalisierung aber erfordert eine einheitliche Zeichenkodierung, um den reibungslosen Austausch von Dokumenten zu gewährleisten.
Demnach wurde nach mehrjähriger Arbeit 1991 eine erste Version des Unicodes veröffentlicht, der 24 Schriftsysteme und 7.161 einzelne Zeichen beinhaltete. Dieser bereits wuchtig erscheinende Datensatz wurde bis zur heute aktuellen Version (14.0) auf 159 Schriftsysteme und 144.697 Zeichen erweitert. Zuletzt hinzugekommen sind Schriften für Cypro-Minoan, Old Uyghur, Vithkuqi, Tangsa, Toto, sowie 37 neue Emoji.
Man kann also dankbar zur Kenntnis nehmen, dass dieser ausufernd große Datensatz der maßgebliche Grund dafür ist, dass wir als Europäer keine Schwierigkeiten damit haben, auch ostasiatische Schriftbilder aufzurufen, oder im Ausland auf unsere altvertrauten Zeichensätze zugreifen zu können.
Mit Sicherheit, hat dieses, für die meisten sehr abstrakt scheinende Kodierungssystem nicht unwesentlich zu der Ermöglichung unserer internationalisierten Welt beigetragen. Wer sich gerne ein Bild von der Bandbreite der international genutzten Schriftsysteme machen möchte, kann den nachfolgenden QR-Code scannen, sich entspannt zurücklehnen und die Version 6.0 im zweieinhalbstündigen Schnelldurchlauf an sich vorbeirattern lassen.
Comments