9. Januar 2020

Projekt Unicode: Endlich korrekte Namen!


Kategorie: Digital

Ein Beitrag von:

Dr. Stefan Döring
Dr. Stefan Döring

Co-Autoren­schaft:
Elisabeth Wagner - Elisabeth Wagner

Wohl jeder kennt es, kaum jemand kann es erklären: Manchmal ersetzen komische Zeichenfolgen im digitalen Schriftverkehr einzelne Buchstaben im Wort. Deutschstämmigen Namen passiert das beispielsweise bei Umlauten im elektronischen Auslandaufenthalt. Bei Namen aus anderen Sprachen trifft es die im Deutschen nicht verwendeten Zeichen. Der Einsatz von Unicode soll nun europaweit die korrekte Ansprache im Behördenkontakt umsetzen.

Wer in Deutschland lebt und Albrecht, Hauser oder Schmidt heißt, kennt das Problem nicht, Herr und Frau Møller, Guðmundsdottir oder Ismæl schon: Ihr Name wird immer mal wieder anders geschrieben. Da heißen die Møllers vielleicht Möller oder Moller oder Moeller. Oder sie haben einen Zeichen-Mix mitten im Wort. Auch bei Namen von Straßen, Städten, Unternehmen, Produkten und Marken tritt das Phänomen auf.

Kein Führerschein für Thomas Møller?

Die verschiedenen Schreibweisen sind für die Betroffenen nicht nur unschön. Sie können auch richtig Ärger machen. Zum Beispiel, wenn Thomas Møller einen Führerschein beantragt. Das System übersetzt den Buchstaben ø in seinem Namen in ein einfaches o. Im Einwohnermeldeamt ist sein Name hingegen korrekt registriert. So kommt es bei der Synchronisation zu Problemen. Der Prozess kommt ins Stocken. Warum gibt es diese Phänomene?

Unicode – ein Stück IT-Geschichte

Herkömmliche Computer-Zeichensätze sind begrenzt. Deshalb sind damit immer nur wenige Sprachen darstellbar. Man kann zwar in einem Text verschiedene Schriften oder Buchstaben verwenden (in Windows beispielsweise über Einfügen/Symbol), aber das ist aufwändig.

1988 entwickelte Joseph D. Becker, Mitarbeiter der Firma Xerox, deshalb einen universalen Zeichensatz „aller moderner Sprachen“. Im Oktober 1991 wurde die erste Version dieses „Unicode-Standards“ veröffentlicht. Sie umfasste die europäischen, nahöstlichen und indischen Schriften. Alle darin verwendeten Zeichen erhielten in Unicode eine eindeutige (hexadezimale) Zahl, einen sogenannten Codepoint.

Wenig später kamen die ostasiatischen Zeichen dazu. Nach und nach wuchs der Standard auf die heute möglichen 1114112 Codepunkte. So gut wie alle Schriftsprachen dieser Welt sind jetzt in Unicode darstellbar.

Unicode für Verwaltungen in Europa

​Theoretisch gibt es also eine technische Basis, Systeme für alle Sprachen fit zu machen. In der Praxis lässt sich diese riesige Zeichenmenge aber kaum handhaben. So wurde Unicode zunächst nur wenig genutzt bis mit der Globalisierung der Bedarf wieder stieg.

In Deutschland wurde zunächst im Personenstandswesen (zum Beispiel in den Standesämtern) bundesweit der Standard „Lateinische Zeichen in Unicode“ eingeführt. Inzwischen hat ein Arbeitskreis zur Entwicklung einer DIN 91379 für Unicode diesen Zeichensatz von 450 auf rund 900 Zeichen ergänzt. Damit lassen sich nun alle europäischen Sprachen korrekt darstellen. Ab November 2024 müssen laut Vorgabe des IT-Planungsrats der Bundesregierung bestimmte IT-Verfahren diese Norm erfüllen.

München im DIN-Arbeitskreis mit dabei

In dem zehnköpfigen DIN-Arbeitskreis sind das Bundesinnenministerium, das Landesamt für Finanzen Bayern und die Deutsche Rentenversicherung vertreten. München ist mit unserem Kollegen Johannes Burger als einzige Kommune dabei. Der sieht diese Beteiligung als Glücksfall für das Unicode-Projekt:

Zum einen hat der IT-Planungsrat den Umsetzungszeitraum auch auf unseren Vorschlag hin um zwei Jahre verlängert. Zum anderen konnten wir eine Berichtspflicht der Landeshauptstädte anregen, die den kommunalen Unicode-Projekten wertvolle Informationen bringen wird. Und schließlich können wir praxisnahe Vorschläge zur Gestaltung der Norm einbringen.

Fokussierung auf Verfahren mit Datenaustausch

Die Pflicht zur Unicode-Umstellung bezieht sich auf IT-Verfahren, die

  • dem behörden-übergreifenden Datenaustausch oder
  • dem Datenaustausch mit Bürgerinnen und Bürgern sowie der Wirtschaft dienen.

Damit stand das Münchner Unicode-Projekt nach seinem Start 2017 vor einer ersten Mammutaufgabe, 1143 IT-Verfahren nach diesen Kriterien zu überprüfen. Dabei wurde für insgesamt 104 Verfahren Handlungsbedarf identifiziert.

Unicode – weit mehr als nur ein neuer Zeichensatz

Ein Verfahren auf Unicode umstellen, bedeutet weit mehr, als nur den Zeichensatz verfügbar zu machen. Alle Glieder der Verarbeitungskette müssen überprüft und gegebenenfalls aufgerüstet werden: Bildschirme, Drucker, Schnittstellen, … Denn sonst kann es passieren, dass beim Schreiben alles gut aussieht, die automatische Eingangsbestätigung den Namen aber doch verunstaltet.

Ein anschauliches Beispiel zeigt der hier abgebildete kryptische Tweet: Korrekt versandt, wurde ihm eine Schnittstelle zum Verhängnis, die offensichtlich keine deutschen Umlaute kennt.

Super Bild
Kryptischer Tweet ohne Unicode

Zwar muss die Stadtverwaltung nicht alles selbst machen. Für Drucker und andere Hardware etwa sind die Hersteller zuständig. Aber dennoch: Die Umstellung jedes einzelnen Verfahrens hat ihre Tücken und muss deshalb innerhalb eines eigenen Unicode-Projekts professionell durchgeführt werden.

Die Umsetzung startete Anfang 2019. Nach ersten Erfahrungen mit einfachen Aufgabenstellungen ging es Schritt für Schritt an die größeren Verfahren. Bis Ende 2021 sollen alle relevanten internen Systeme umgestellt sein. Dann steht dem DIN-konformen Datenaustausch mit adäquat vorbereiteten Partnern nichts mehr im Wege.

Die Open Source Lösung der Stadt München, hilft Ihnen Unicode in der Praxis einfach und schnell umzusetzen. Informieren Sie sich und testen Sie „Kiwi“.

Kommentare(3)

  1. Wer häufig in einer anderen Sprache schreiben muss, der kennt in der Regel die geeigneten Hilfsmittel. Manche schalten auch mal das Tastaturlayout temporär um, wenn sie Text in einer fremden Sprache schreiben. Und für Smartphones oder Tablets gibt es viele länder-/sprachspezifische „virtuelle Tastaturen“.
    Schwieriger ist die Situation für das Personal in der Verwaltung, die ggf. Namen, Orte etc. ganz unterschiedlicher Herkunft eingeben müssen. Wenn Bezeichnungen aus Abschriften, Übersetzungen oder Kopien übernommen werden müssen, ist es manchmal schwer, die Herkunft der Bezeichnung zu erkennen oder zu bestimmen. Dafür wurde für die Münchner Stadtverwaltung ein Tool entwickelt, welches dem Personal hilft, nach ähnlich aussehenden Zeichen zu suchen. Mehr dazu findet man im hier im Blog im Beitrag vom 20. Januar 2020: Wie „Kiwi“ bei der korrekten Zeicheneingabe unterstützt.

    Antworten
  2. Nur eine praktische Frage: Wenn ich in Zukunft den Namen Guðmundsdottir korrekt schreiben will, finde ich das „ð“ weiterhin im jeweiligen Programm unter „Sonderzeichen“, oder wie bekommt man Zugriff auf den erweiterten Zeichensatz?

    Antworten
    • Hallo Herr Hösl,
      danke für die Nachfrage. Der Artikel beschreibt die Anwendung in IT-Programmen.
      Privat in der Textverarbeitung bleibt der Weg über Sonderzeichen. Auch gibt es verschiedene Downloads, die den Zeichensatz als Copy&Paste anbieten.
      Viele Grüße, Stefan Döring

      Antworten

Kommentar absenden

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Weitere Beiträge

Teilen