Maschinelle Übersetzung: für Mensch und Maschine
Maschinelle Systeme sollen die Übersetzung erleichtern und bessere Ergebnisse liefern. Technische Informationen sind dafür gut geeignet, weil sie einen hohen Wiederholungsgrad und standardisierte Textbausteine aufweisen.
Redaktionsrichtlinien sind Regeln für das Verfassen technischer Informationen. Sie legen z. B. fest, wie Anleitungen, Überschriften oder Listen zu formulieren sind. Sie können auch vorschreiben, dass bestimmte grammatikalische und stilistische Formulierungen, z. B. Passivkonstruktionen, Konjunktionen oder Abkürzungen, zu vermeiden sind. Sie stützen sich oft auf Leitlinien und Veröffentlichungen über regelbasiertes Schreiben und Regeln für kontrollierte oder leichte Sprache. Außerdem sollen sie technischen Redakteuren dabei helfen, Texte zu verfassen, die leicht zu verstehen und zu übersetzen sind. Letztlich geht es darum, dass der Leser die beschriebene Technologie nutzen kann.
Der Einsatz von computergestützten Übersetzungswerkzeugen (CAT-Tools) und Übersetzungsspeichern (sog. Translation Memorys) bei nicht standardisierten Ausgangstexten kann zu Übersetzungsfehlern führen oder hohe Kosten verursachen. Um diese Risiken zu minimieren, ist es wichtig, die Übersetzungsregeln regelmäßig zu aktualisieren, denn Maschinen verstehen Texte anders als Menschen. Die Texte müssen also so geändert werden, dass sie von einer maschinellen Übersetzungs-Engine richtig interpretiert werden können.
Maschinelle Übersetzungsmethoden – wichtige Begriffe
Statistische maschinelle Übersetzung (SMT)
Bei der statistischen maschinellen Übersetzung werden statistische Analysen und Vorhersagealgorithmen verwendet, um zu ermitteln, welche Übersetzung eines Zeichens, eines Wortes, einer Phrase oder eines Satzes passend ist. Für das Anlernen einer SMT-Engine wird ein zweisprachiger Korpus verwendet, der an eine Anwendung angepasst ist und die besten Ergebnisse liefert.
Regelbasierte maschinelle Übersetzung (RBMT)
Die RBMT basiert auf einem Regelsatz, der die Grammatik einer Sprache darstellt. Außerdem werden Wörterbücher für den allgemeinen Wortschatz und Fachwörterbücher für spezielles Vokabular verwendet.
Neuronale maschinelle Übersetzung (NMT)
Die NMT basiert auf einem künstlichen neuronalen Netzwerk und lernt, Muster in Texten zu erkennen. Sie erstellt Übersetzungen, gleicht sie wiederholt mit Referenzmaterial ab und „lernt“ so das Übersetzen.
Vorgaben für Überschriften
Bei technischen Informationen sollten die Überschriften kurz, prägnant und einheitlich sein. Redundanzen sind zu vermeiden. Darüber hinaus sollten sie aufgabenorientiert formuliert sein und möglichst auf Nominalisierung verzichten. Der Leser sollte sofort erkennen können, worum es in einem Abschnitt geht, ohne dabei unnötige Informationen zu erhalten, die ihn überwältigen oder vom Wesentlichen ablenken. Überschriften sollten sich darüber hinaus deutlich vom beschreibenden und instruktiven Text abheben.
Obwohl die Regeln für das Verfassen einer Überschrift logisch sind und auch von Maschinen verstanden werden dürften, besteht ein Problem darin, dass die maschinelle Übersetzung eine Überschrift als Anweisung deuten und übersetzen könnte (z. B. „Windows installieren“). Die Folgen sind neben unschönen Formulierungen in der Zielsprache auch falsche Rückübersetzungen, die zu Verwirrung führen können. Besonders deutlich wird dies bei den Übersetzungen vom Englischen ins Deutsche, wie der untenstehende Vergleich zwischen DeepL (DE-EN/EN-DE) und Google Translate (DE-EN/EN-DE) zeigt.
Windows installieren - (Deepl) Install Windows /Windows installieren - (Google) Install Windows /Installieren Sie Windows
Installation von Windows - (Deepl) Installing Windows /Installation von Windows - (Google) Windows installation /Windows-Installation
Für die maschinelle Übersetzung von Überschriften sollte die Nominalisierung verwendet werden. Auf diese Weise wird die englische Übersetzung im Vergleich zur Struktur „Subjekt + Verb“ genauer.
Ein Problem, das alle Sprachen betrifft, sind Wörter mit identischen Endungen im Singular und Plural, z. B. „information“ oder „data“ im Englischen; diese müssen genauer beschrieben werden. Je nach der Sprache, in die die Überschriften übersetzt werden, können falsche grammatikalische Formen oder Begriffe auftreten. Schließlich ist auch die Regel zur Vermeidung von Redundanzen entscheidend. Nicht nur die MÜ hat Probleme damit, scheinbar redundanzfreie Überschriften korrekt zu interpretieren. Das kann allerdings auch einem menschlichen Übersetzer passieren, der nicht sofort den gesamten Kontext erkennt.
Anleitungen
Anleitungen und Beschreibungen in technischen Informationen sollten so verfasst sein, dass der Inhalt klar verständlich ist.
Definitionen in Styleguides, z. B. die Formulierung und auch der Inhalt von Überschriften, sollten bei der Verwendung von maschineller Übersetzung berücksichtigt werden. Darüber hinaus ist die Wiederholung von Verweisen auf die eigentlichen technischen Informationen sowohl für die MÜ als auch für die Leser wichtig. Einzelne Wörter lassen der Maschine viel Interpretationsspielraum. Wörter, die je nach Verwendung unterschiedliche Bedeutungen aufweisen, können zu Fehlern führen. Etwaige Probleme konnten durch Rückfragen des Übersetzers gelöst werden. Dies funktioniert natürlich nur, wenn ein Mensch die Übersetzung anfertigt. Das Ergebnis ist andernfalls eine falsche Übersetzung oder eine nicht eindeutige Aussage.
Im Vergleich zu generischen MÜ-Systemen zeigt sich auch, dass die maschinelle Übersetzung zunehmend falsche Ergebnisse liefert, wenn themenspezifische Datensätze für Passivkonstruktionen fehlen.
Abkürzungen
In vielen technischen Informationstexten werden Abkürzungen und Akronyme verwendet, um häufig wiederkehrende Wörter abzukürzen. Diese können jedoch ein großes Problem bei der maschinellen Übersetzung darstellen. Dies ist insbesondere dann der Fall, wenn es sich um kundenspezifische Abkürzungen oder Akronyme handelt. Je nach Art des Datensatzes, der für die maschinellen Übersetzung verwendet wird, können unterschiedliche Interpretationen die Folge sein. Erstellen Sie daher Regeln, die empfehlen, nur gängige Abkürzungen zu verwenden oder Wörter nur bei Bedarf sinnvoll zu kürzen.
Achten Sie darauf, … - (Deepl) Make sure… Ensure that … Pay attention … - (Google) Be sure to … Take care … Be sure …
Stellen Sie sicher, … - (Deepl) Make sure … Ensure that … Be sure … - (Google) Make sure
Bei Akronymen, die auf sprachspezifischen Wörtern beruhen, z. B. im Englischen „HW“ für „hot water“ (Heißwasser) und „hardware“ (Hardware) bzw. „CW“ für „cold water“ (Kaltwasser) und „calendar week“ (Kalenderwoche), würde eine unveränderte Übernahme in die Zielsprache den Leser verwirren. Abkürzungen, die es in der eigenen Sprache nicht gibt, sind für den Leser nicht verständlich – oder sie denken fälschlicherweise an Hardware statt an Heißwasser. Ein Leser, der mit dem Thema nicht vertraut ist, versteht eine Abkürzung u. U. falsch oder gar nicht.
Mehrdeutigkeit
In vielen Sprachen ist es wichtig, dass die korrekte Namenskonvention verwendet wird, damit der Leser des Textes sofort versteht, was gemeint ist. Allerdings kann ein Wort in einer Sprache u. U. mehrere Bedeutungen haben. Dieses Problem wird oft durch eine vorgegebene Terminologie für technische Redakteure umgangen. Dabei wird darauf geachtet, dass ein Wort nur eine Bedeutung haben kann bzw. soll. Das deutsche Wort „freigeschaltet“ ist ein Beispiel dafür. Je nachdem, wie es in technischen Informationen verwendet wird, kann es „stromlos“, „freigegeben“ oder „aktiviert“ bedeuten. Der fachlich versierte Leser versteht die Bedeutung aus dem Kontext. Solche Wörter können jedoch dazu führen, dass maschinelle Übersetzungslösungen und sogar menschliche Übersetzer Fehler machen, wenn der Kontext nicht eindeutig ist. Die Verwendung von Bezeichnungen, die auf Kunden- oder Projektebene definiert sind und die mehrere Interpretationen zulassen, sollte genauer geprüft werden. Darüber hinaus können je nach Art der MÜ (generisch oder themenspezifisch) weniger strenge oder strengere Spezifikationen erforderlich sein.
Fehlerfreie Texte
Die korrekte Rechtschreibung ist bei der maschinellen Übersetzung sehr wichtig. Wörter werden so übersetzt, wie sie in der Datenbank gefunden werden, und entsprechend interpretiert. Viele redaktionelle Leitlinien haben sich bereits hinreichend mit dem Schreiben und der Zeichensetzung befasst. Eine falsche Interpunktion kann dazu führen, dass ein Satz vom MÜ-System nicht richtig verstanden wird. Ein Beispiel ist das Fehlen von Kommas bei der Abtrennung einzelner Satzteile. Dies führt dazu, dass Nebensätze nicht richtig erkannt und Satzteile zusammengezogen werden. Infolgedessen werden die verschiedenen Teile des Satzes falsch zugeordnet. Das gilt auch für fehlende Bindestriche.
Es ist zudem möglich, dass Sätze nicht als solche übersetzt werden, wenn der Satzendpunkt fehlt. Normalerweise werden derartige Fehler bereits bei der Übersetzung entdeckt und korrigiert – wenn sie von einem Menschen erstellt wird; hier ist die Fehlergefahr geringer.
Je eindeutiger die Bezüge sind, desto höher ist die Wahrscheinlichkeit, dass die Maschine alle Informationen richtig erkennt.
Markup-Kohärenz
Unabhängig davon, ob ein TMX-Editor, Adobe FrameMaker, MadCap Flare oder ein anderes Redaktionssystem verwendet wird, werden Texte gekennzeichnet (das sog. Markup), um Sätze oder Wörter hervorzuheben. Redaktionsrichtlinien enthalten Regeln für eine solche Textkennzeichnung. Darüber hinaus sollten gewisse Regeln für die maschinelle Übersetzung erweitert werden. Beim Lesen eines Textes und der darin enthaltenen Markups und Tags kann die MÜ nur Markups erkennen, mit denen sie bereits vertraut ist. Unbekannte Kennzeichnungen hingegen führen zu einer falschen Deutung von Zusammenhängen, da Sätze entweder separat gelesen oder Markups ignoriert und die entsprechenden Stellen so übersetzt werden, als wären sie „normale“ Wörter. Diese Probleme können sowohl händisch als auch durch das Hinzufügen von Markups in der MÜ-Software gelöst werden.
Abhilfe
Die Liste der möglichen Probleme, die bei technischen Informationen und maschineller Übersetzung auftreten können, lässt sich beliebig fortsetzen. Schließlich gibt es immer etwas, das Schwierigkeiten bereitet und besser koordiniert werden könnte. Dies zeigt auch, dass Regeln für die maschinelle Übersetzung nicht von heute auf morgen erstellt werden können – schon gar nicht für eine universelle Anwendung. Viele Regeln, die für verständliches Schreiben definiert wurden und sich in erster Linie an den Leser richten, können auf die maschinelle Übersetzung übertragen werden. Bestimmte Texte, die nur ein Mensch problemlos versteht, stellen jedoch eine unvorhergesehene Herausforderung für die maschinelle Übersetzung dar.
Überlegen Sie, wie das Übersetzungssystem bestehende und zukünftige Daten effizient verarbeiten kann.
Mit den Fortschritten in der neuronalen maschinellen Übersetzung und der künstlichen Intelligenz könnte man meinen, dass die Anpassung von Regeln nicht notwendig ist. Schließlich werden solche Systeme mit größeren generischen und angepassten Datensätzen trainiert, was zu verständlichen und korrekten Übersetzungen führen sollte. Doch dieser Eindruck täuscht. Übersetzungsfehler in der Zielsprache werden in der Regel nur von Muttersprachlern erkannt – und auch nur dann, wenn die beschriebene Anweisung keinen Sinn ergibt.
Reduzieren Sie inkonsistente oder mehrdeutige Formulierungen in technischen Informationen auf ein Minimum.
Wird dies versäumt, leidet die Übersetzungsqualität. Dies kann auch beim Übersetzen mit einem Translation-Memory-System passieren.
Prüfen Sie bei jeder Textart, ob die jeweiligen Regeln passen.
Sie sind dann in verschiedenen Bereichen anwendbar, unabhängig von Fachgebiet, Textart oder Adressat, und tragen zur Qualität der Übersetzung bei. Die Überprüfung und Validierung bestehender und neuer Regeln machen das Arbeiten mit maschineller Übersetzung interessant, die immer ausgereifter wird. Es ist wichtig zu untersuchen, wie sich die einzelnen Systeme bei verschiedenen Textsorten verhalten. Das Ziel: Texte, die sowohl für Menschen als auch für Maschinen geschrieben werden, eines Tages fehlerfrei in eine andere Sprache übertragen.