Wer eine schnelle Übersetzung braucht, greift gerne auf Online-Übersetzer zurück. (Symbolbild)
N-Media-Images / Fotolia
Wer in einer Sprache nicht firm ist oder zumindest den Grundinhalt eines Texts einer völlig fremden Sprache verstehen möchte, greift gerne auf maschinelle Übersetzer im Internet zurück. Auf den bekanntesten, den Google Translator zum Beispiel, oder auf den Microsoft Translator bei Bing. Facebook hat ebenfalls eine Übersetzungsfunktion in seinem sozialen Netzwerk integriert, falls man einen geteilten Beitrag aus anderen Ländern in seiner Muttersprache lesen möchte.
Die Verständlichkeit der jeweiligen Inhalte nach der maschinellen Übersetzung ist jedoch nicht immer gegeben. Viele Faktoren beeinflussen die Qualität der Übersetzungen erheblich. Korrekte Rechtschreibung und Zeichensetzung des Originals ebenso wie das Sprachniveau und natürlich die Datenbanken hinter den Übersetzungstools. Bei komplizierten Textstrukturen und Fachausdrücken stoßen Google & Co. nämlich schnell an ihre Grenzen. Heraus kommen auch gerne in weiten Teilen kuriose Satzstrukturen und sinnlose Wortaneinanderreihungen.
Verständlichere Übersetzungen in vielen Stichproben
DeepL, das Technologieunternehmen aus Köln, sorgt nun mit dem Start seines Übersetzers auf deepl.com für beachtliches Aufsehen. Innerhalb kürzester Zeit sind Computer- und Technik-Magazine im Netz darauf angesprungen und loben den Translator von DeepL in höchsten Tönen. Und tatsächlich: Auch in Stichproben von Springer Professional liefert DeepL selbst bei Ausschnitten aus wissenschaftlichen Texten in der Übersetzung vom Englischen ins Deutsche deutlich präzisere und verständlichere Ergebnisse als die "große" Konkurrenz.
Ein Beispiel: Die automatische Übersetzung Englisch-Deutsch von einer kurzen Einleitung aus einem Fachbeitrag zur Entwicklung von Sprachübersetzern aus dem englischsprachigen Springer-Magazin "Software Quality Journal" von Bruno Barroca, Vasco Amaral und Didier Buchs:
Original: "Developing and validating a language translator is far from being a trivial task. It implies the specification of an high-level syntax-to-syntax mapping between two languages, the realisation of such mapping on a language translator program, and finally developing a set of appropriate test cases to test it." |
Google Translator: "Die Entwicklung und Validierung eines Sprachübersetzers ist weit davon entfernt, eine triviale Aufgabe zu sein. Es bedeutet die Angabe einer hochrangigen Syntax-zu-Syntax-Zuordnung zwischen zwei Sprachen, die Realisierung einer solchen Abbildung auf ein Sprachübersetzerprogramm und schließlich die Entwicklung eines Satzes geeigneter Testfälle, um sie zu testen." |
Microsoft Translator (Bing): "Die Entwicklung und Validierung einer Sprache Übersetzer ist weit davon entfernt, eine triviale Aufgabe. Es impliziert die Spezifikation einer Syntax-zu-Syntax-Zuordnung auf hoher Ebene zwischen zwei Sprachen, die Realisierung einer solchen Zuordnung auf einem Übersetzer-Programm und schließlich die Entwicklung einer Reihe geeigneter Testfälle, um es zu testen." |
DeepL Translator: "Die Entwicklung und Validierung eines Sprachübersetzers ist alles andere als trivial. Es impliziert die Spezifikation eines hochrangigen Syntax-zu-Syntax-Mappings zwischen zwei Sprachen, die Realisierung eines solchen Mappings auf einem Sprachübersetzungsprogramm und schließlich die Entwicklung einer Reihe von geeigneten Testfällen, um es zu testen." |
Rekorde bei BLEU-Score geknackt
Solche Tests, auch von anderen Medien, bestätigen die Angaben des Unternehmens. Wie DeepL mitteilt, hätten professionelle Übersetzer die Ergebnisse des Übersetzers drei Mal häufiger besser bewertet als die Ergebnisse der bekannten Maschinenübersetzer. DeepL knackt außerdem Rekorde beim BLEU-(Bilingual Evaluation Understudy)-Score, der zur Bewertung von maschinellen Übersetzern genutzt wird.
Wie genau DeepL sein künstliches neuronales Netz ausgebaut hat, will das Unternehmen nicht veröffentlichen. Nur soviel: "Wir haben einige bedeutende Verbesserungen an der Architektur der neuronalen Netze vorgenommen", wird Gereon Frahling, Gründer und Geschäftsführer des Unternehmens, in einer Mitteilung zitiert. "Durch eine neue Anordnung der Neuronen und ihrer Verbindungen haben wir es unseren Netzen ermöglicht, natürliche Sprache besser abzubilden als jedes bisherige neuronale Übersetzungsnetz." Der DeepL-Übersetzer basiert dem Unternehmen zufolge auf einem einzelnen Modell, nicht auf einem Ensemble.
Supercomputer in Island mit 5,1 Peta-Flops
Die KI dahinter läuft auf einem Supercomputer in Island, der 5,1 Peta-Flops (5.100.000.000.000.000 Rechenoperationen pro Sekunde) ausführen kann. Das sei genug Leistung, um eine Million Wörter in weniger als einer Sekunde zu übersetzen. Island wurde laut Jaroslaw Kutylowski, dem CTO von DeepL aufgrund des Überangebots an erneuerbaren Energien als Standort gewählt. "So können wir unsere neuronalen Netze in Island sehr kostengünstig trainieren. Wir werden dort weiterhin in leistungsstarke Hardware investieren", erklärt Kutylowski.
Auch die besten derzeitigen Implementierungen von Deep Learning Systemen sind sehr rechenzeitintensiv. Der Grund für die langen Rechenzeiten ist die Größe der Eingabeschicht und die große Zahl der Lagen im Netz. Dieser Effekt wird noch verstärkt dadurch, dass im Fall einer großen Eingabeschicht die Trainingsdaten Elemente eines hochdimensionalen Vektorraums sind. Um hierbei die zu trainierenden Klassen gut zu repräsentieren, werden sehr viele Datenvektoren benötigt, was die Rechenzeiten weiter erhöht. Das bedeutet, dass ein Trainingslauf von Minuten bis hin zu Tagen dauern kann. Hinzu kommt, dass die Systemparameter der komplexen Netze konfiguriert werden müssen, wovon wiederum die Qualität der Ergebnisse empfindlich abhängt." Springer-Autor Wolfgang Ertel im Kapitel "Neuronale Netze" aus dem Lehrbuch "Grundkurs Künstliche Intelligenz" (2016) (Seite 304).
Das DeepL-Team nutzt den Supercomputer, um neuronale Netze mit einer riesigen Sammlung mehrsprachiger Texte zu trainieren. Die Netzwerke schauen sich dabei sehr viele Übersetzungen an und lernen selbständig, wie man grammatikalisch korrekt übersetzt und gute Formulierungen wählt. Dabei greifen die Kölner auf ihr erstes Produkt zurück: Linguee, einer Suchmaschine für Übersetzungen. DeepL ist aus dem Unternehmen Linguee hervorgegangen. In den vergangenen zehn Jahren wurden auf der Plattform mehr als eine Milliarde qualitativ hochwertiger Übersetzungen zusammengetragen, die nun zum Training der KI genutzt werden.
API als Geschäftsmodell in der Entwicklung
Der DeepL-Übersetzer unterstützt Unternehmensangaben zufolge derzeit 42 Sprachkombinationen zwischen Deutsch, Englisch, Französisch, Spanisch, Italienisch, Polnisch und Niederländisch. Die neuronalen Netze trainierten laut DeepL bereits, um in Zukunft weitere Sprachen wie Mandarin, Japanisch und Russisch zu beherrschen. Die Kölner beabsichtigten außerdem, in den kommenden Monaten eine Programmierschnittstelle (API) zur Verfügung zu stellen. So könne die Übersetzungstechnik auch in anderen Produkten wie digitalen Assistenten, Wörterbüchern, Sprachlernanwendungen und professionellen Übersetzungsprogrammen eingesetzt werden.
Darin steckt auch ein Teil des neuen DeepL-Geschäftsmodells. "Unsere Ambitionen beschränken sich nicht auf Übersetzungen", sagt Gereon Frahling. "Die neuronalen Netze haben ein unglaubliches Sprachverständnis entwickelt. Das eröffnet uns viele aufregende Möglichkeiten für die Zukunft."