Blog

Tech Talk: Wie gut kann ChatGPT eigentlich übersetzen?

Tech Talk: Wie gut kann ChatGPT eigentlich übersetzen?

Website-Content erstellen, Code schreiben oder Grammatikfehler korrigieren – ChatGPT ist das Schweizer Taschenmesser unter den KI-Technologien. Selbstredend kann ChatGPT auch Texte übersetzen. Doch was taugen diese Übersetzungen tatsächlich?

Wir haben mit drei KI-Experten von Milengo gesprochen, um der Frage auf den Grund zu gehen: Wie gut ist ChatGPT als Übersetzer? 

Mit von der Partie sind:

  • Stephan Wolschon, Head of Engineering and Software Development
  • Sarita Vasquez, Machine Translation Specialist und
  • Matt Evans, Linguistic Product Owner und Prompt-Engineering-Experte

Wie gut kann ChatGPT übersetzen? Und wo liegen seine Grenzen?

Sarita: ChatGPT und andere Large Language Models (LLMs) können bereits heute Übersetzungen produzieren, die flüssig und grammatikalisch korrekt sind. Das belegen auch aktuelle Studien. Die Ergebnisse variieren jedoch je nach Sprache, da die Qualität des Outputs davon abhängt, wie viele Daten zum Training des LLMs vorhanden waren. Laut unseren Tests schneiden die Systeme besonders gut bei Sprachenpaaren mit Englisch als Ausgangs- oder Zielsprache ab, wie Englisch-Spanisch, Englisch-Französisch und Englisch-Deutsch.

Darüber hinaus haben unsere Tests gezeigt, dass bei limitierten oder minderwertigen Trainingsdaten Ungenauigkeiten und Fehler in den Übersetzungen auftreten können. Das trifft insbesondere auf Sprachen mit einer unzureichenden Datengrundlage zu. 

Stephan: ChatGPT kann in der Tat ein wertvolles Werkzeug bei der Beschleunigung von Übersetzungsprozessen sein. Allerdings sind LLMs auch dafür bekannt, uns gelegentlich mit „Halluzinationen“ oder unerwünschten „kreativen“ Entscheidungen zu überraschen, die speziell bei einer Übersetzung nicht erwünscht sind.

Dies trifft insbesondere auf kurze Textbausteine wie Überschriften oder Menüs in Software zu, wo der Maschine Kontext fehlt und sie teils ungefragt Erklärungen oder zusätzliche Informationen hinzufügt.  

Generell treten beim Einsatz von LLMs auch Probleme auf, wenn die Prompts nicht spezifisch genug sind oder wichtige Anweisungen fehlen. Nicht immer führt ein Standardprompt wie „Bitte übersetze diesen Text“ zum Ziel. Für optimale Resultate muss das gewünschte Ergebnis konkretisiert werden, beispielsweise mit einem Prompt wie „Bitte übersetze diesen Text nach Mandarin. Verwende eine förmliche Ansprache, die ein Publikum in Singapur anspricht.“ 

Angesichts solcher Einschränkungen ist ratsam, mit ChatGPT übersetzte Texte noch professionell nachzubearbeiten, um die beste Übersetzungsqualität zu erreichen. 

DeepL vs ChatGPT – wer hat beim Übersetzen aktuell die Nase vorn?

Sarita: DeepL und andere Übersetzungsdienste wie Google Translate basieren auf einer Technologie namens Neural Machine Translation. Tatsächlich produzieren sie oft immer noch eine höhere Übersetzungsqualität und genauere Übersetzungen als LLMs. Das liegt daran, dass traditionelle maschinelle Übersetzungsmodelle anhand von zweisprachigen Übersetzungskorpora trainiert werden – das heißt, sie sind speziell für Übersetzungsaufgaben konzipiert. Das Training von ChatGPT basiert hingegen auf einem einsprachigen Datenkorpus, der aus unzähligen Quellen im Internet „gescrapt“ wurde. Diese Referenzdaten weisen eine geringere Qualität auf, da sie nicht kuratiert wurden. 

Ein Bereich, in dem LLMs der klassischen maschinellen Übersetzung etwas voraus haben, ist das Erfassen des Kontexts und das Generieren natürlich klingender Übersetzungen für längere Textpassagen. Aus diesem Grund eignen sie sich gut für Texte, die weniger inhaltliche Genauigkeit, sondern einen ansprechenden Stil erfordern – sagen wir einen Marketingtext anstelle eines technischen Handbuchs.

Erwähnt werden sollte auch, dass LLMs wie ChatGPT weniger verbreitete Sprachen teils besser übersetzen als Übersetzungsdienste wie DeepL, aber dafür in Sprachen mit komplexen grammatikalischen Strukturen schlechter abschneiden. Der Grund hierfür ist, dass MT-Engines für bestimmte Sprachen optimiert wurden und daher besser mit komplexer Grammatik oder Morphologie umgehen können. 

Die Geschwindigkeit der Datenverarbeitung ist ein weiterer wichtiger Unterschied zwischen den beiden Technologien. LLMs sind viel langsamer bei der Erstellung von Übersetzungen als eine konventionelle MT-Engine. Es kann eine Stunde dauern, bis ein LLM eine große Textmenge verarbeitet hat, was eine MT-Engine in einem Bruchteil dieser Zeit erledigen kann. Dies könnte problematisch für Unternehmen werden, die ihre Lokalisierungsaktivitäten in großem Maßstab skalieren möchten. 

Was müssen Unternehmen beachten, die ChatGPT für Übersetzungen nutzen wollen? 

Stephan: Wer ChatGPT privat nutzt, kann natürlich einfach seinen Text in die ChatGPT-Konsole kopieren, eine Übersetzung anfordern und das Ergebnis in Sekundenschnelle erhalten.

Die Anwendung von LLMs im Unternehmen erfordert jedoch spezielle Tools und Workflows, um etwa Firmenterminologie oder eine bestimmte Markenidentität abzubilden. Dafür braucht es ein eigenes Setup mit Lokalisierungsmanagern, einem Translation-Management-System (TMS), das über die richtigen Features und Plug-Ins verfügt, sowie Integrationen und Automatisierungen. 

Zum Glück gibt es bereits einige Lokalisierungstools, die einen derartigen Service bieten. Custom.MT verfügt etwa über eine LLM-Integration via memoQ-Plugin. Außerdem gibt es andere Anbieter mit No-Code/Low-Code-Übersetzungsoptionen wie Localise, CrowdIn und memoQ AGT

Dennoch ist unter Umständen ein gewisser Entwicklungsaufwand auf Unternehmensseite nötig. Erforderlich ist dafür ein hohes Maß an Lokalisierungs-Know-how, Fachpersonal und natürlich Zeit, um ein derart komplexes Setup zu stemmen. Genau hier kann Milengo ins Spiel kommen: Wir bieten Unternehmen, die ihre Lokalisierungsaktivitäten skalieren möchten, eine sofort nutzbare Lösung an, welche die Power von LLMs mit erstklassigem Lokalisierungs-Know-how kombiniert. 

Kommen wir zur Praxis: An welchen aktuellen Projekten arbeitet ihr gerade im Zusammenhang mit LLMs? 

Stephan: Wir evaluieren ständig neue Use Cases für LLMs, um Lokalisierung für unsere Kunden noch einfacher und kostengünstiger zu gestalten. Als Head of Engineering bei Milengo konzentriere ich mich hauptsächlich darauf, wie LLMs uns dabei helfen können, die Lokalisierungs-Workflows und -Prozesse unserer Kunden zu verbessern. Wir entwickeln beispielsweise Prompt-Vorlagen oder Tool-Integrationen für LLMs anhand aktueller Kundenanfragen. 

Matt: Mit meinem Hintergrund als langjähriger Übersetzer untersuche ich, wie wir ChatGPT zur Steigerung der Übersetzungsqualität nutzen können. Beispiele sind etwa die Verbesserung von Ausgangstexten, die Unterstützung gendersensibler Sprache und sprachliche Qualitätssicherung im Allgemeinen.

Unser Ziel besteht dabei nicht darin, menschliche Übersetzerinnen und Übersetzer obsolet zu machen. Vielmehr möchten wir in erster Linie den Arbeitsaufwand für alle Seiten reduzieren. Letztendlich geht es darum, unseren Kunden eine noch höhere Übersetzungsqualität mit einer flexibleren und maßgeschneiderten Palette von Übersetzungsprodukten zu liefern. 

Sarita: Und natürlich untersuchen wir auch, wie wir LLMs für die Übersetzung selbst einsetzen können! Aufgrund der hohen Qualitätsanforderungen unserer Kunden müssen wir sorgfältig analysieren, welche Sprachenpaare und Textarten sich mit ChatGPT am besten übersetzen lassen und wo ein Mensch noch bessere Arbeit leistet.  

Wir evaluieren nicht nur bewährte Sprachenpaare wie etwa Englisch-Deutsch, sondern auch Sprachen, mit denen maschinelle Übersetzung in der Vergangenheit zu kämpfen hatte, wie Hebräisch, Vietnamesisch, Thailändisch, Finnisch und Estnisch.  

Wie Matt schon erwähnte, dienen die Lösungen, an denen wir arbeiten, primär dazu, die Arbeit unseres Übersetzerteams zu unterstützen, nicht die menschliche Übersetzung vollständig zu ersetzen. 

Matt, kannst du uns einen Einblick geben, wie Prompt-Engineering für Übersetzungen im Detail abläuft?

Matt: Okay, wie viel Zeit habt ihr mitgebracht? Beim Thema Prompt Engineering gibt es eine Vielzahl an Strategien. Alles hängt davon ab, welche Tools man verwendet und in welche Sprachen man übersetzt … es gibt unzählige Variablen zu berücksichtigen! 

Eine Anweisung wie „Act as a professional marketing translator“ kann ChatGPT helfen, den Kontext einer Übersetzung besser zu verstehen. Für einige Anwendungsfälle muss zudem der Prompt in detailliertere Anweisungen aufgegliedert werden – etwa um festzulegen, ob die Leserinnen und Leser geduzt oder gesiezt werden sollen.

Auch das zu übersetzende Dateiformat ist für Prompts relevant. Dazu gehören eine korrekte Formatierung, der Reimport der Übersetzung in das ursprüngliche Dateilayout oder die korrekte Handhabung von Tags in CAT-Tools. Manchmal muss man ChatGPT zudem explizit mitteilen, was es NICHT tun soll (negative Prompts) – etwa in einer Übersetzung Kommentare oder Zusatzinformationen hinzuzufügen.

Es ist auch wichtig zu verstehen, wie ChatGPT bestimmte Wörter und Konzepte wahrnimmt. Wir haben viel gelernt, indem wir die KI einfach gefragt haben, warum sie etwas auf eine bestimmte Weise gemacht hat – es ist faszinierend, wie ChatGPT die Welt „sieht“! 

Welche Fortschritte können wir von ChatGPT und anderen LLMs in der Zukunft noch erwarten? 

Stephan: Bisher war die Entwicklung von LLMs darauf ausgerichtet, die Qualität des Outputs zu verbessern, indem immer größere Modelle entwickelt wurden. Allerdings könnten LLMs bald in ihrer Entwicklung stagnieren, da sie langsam den Großteil der verfügbaren Trainingsdaten ausgeschöpft haben.

Ein neuer Trend sind Small Language Models (SLMs) und spezialisierte Modelle für eng definierte Einsatzgebiete. Diese kleineren Modelle benötigen weniger Ressourcen und sind sogar für Smartphones ausgelegt. Sie können eigenständig von einzelnen Unternehmen entwickelt werden, etwa mithilfe der Llama-Familie von Meta. SLMs können einfacher angepasst und trainiert werden, obwohl sie unter Umständen immer noch eine physische Infrastruktur erfordern. 

Sarita: Multi-modale LLMs sind aktuell ebenfalls ein großes Thema. Tatsächlich hat OpenAI gerade einige multi-modale Funktionen in GPT-4o angekündigt. Diese Modelle können nicht nur Text generieren, sondern auch Bilder und Audio verarbeiten! Derartige Funktionalität könnte bei Speech-to-Speech-Übersetzungen oder beim Layouten von übersetzten Dokumenten zum Einsatz kommen. Derzeit befinden sich die meisten kommerziellen Anwendungsfälle noch in einem Frühstadium, abgesehen von einigen wenigen Anwendungen wie Voice Cloning in der Video-Lokalisierung.  

Wie werden LLMs wie GPT4, Gemini und Meta AI eurer Meinung nach die Zukunft der Lokalisierungsbranche beeinflussen? 

Stephan: Die Lokalisierungs- und Übersetzungsbranche ist noch im Begriff, die Fähigkeiten von LLMs und deren Implementierung in der Produktion vollständig zu erproben. Wir können deshalb noch nicht das komplette Potenzial dieser Technologie ermessen. 

Ich glaube aber, dass LLMs die Branche auf eine ähnliche Weise prägen werden wie es zuvor neuronale maschinelle Übersetzung getan hat. Sie werden die Grenzen des Möglichen, die Erwartungen und Preisvorstellungen der Kunden sowie die Anbieterlandschaft grundlegend verändern. In der Konsequenz werden LLMs zum Grundgerüst für viele Lokalisierungsprodukte und -tools werden. 

Aktuell jedoch ist neuronale maschinelle Übersetzung immer noch etwas billiger, schneller und genauer. Mittelfristig werden wohl beide Technologien nebeneinander existieren. Im Gegensatz zu LLMs ist neuronale maschinelle Übersetzung jedoch nicht für die Optimierung und Anpassung von Texten konzipiert. Hier spielen LLMs mit ihrem überlegenen „Textverständnis“ ihre Stärken aus. Eine Kombination beider Technologien könnte diese Vorteile vereinen.

Was fasziniert euch am meisten an LLM-Technologie?

Stephan: Was mich besonders fasziniert ist, dass wir mit LLMs instinktiv wie mit einem menschlichen Gegenüber interagieren und eine entsprechende Antwort erwarten. Man traut der KI zu, dass sie die eigenen Bedürfnisse versteht und auf dieser Grundlage ein Gespräch führt.  

Die neueste Version von ChatGPT besteht den Turing-Test – die Antworten der KI sind also von einem Menschen kaum noch unterscheidbar. Manchmal vergessen wir, dass wir es mit einer Software zu tun haben und behandeln ChatGPT wie einen menschlichen Gesprächspartner. Wir nutzen höfliche Formulierungen und ChatGPT „entschuldigt“ sich, wenn es das gewünschte Ergebnis nicht liefern kann. 

Matt: Es ist unglaublich, dass die Technologie diesen Punkt erreicht hat. Was mich am meisten fasziniert, ist zu sehen, was als Nächstes kommt. Wir finden immer neue Möglichkeiten, LLMs zu nutzen, und neue Updates erweitern kontinuierlich diese Optionen. 

Sarita: Dem kann ich mich nur anschließen! 

Fazit: Wie gut ist ChatGPT als Übersetzer?

Unser Expertenfazit lautet, dass sich aktuell mit ChatGPT tatsächlich bereits viele Sprachen gut übersetzen lassen. Vor allem produziert die KI hochwertige Übersetzungen mit Englisch als Ausgangs- oder Zielsprache. Aber auch bei weniger verbreiteten Sprachen schneidet sie teils besser ab als die klassische maschinelle Übersetzung. Der Mehrwert von LLMs besteht zudem darin, dass sie nicht nur die Übersetzungsqualität verbessern, sondern auch Workflows effizienter gestalten.

LLMs können zwar für längere Textpassagen flüssigere Übersetzungen als klassische maschinelle Übersetzungen liefern, sind aber auch wesentlich langsamer bei der Generierung von Übersetzungen. Das kann Engpässe für Unternehmen zur Folge haben, die ein sehr hohes Übersetzungsvolumen bewältigen müssen. 

Auch wenn LLM-Übersetzungen die Zukunft gehört, ist dennoch Vorsicht geboten, da die KI manchmal „halluziniert“ und die Ergebnisse von der Qualität des Prompts abhängen. Neben LLMs wird in der Übersetzungsbranche deshalb wahrscheinlich mittelfristig weiterhin die klassische maschinelle Übersetzung zum Einsatz kommen. Wer eine hochwertige oder gar veröffentlichungsreife Textqualität benötigt, sollte jedoch in beiden Fällen den Übersetzungsprozess weiterhin mit Post-Editing abschließen

Interessiert, ob ChatGPT & Co. auch für Ihre Übersetzungen eine Option ist? Egal ob Integration einer KI in Ihren Lokalisierungsworkflow oder Entwicklung eines komplett neuen Übersetzungsprozesses – die Lokalisierungsexperten von Milengo stehen Ihnen sehr gerne beratend zur Seite!

Johannes Rahm

alle Beiträge lesen

Johannes ist ein erfahrener Übersetzer, Copywriter und SEO-Spezialist, der seit über einem Jahrzehnt in der Lokalisierungsbranche aktiv ist. Sein Fokus liegt dabei auf der Übersetzung von Marketing-Content für führende B2B-Unternehmen in der DACH-Region. Trotz seiner Passion für Science Fiction hält er die menschliche Sprache auch im Zeitalter von KI für unsere mächtigste „Technologie“ und erkundet fortlaufend ihr Potenzial, Menschen und Organisationen zusammenzubringen und zu inspirieren.