Linguee: Die Übersetzungs-Suchmaschine

Leonard Fink, Mitgründer von Linguee, erklärt warum sein Online-Wörterbuch besser übersetzt als klassische Lexika
julian-jochmaring

Wie ist die Idee zu Linguee entstanden? Leonard Fink: Gereon Frahling hatte durch seinen Job in der Forschungsabteilung von Google einerseits Erfahrung im Aufbereiten großer Datenmengen, andererseits hat er sich oft über die Qualität von Wörterbüchern geärgert. Als Nichtmuttersprachler ist man bei vielen Übersetzungen einfach unsicher und Wörterbücher helfen da meist auch nicht weiter. Als er aus New York zurück nach Deutschland kam, reifte die Idee, mit der Technologie von Suchmaschinen den Markt der Übersetzungsdienste aufzumischen. Also hat er mich angerufen und gesagt: „Wir machen das jetzt.“ Ich habe mir gedacht, das ist eine gute Idee, das könnte funktionieren. Anfang 2008 haben wir mit der Entwicklung begonnen.

Default Bild

Illustration: Julia Schubert

Was genau unterscheidet Linguee von anderen Online-Übersetzungsdiensten? Der große Unterschied ist, dass man nicht feste Vokabellisten durchsucht, sondern etwa 100 Millionen übersetzte Texte. Dadurch findet man bei uns auch Informationen über Wortkombinationen und Kontexte, in denen bestimmte Ausdrücke verwendet werden. Wörterbücher kommen bei Begriffen mit mehreren Bedeutungen oder bei typischen Redewendungen einfach schnell an ihre Grenzen. Die Suchmaschine funktioniert ja ein bisschen so wie das Pagerank-System von Google. Wie genau werden die Übersetzungen gefiltert? Das Bewertungssystem ist eigentlich der interessanteste Teil unserer Technologie. Die schiere Menge an Übersetzungen, die wir indiziert haben, kann natürlich nicht manuell von einem Menschen bewertet werden. Wir haben deshalb eine lernfähige Software geschrieben, der wir grundlegende Beispiele für gute und schlechte Übersetzungen gegeben haben. Der Computer lernt dann, nach diesen Merkmalen zu suchen. Technisch funktioniert das ähnlich wie das Pageranking bei Google. Welche Übersetzungen dienen euch da als Referenz? Die größte Quelle ist das zweisprachige Web. Wissenschaftliche Institute, Firmen, alle die zweisprachige Inhalte ins Netz stellen, sind prinzipiell für uns eine Quelle. Angereichert haben wir das durch weitere hochqualitative Schriften wie z.B. Patente, EU-Parlamentsschriften etc. Wie gelangt ihr an solche Texte? Ähnlich wie Google nutzen wir einen Webcrawler, der ununterbrochen das Web nach zweisprachigem Material durchsucht und entsprechend indiziert. Bei Fällen wie den Patentschriften lässt sich das aber nicht so automatisiert regeln. Da muss dann ein wenig per Hand nachgearbeitet werden. Viele dieser Texte müssen wir gesondert bestellen. Anfang Mai habt ihr die Betaphase abgeschlossen und seit jetzt seit etwas mehr als einem Jahr online. Wie lautet euer Fazit? Wir hätten niemals gedacht, dass wir so erfolgreich sein werden. Mittlerweile haben wir über 500 000 Seitenaufrufe am Tag. Wir bekommen sehr positives Feedback, gerade auch von professionellen Übersetzern. Das ist überraschend für uns, denn eigentlich dachten wir, dass gerade die Profis ihre eigenen Methoden und Wörterbücher hätten und unser Angebot vielleicht nicht so zu schätzen wissen. Wie sieht euer typischer Nutzer aus? Gibt es den überhaupt? In der globalisierten Welt wird es immer wichtiger, in fremden Sprachen zu kommunizieren. Angefangen bei Schülern, die ihre Hausaufgaben machen über Sprachstudenten und Wirtschaftsstudenten, die auch viel mit der englischen Sprache zu tun haben, bis hin zu Leuten aus der Industrie und den Profiübersetzern. Wir sprechen also mit unserem Dienst eine relativ breite Menschenmenge an. Ihr verwendet auch das Nutzerfeedback direkt zur Verbesserung eurer Suchmaschine. Wie genau wird das eingebunden? Ursprünglich wurde das Maschinenlernprogramm nur von uns selbst gefüttert. Mittlerweile können das auch die Nutzer durch einfache Daumen-hoch / Daumen-runter-Symbole neben jeder Übersetzung . Dadurch erhält die Maschine eine Rückmeldung über die Qualität der jeweiligen Übersetzung. Mit Hilfe der einzelnen Merkmale einer Übersetzung (Quelle, Satzstruktur, Länge) lernt das Programm ständig hinzu. Unser Produkt wird also allein durch seine regelmäßige Nutzung schon besser. Welche Sprachkombinationen sind als nächstes geplant? Wie sehen die Perspektiven für das kommende Jahr aus? In diesem Jahr wird es noch Französisch, Spanisch und Portugiesisch jeweils kombiniert mit Englisch geben. Derzeit sind wir in der intensiven Vorbereitungsphase. Für das nächste Jahr nehmen wir uns die anderen Weltsprachen in Kombination mit Englisch vor: Chinesisch, Japanisch, Russisch, Arabisch. Das wird zwar etwas anspruchsvoller werden – das schöne an unserer Technologie ist aber, dass sie sich im Prinzip auf alle Sprachen übertragen lässt.

  • teilen
  • schließen