linguatools Wörterbuch Deutsch-Spanisch: Jetzt auch mit Beispielübersetzungen aus dem Web

Webcrawl Deutsch-Spanisch

Unser Webcrawler sucht das Internet nicht nur nach deutsch-englischen Beispielübersetzungen ab, sondern auch nach deutsch-spanischen. Die vorherige Version (s. Posting) des Kontext-Wörterbuchs Deutsch-Spanisch enthielt bereits 2,5 Mio. Verwendungsbeispiele aus diversen Quellen. Mit dem „Webcrawl“ kamen weitere 4 Mio zweisprachige Beispielsätze hinzu. Somit sind im linguatools Wörterbuch jetzt (Stand 29.6.2018) insgesamt 7 Mio. deutsch-spanische Sätze enthalten.

Satz-Quellen

Die ursprünglichen Quellen für zweisprachige Beispielsätze waren z.B. Untertitel, Zeitungskommentare, Gesetzestexte, urheberrechtsfreie Literatur, UN-Texte und EU-Parlamentsdebatten.

Die neu hinzugekommenen Sätze, die unser Crawler gefunden hat, decken diverse Sachgebiete ab wie Musik, E-Commerce, Technik, Landwirtschaft, Gastronomie ab.

Suche im Wörterbuch Deutsch-Spanisch

Die Suche nach Verwendungsbeispielen in unserem Kontext-Wörterbuch Deutsch-Spanisch gestaltet sich wie folgt: Zu Ihrem Suchwort werden zwei Arten von Übersetzungen angezeigt:

  • Wörterbuch-Übersetzungen
  • Computergenerierte Übersetzungsvorschläge

In beiden Fällen werden mit einem Mausklick auf die Übersetzung oder auf den Übersetzungsvorschlag die entsprechenden deutsch-spanischen Verwendungsbeispiele angezeigt.

Die Verwendungsbeispiele, die unser Crawler im Web gefunden hat, erkennt man daran, dass sie mit dem Korpustyp „Webseite“ gekennzeichnet sind.

Bei jedem Verwendungsbeispiel aus dem Web finden Sie auch seinen Fundort in Form einer URL. So können Sie die Vertrauenswürdigkeit der Satzübersetzung prüfen oder noch mehr Kontext zum Beispiel nachschlagen.

Ein kleiner Test

Versuchen Sie jetzt selbst unser neues Wörterbuch Deutsch-Spanisch. Z.B. mit dem Suchwort fantastisch.

Anhand dieses Beispiels können Sie die Mächtigkeit der Übersetzungsvorschläge erkennen. Es werden neben der spanischen Übersetzung fantástico weitere Übersetzungsvorschläge wie magnífico, increíble, maravilloso, impresionante, espectacular und asombroso gemacht.

Der Computer hat die Vorschläge mit statistischen Methoden aus der Vielzahl unserer Beispielsätze gelernt.

Google Translate: Neuronal ist besser?

Letzten Herbst verkündete Google die Umstellung von Google Translate von statistischer auf neuronale maschinelle Übersetzung. Das Posting verspricht eine Reduzierung der Übersetzungsfehler „um mehr als 55-85%“ für verschiedene Sprachpaare. Mit der neuen Methode seien genauere und flüssigere Übersetzungen möglich, weil nicht mehr einzelne Phrasen übersetzt und hinterher zusammengestückelt würden, sondern das neuronale Netz den Quellsatz als Ganzes übersetze. Google selbst gibt zu, dass die MÜ immer noch ein ungelöstes Problem ist und die Maschine Fehler macht, die ein menschlicher Übersetzer niemals machen würde. Auch könne sie nur einzelne Sätze ohne den größeren Kontext übersetzen. Die Medien aber bauschten die Sache gewaltig auf:

Google’s New Service Translates Languages Almost as Well as Humans Can

Geht man auf Google Translate, um die Verbesserung mit eigenen Augen zu betrachten, steht man vor dem Problem, dass man die aktuellen Ergebnisse nicht mit der Qualität der alten Version vergleichen kann, denn die ist nicht mehr online. Daher wohl auch die verwirrten Kommentare unter dem Post im Research Blog, wie z.B.:

„Has this been deployed to Google Translate? The translation right now is still pretty bad.“

Zufälligerweise haben wir im Oktober 2013 einige Texte mit Google Translate übersetzt. Damit sind wir in der Lage, die alte statistische und die neue neuronale Übersetzung von Beispielsätzen direkt miteinander vergleichen zu können:

Quellsatz statistische Übersetzung mit Google Translate Oktober 2013 neuronale Übersetzung mit Google Translate (11. März 2017)
Many people purchase organic produce in mass believing that it is healthier than produce that is conventionally grown. Viele Leute kaufen Bio-Produkte in der Masse zu glauben, dass es gesünder als konventionell angebaute Produkte, die ist. Viele Menschen kaufen Bio-Produkte in der Masse glauben, dass es gesünder als produzieren, die konventionell angebaut wird.
When I was a young kid, there was a widowed man who lived up the street. Als ich ein kleiner Junge war, gab es einen verwitweten Mann, der lebte auf die Straße. Als ich ein junges Kind war, war ein verwitweter Mann, der die Straße erlebt hatte.
Sometimes telling a story just makes people laugh or brightens the mood. Manchmal eine Geschichte zu erzählen macht einfach die Leute zum Lachen oder hellt die Stimmung. Manchmal erzählt man eine Geschichte, die Leute zum Lachen bringt oder die Stimmung erhellt.
A truly awful interview can catch you like a cloudburst in August. Ein wirklich schrecklich Interview kann man sich wie ein Wolkenbruch im August fangen. Ein wahrhaft schreckliches Interview kann dich im August mit einem Wolkenbruch durchsetzen.
At one meeting I missed, in Chicago, the group voted me to represent it at headquarters. An einem Treffen habe ich verpasst, in Chicago, stimmte die Gruppe, dass ich es in der Zentrale vertreten. Bei einem Treffen verpasste ich, in Chicago, die Gruppe hat mich gestimmt, es in der Zentrale zu vertreten.

Vielleicht geht es Ihnen nach Durchsicht der Beispiele ja wie mir. Ich bin enttäuscht, neidisch und erleichtert. Enttäuscht vom Grad der Verbesserung; neidisch auf die Marketing-Macht von Google; erleichtert, dass auch die neuronale Übersetzung noch kilometerweit von der menschlichen Übersetzung entfernt ist.

Mit Filtern Treffer gezielt einschränken

Um im Kontextwörterbuch die Treffer (also die Beispielsätze) nach bestimmten Kriterien einzuschränken, müssen Sie zuerst die Filter einblenden:

Filter einblenden
Die aufgeklappte Filter-Box sieht dann so aus:

filter-eingeblendetEs gibt fünf Filter-Kriterien:

  • TLD Deutsch: Top level domain für die deutsche Seite
  • TLD Englisch: Top level domain für die englische Seite
  • Korpustyp
  • Host
  • Sachgebiete

Die Kriterien und ihre Verwendung werden im folgenden genauer erklärt.

TLD Deutsch
Hier können die Treffer auf eine sogenannte top level domain (TLD) eingeschränkt werden. Als top level domain wird der letzte Teil einer Web-Adresse (Domain) hinter dem letzten Punkt bezeichnet, z.B. de oder com. Wenn Sie eine der blau dargestellten TLDs auswählen, werden nur noch Sätze angezeigt, deren deutsche Seite von einer Webseite mit der entsprechenden TLD stammt. Es wird also nur noch eine Teilmenge der vorhandenen Treffer angezeigt. Wenn Sie z.B. nur Sätze sehen wollen, deren deutsche Seite von einer Webseite aus der Schweiz stammt, dann wählen Sie unter TLD Deutsch ch aus.

Die tiefergestellten Zahlen neben jeder TLD geben die Anzahl der jeweils vorhandenen Beispielsätze an.

Da nicht alle Beispielsätze aus dem Web stammen, sondern auch aus parallelen Korpora wie DGT-TM, gibt es auch eine TLD namens ohne. Wenn Sie diese auswählen, werden nur noch Sätze angezeigt, die nicht aus dem Web, sondern aus einem Parallelkorpus stammen.

TLD Englisch
Hier können Sie die gewünschte Top level domain für die englische Seite einschränken. Wenn Sie z.B. nur Sätze sehen wollen, deren englische Seite von einer Webseite aus Großbritannien stammt, wählen Sie uk als TLD Englisch.

Mehrere Filterkriterien können miteinander kombiniert werden. Wenn Sie beispielsweise nur Sätze sehen wollen, deren deutsche Seite von einer Webseite aus Österreich stammt und deren englische Seite von einer Webseite aus Großbritannien, dann wählen Sie at als TLD Deutsch und anschließend noch uk als TLD Englisch.

Korpustyp
Jeder Beispielsatz gehört zu genau einem Korpustypen. Es gibt die folgenden Korpustypen:

Korpustyp Beschreibung
Webseite gecrawlte Sätze aus dem WWW
EU Webseite gecrawlte Sätze aus dem WWW von der Domain europa.eu
EU DCEP Digital Corpus of the European Parliament
EU DGT-TM DGT Translation Memory
EU IATE The EU’s multilingual term base
EU ECDC-TM, EAC-TM
Parlamentsdebatte Das europarl-Korpus
ECB European Central Bank
EMEA European Medicines Agency
commoncrawl Korpus aus gecrawlten Sätzen
Fachtext Wissenschaftliche Abstracts aus Abschlussarbeiten, Dissertationen und Fachzeitschriften
Gesetz Die UN-Menschenrechtserklärung und die EU-Verfassung
Literatur Literaturübersetzungen ( H.C. Andersen, H. de Balzac, F.M. Dostojewski, A.C. Doyle, G.E. Lessing, G. Orwell, L. Carroll, C. Dickens, G. Flaubert, J.W. Goethe, L. von Sacher, J. Spyri, T. Storm und O. Wilde)
OpenOffice3 OpenOffice-Dokumentation
Politische_Rede Reden deutscher Politiker 2004-2007 sowie J.F. Kennedys Berliner Rede 1963
Pressemeldung Pressemeldungen der Bundesregierung bzw. einzelner Ministerien
UN Das MultiUN-Korpus
Untertitel Untertitel von Filmen und Serien
Wikipedia Übersetzungen von Wikipedia-Artikelnamen und unser Wikipedia Parallel Quotations-Korpus
Zeitungskommentar Das news-commentary-Korpus

Host
Wenn Sie einen Host auswählen, werden nur noch Beispielsätze angezeigt, die von diesem Host stammen. Als Beispiel die Filter-Box und die Übersetzungen für das Suchwort „Läufer“:

filter-laeuferUnter den Übersetzungen von „Läufer“ sind diejenigen hervorgehoben (anklickbare Buttons), für die Beispielsätze gefunden wurden. Man erkennt Sie auch an den tiefergestellten Zahlen: sie haben eine Zahl größer Null (die Zahl steht für die jeweils gefundenen Sätze). Alle Lesarten von Läufer sind vertreten: Sport (runner, halfback), Schach (bishop), Technik (rotor, stretcher) und der Teppich. Wenn Sie nun chessbase als Host auswählen, werden nur noch Sätze zur Schach-Lesart gefunden:

filter-chessbaseWenn Sie dagegen die Beispielsätze auf den Host berlin-laeuft einschränken, erhalten Sie nur noch Sätze zur Lesart runner:

filter-laeuftSachgebiete
Hier kann die Menge der angezeigten Beispielsätze auf ein Sachgebiet eingeschränkt werden. Sachgebiete gibt es allerdings nur bei den Korpustypen „Webseite“ und „EU Webseite“. Jede gecrawlte Webseite wurde mit einem automatischen Verfahren ein bis drei Sachgebieten zugeordnet. Nachfolgend die vollständige Liste aller Sachgebiete (das Sachgebiet unbekannt gilt für alle Sätze ohne Sachgebietsklassifizierung):

unbekannt, technik, informationstechnologie, internet, tourismus, e-commerce, verlag, theater, mode-lifestyle, schule, universitaet, verwaltung, transport-verkehr, informatik, kunst, musik, film, infrastruktur, staatliche-entscheidungsorgane-und-oeffentliches-finanzwesen, oekonomie, media, finanzmarkt, wirtschaftsrecht, auto, politik, sport, steuerterminologie, jagd, verkehr-kommunikation, marketing, boerse, radio, medizin, personalwesen, rechnungswesen, ressorts, immobilien, markt-wettbewerb, religion, astrologie, flaechennutzung, mythologie, militaer, psychologie, transaktionsprozesse, soziologie, bahn, unternehmensstrukturen, gastronomie, physik, literatur, verkehrssicherheit, weltinstitutionen, oekologie, pharmazie, jura, astronomie, bau, gartenbau, verkehr-gueterverkehr, handel, versicherung, raumfahrt, luftfahrt, foto, archäologie, meteo, zoologie, forstwirtschaft, geografie, geologie, nautik, philosophie, botanik, architektur, biologie, vogelkunde, mathematik, landwirtschaft, historie, chemie, verkehrsfluss, linguistik, bergbau, finanzen, typografie, controlling, mobilfunk-telekommunikation

Computergenerierte Übersetzungsvorschläge Deutsch-Englisch

Im neu gestalteten deutsch-englischen Kontext-Wörterbuch (wie im letzten Beitrag erklärt) finden die Nutzer nicht nur Treffer aus dem Wörterbuch, sondern ab sofort auch computergenerierte Übersetzungsvorschläge.

Als Beispiel seien die Treffer für die Suchanfrage lesen vorgestellt:

Übersetzungen Weitere Übersetzungsvorschläge (neu)
read refer
understand check
glean view
interpret consult
scan study
lecture find

Durch einen Klick auf einen Übersetzungsvorschlag kann sich der Nutzer die Sätze anzeigen lassen, aus denen der automatische Übersetzungsvorschlag stammt und selbst beurteilen, ob die vorgeschlagene Übersetzung adäquat ist. Die Zahl bei den Übersetzungsvorschlägen unten rechts gibt die Anzahl der Sätze an, in denen der Übersetzungsvorschlag vorkommt (es werden aber höchstens 10 Sätze angezeigt).

Dieses Feature richtet sich an erfahrene Nutzer, die abwägen können, ob die vorgeschlagene Übersetzung überhaupt richtig sein kann. Dadurch, dass die Übersetzungsvorschläge automatisch aus der Masse der zweisprachigen Verwendungsbeispiele erzeugt werden, kann es vorkommen, dass der eine oder andere Vorschlag falsch ist.

Beispiel:

Wenn in vielen zweisprachigen Sätzen six (engl.) und sieben (deu.) vorkommen, wie in den Sätzen: It’s half past six. (engl.) bzw. Es ist halb sieben, so wird dem Nutzer sieben als Übersetzung für six präsentiert, was dann mit Bedacht verwendet werden muss.

Automatische Suchvorschläge Deutsch-Englisch

Das Kontext-Wörterbuch Deutsch-Englisch bietet ab sofort Suchvorschläge (suggest, autocomplete) an, sobald der Nutzer die ersten drei Buchstaben in die Suchzeile eingegeben hat. Eingabe heb führt zu Vorschlägen wie hebt hervor, hebammen, hebelwirkung, heben usw.

Wörterbucheinträge, die aus mehreren Wörtern bestehen, werden als Suchvorschläge angezeigt, wenn die Eingabe mit dem Wortanfang eines beliebigen Wortes des Wörterbucheintrags übereinstimmt. Eine erweiterte Sucheingabe heben führt zu Vorschlägen wie das niveau heben, eine last heben, den wert heben, den standard heben, aus den angeln heben, hebend.

Neben jedem Suchvorschlag werden dem Nutzer gleich bis zu sieben Übersetzungen angezeigt. Um Verwendungsbeispiele für diese Übersetzungen anzuzeigen oder weitere Übersetzungen anzuzeigen, muss mit diesem Suchvorschlag die eigentliche Suche ausgeführt werden.

Präsentiert werden die Suchvorschläge aufgeteilt in zwei Kategorien: Zunächst die Top-10-Vorschläge aus dem Wörterbuch und darunter die computergenerierten Vorschläge. Die Sucheingabe hemmnis zeigt einerseits Übersetzungen für hemmnis aus dem Wörterbuch: barrier, hindrance, obstruction, disincentive, restraint und andererseits auch computergenerierte Übersetzungen: obstacle, impediment, constraint, barriers, delay.

suggest-heben

Es wird gleichzeitig in beiden Sprachrichtungen gesucht. Aus welcher Sprache ein Vorschlag stammt, ist anhand der kleinen Fahne leicht zu erkennen.

Neues Design und neue Daten für das Kontext-Wörterbuch Deutsch-Englisch

Linguatools hat das Kontext-Wörterbuch Deutsch-Englisch einem neuen Schliff unterzogen:

  1. Das Wörterbuch wurde um neue Quellen erweitert.
  2. Die Verwendungsbeispiele wurden vervielfacht und verfeinert.
  3. Die Darstellung der Suchergebnisse wurde völlig neu und userfreundlich überarbeitet.
  4. Zusätzliche Angaben zum Verwendungsbeispiel wurden bereitgestellt.

1. Wörterbuch

Bisher enthielt unser deutsch-englisches Wörterbuch ca. 630.000 Übersetzungen aus den folgenden Quellen:

In der neuen Version kommen folgende Quellen hinzu:

  • Eurovoc, mehrsprachiger Thesaurus der EU
  • IATE, mehrsprachige Terminologie-Datenbank der EU
  • OmegaWiki
  • Jetzt findet man im Kontext-Wörterbuch insgesamt über 1,4 Mio. Übersetzungen von Einzelwörtern und typischen Wortverbindungen (Stand 1.9.2015).

    Zum Testen seien hier ein paar häufige Suchwörter wie entstehen, bereits, Grundlage, notwendig und eher seltene Suchwörter wie Flüchtlingslager, nachvollziehen, lückenlos genannt.

    2. Verwendungsbeispiele

    Bisher waren linguatools-Verwendungsbeispiele u.a. folgenden Ursprungs:

    • Literaturübersetzung ( H.C. Andersen, H. de Balzac, F.M. Dostojewski, A.C. Doyle, G.E. Lessing, G. Orwell, L. Carroll, C. Dickens, G. Flaubert, J.W. Goethe, L. von Sacher, J. Spyri, T. Storm und O. Wilde)
    • Pressemeldungen der Bundesregierung bzw. einzelner Ministerien
    • Reden deutscher Politiker 2004-2007 sowie J.F. Kennedys Berliner Rede 1963.
    • Abstracts von Diplom-/Magisterarbeiten, Dissertationen und wissenschaftlichen Fachjournalen
    • europarl-Parallelkorpus
    • DGT-TM (Translation Memory der EU)
    • Untertitel von Filmen und Serien
    • Es handelte sich also um Quellen, die gezielt manuell „angezapft“ wurden und für die Wörterbuchbelange angepasst wurden.

    Als neuer Ursprung deutsch-englischer Verwendungsbeispiele kommt nun hinzu :

    • WWW als Ganzes

    Im weltweiten Web (WWW) findet linguatools zweisprachige Verwendungsbeispiele zu Wörterbucheinträgen nun automatisch. Dafür wurde ein spezieller Crawler entwickelt, der mehrsprachige Webseiten erkennt, im nächsten Schritt die gewünschten zweisprachigen Sätze extrahiert und schließlich den eigentlichen Wörterbucheinträgen zuordnet.

    Die Verwendungsbeispiele aus dem WWW sind mit dem Korpustyp „Webseite“ gekennzeichnet.

    3. Darstellung

    Um die Treffermenge übersichtlich zu halten, werden die Suchtreffer auf mehrere Tabs aufgeteilt:

    Tab „Übersetzungen“

    In diesem Tab werden Übersetzungen zum Suchwort angezeigt, gruppiert nach Wortart. Wird beispielsweise nach der Übersetzung für Übersicht gesucht, erhält man als Treffermenge die nach ihrer Häufigkeit sortierten Übersetzungen overview, summary, list, review, survey, outline, general view usw. Durch das Anklicken der jeweiligen Übersetzung werden unmittelbar Verwendungsbeispiele eingeblendet. Zu jeder Übersetzung gibt es die Information über die Anzahl der Verwendungsbeispiele, die das linguatools-Kontex-Wörterbuch für diese Übersetzung bereithält, jedoch bekommt der User maximal hundert Verwendungsbeispiele angezeigt.

    Ein Feature verdient besondere Aufmerksamkeit. Es werden Verwendungsbeispiele nicht nur der Übersetzungen eingeblendet, sondern auch ihrer flektierten Varianten.
    Zur Übersetzung Übersicht-overview werden also nicht nur Verwendungsbeispiele mit Übersicht-overview, sondern auch mit Übersichten-overviews angezeigt. Bei der Suche nach dem Verb kaufen (buy) werden auch Verwendungsbeispiele mit kauft-buy und gekauft-bought eingeblendet.

    Tab „Typische Wortverbindungen“

    In diesem Tab werden Übersetzungen typischer Wortverbindungen des Suchwortes angezeigt. Für das Suchwort Übersicht erscheinen dann Übersetzungen wie

    • buchhalterische Übersicht – accounting statement
    • die Übersicht behalten über – keep track of
    • konsolidierte Übersicht – consolidated balance sheet

    Die Verwendungsbeispiele – sofern welche vorhanden – werden durch einen Klick auf die jeweilige Übersetzung der typischen Wortverbindung angezeigt.

    Tab „Weitere Beispiele“

    In diesem Tab werden keine Übersetzungen des Eingabewortes angezeigt, sondern weitere zweisprachige Verwendungsbeispiele. Hier findet man weitere Übersetzungsmöglichkeiten, denn in den Sätzen der Zielsprache ist KEINE Übersetzung, die in den ersten zwei Tabs bereits aufgetreten ist.

    4. Zusätzliche Angaben

    Bei jedem automatisch gecrawlten Verwendungsbeispiel werden dem User weitere Informationen eingeblendet:

    • Sachgebiet der Webseite, in der der Satz gefunden wurde.
    • Link zur Webseite, in der der Satz gefunden wurde.
    • Lokalisierung der Sprache: Deutsches (DE), österreichisches (AT) oder schweizerisches Deutsch (CH) bzw. Englisch aus England (UK) und USA-Englisch (US).

    Automatische Wörterbucherweiterung

    In einem früheren Posting berichteten wir über unsere halb-automatische Methode der
    Wörterbucherweiterung. Mittlerweile haben wir das Verfahren verbessert und können nun für eine bestimmte Klasse von Konstruktionen automatisch neue Übersetzungen unserem Wörterbuch hinzufügen. Bei den Konstruktionen handelt es sich um Komposita, also zusammengesetzte Substantive wie Seerechtsabkommen.
    Ausgehend von unserem vorhandenen Wörterbuch und unserem Satzarchiv aus knapp 5 Millionen deutsch-englischen Satzpaaren konnten wir mit dem Verfahren 70.000 englische Übersetzungen von 60.000 deutschen Komposita automatisch ins Wörterbuch übernehmen.

    Wie funktioniert die automatische Komposita-Übersetzung?
    Zunächst muss das deutsche Kompositum in seine Bestandteile zerlegt werden. Das ist für den Computer ein äußerst schwieriges Unterfangen. Nehmen wir als Beispiel das Kompositum Bildungsaustauschprogramm. Unser Kompositazerleger findet als Konstituenten: Bildung, Austausch und Programm. Die Konstituenten können nun im Wörterbuch nachgeschlagen werden:

    Bildung: creation development education establishment formation forming genesis learning literacy nurture setting up
    Austausch: exchange replace substitutional commutation interchange relocation swapping transposition
    Programm: channel cycle program programme schedule scheme manifesto

    Die Übersetzungen der beiden Bestimmungswörter Bildung und Austausch werden jetzt noch um ihre Adjektiv-Ableitungen erweitert:

    development -> developmental, education -> educational …

    Aus den möglichen Übersetzungen jeder Konstituente (und den
    Adjektiv-Ableitungen) werden dann alle möglichen Kombinationen gebildet:

    creation exchange channel
    development exchange channel

    forming transposition manifesto

    In diesem Beispiel gibt es 14 x 9 x 7 = 882 mögliche Kombinationen. Aber welche davon gibt es im Englischen? Und sind sie überhaupt Übersetzungen des Ausgangskompositums? Angenommen development relocation cycle existiert im Englischen, handelt es sich dabei überhaupt noch um die Übersetzung von Bildungsaustauschprogramm?
    Um das herauszufinden, durchsuchen wir unser Satzarchiv aus zweisprachigen deutsch-englischen Sätzen. Auf der deutschen Seite muss das Ausgangswort Bildungsaustauschprogramm vorkommen, und auf der englischen Seite alle drei Wörter einer der 882 erzeugten
    Kombinationen. Zwischen den drei Wörtern dürfen außerdem Präpositionen und Artikel vorkommen. So finden wir zu Bildungsaustauschprogramm die englische Entsprechung programme for educational exchange.
    Auf gleiche Weise wird aus Seerechtsabkommen zuerst See, Recht und Abkommen, dann (neben vielen anderen Kombinationen) sea, law und convention, und schließlich convention on the Law of the Sea.

    Als nächstes planen wir, unsere Methode auf andere Konstruktionen als Komposita auszudehnen. Wenn zu Wirtschaftsentwicklung die englische Entsprechung economic development gefunden werden kann, sollte das für die Nominalphrase wirtschaftliche Entwicklung auch funktionieren.

    Zum Schluss einige Beispiele für automatisch gefundene Komposita-Übersetzungen (in Klammern die jeweilige Häufigkeit in unserem Satzarchiv):

    Heringsfangmöglichkeit
    – possibility for catching herring

    Haushaltsbeschluss
    – budgetary decision (10)
    – budget decision (6)
    – decision on the budget (2)

    Souveränitätsgewinn
    – gain in sovereignty

    Imageverlust
    – loss to the image

    Gefahrensituation
    – risk situation (5)
    – dangerous situation (4)
    – situation of risk (3)

    Kontext-Wörterbuch Deutsch-Schwedisch

    Als das sechste in unserem Wörterbuchsortiment haben wir das deutsch-schwedische Kontext-Wörterbuch online gebracht. Es enthält anfänglich 3,7 Mio. zweisprachige Beispielsätze, die zu 35.00 Übersetzungen als Verwendungsbeispiele eingeblendet werden. Die Übersetzungen stammen aus Wikipedia und Wiktionary. Für die Beispielsätze dienten uns als Quellen: Die
    Bibel,  das EMEA-Korpus (European Medicines Agency),  Parlamentsdebatten,  EU-Dokumente, Untertitel, sowie vier Bücher von drei schwedischen Autoren.

    Beispiel: Elch

    4,2 Mio. Beispielsätze Deutsch-Italienisch (Update)

    Für Italienisch-Fans haben wir eine gute Nachricht. Wir haben das Satzarchiv des deutsch-italienischen Wörterbuchs um 2 Mio. Einträge erweitert. Damit beeinhaltet das Kontextwörterbuch zur Zeit neben 24.000 Übersetzungen auch 4,2 Mio. zweisprachige Beispielsätze, die von professionellen Übersetzern angefertigt wurden.  Neben EU-Parlamentsreden und Zeitungskommentaren haben wir diesmal auch Untertitel sowie Literatur von Dickens, Marx, Lewis, Bronte, Flaubert und Schopenhauer mit ins Satzarchiv aufgenommen. Insbesondere durch die Untertitel von Filmen und TV-Serien stehen jetzt auch viele Satzbeispiele aus der Alltagssprache zur Verfügung.

    Probieren Sie es aus: Was geht ab?

    Handytelefonie mit simultaner Sprachübersetzung

    Die sprachlichen Barrieren stellen vor allem im geschäftlichen Bereich der Handytelefonie nach wie vor ein überaus ernstes Problem dar. Da sich in der heutigen Zeit jedoch die meisten Unternehmen grundsätzlich auf internationaler Ebene bewegen, hat sich nun der japanische Mobilfunkbetreiber NTT Docomo dazu entschlossen, einen auf Cloud basierenden Simultanübersetzer für die internationale Handytelefonie zu entwicklen.

    Der Simultanübersetzer soll grundsätzlich sowohl für die verbale als auch für die schriftliche Kommunikation funktionieren, wodurch beispielsweise zwei Geschäftsleute aus den USA und aus Japan mit dem Handy telefonieren und hierbei jeweils in ihrer eigenen Muttersprache sprechen können. Der Simultanübersetzer von NTT Docomo wandelt die gesprochenen Worte (oder auch die geschriebenen einer SMS) zeitgleich in die Sprache des jeweils anderen Gesprächsteilnehmers um, wodurch die sprachlichen Barrieren optimal überwunden werden sollen.

    Um diesen Simultanübersetzer für die reibungslose, internationale Kommunikation mit dem Mobiltelefon zu ermöglichen, greift der Entwickler NTT Docomo auf verschiedene Technologien, wie die automatische Spracherkennung, die Sprachsynthese und die Maschinen-Übersetzung zurück. Im Rahmen einer Demonstration auf der Technik-Messe “Wireless Japan 2011“ wurde beispielsweise ein Zeitungsartikel in japanischer Sprache über ein Handy vorgelesen und der Empfänger erhielt daraufhin die gesprochenen Worte in seiner englischen Muttersprache.

    Das einzige Problem bei diesem Simultanübersetzer stellt die bisher noch nicht einwandfreie Erkennungsrate der gesprochenen Worte dar, da diese bei Weitem noch nicht die 100% erreicht hat. (siehe hier) Die jeweilige Erkennungsrate der gesprochenen Worte hängt grundsätzlich von der Deutlichkeit des Sprechers und auch von der Übertragungsqualität des Telefongesprächs ab. Auch stellen die verschiedenen Dialekte und die hiermit verbundenen, teilweise sehr unterschiedlichen Betonungen der Silben und Worte in der heutigen Zeit leider immer noch für viele Spracherkennungsprogramme ein ernst zu nehmendes Problem dar. Dieser Umstand bezieht sich nicht nur auf den Simultanübersetzer von NTT Docomo, sondern zum Beispiel auch auf viele Spracherkennungsprogramme für die Texterstellung am PC. Jedoch hat die Erkennungsrate vieler renommierter Spracherkennungsprogramme in den letzten Jahren erhebliche Fortschritte gemacht und daher scheint es nur noch eine Frage der Zeit zu sein, bis das letzte Hindernis bezüglich der optimalen Erkennung der gesprochenen Worte endlich beseitigt wird.

    Dennoch plant der Entwickler NTT Docomo noch in diesem Jahr die Veröffentlichung einer ersten Testversion des cloudbasierten Simultanübersetzers, wobei sich die Nutzer dieser Vorabversion jedoch auf einige Einschränkungen bezüglich der nicht einwandfreien Spracherkennung einstellen müssen.