Tolle Thesen testen

Zu Games und IT. Wer besser denken kann: per Kommentar beweisen! Diskursiver Positivismus! Oy vey!! 
Alles über

FAIL

 

Google Translate: "grossmutter" = "blowjob"

Über eine Redaktionskollegin (danke, Ursula!) kam mir zu Ohren, dass Google Translate der Meinung ist, dass "grossmutter" am besten mit "blowjob" übersetzt wird. Und zwar nicht nur Deutsch - Englisch, sondern auch in sehr vielen anderen Sprachen.

Aufgefallen ist das bis jetzt nur wenigen, man sagt mir, dass ein Email im italienischen Sprachraum die Runde mache, schriftlich habe ich nur diesen einen Blogpost gefunden.

Was steckt dahinter? Nachdem ich Beweismaterial gesammelt hatte (diese Screenshots), habe ich bei Google angefragt. Dort hatte man den Fehler noch nicht bemerkt, korrigierte ihn aber natürlich sofort ("grossmutter" wird jetzt korrekt übersetzt, Tschuldigung, ich bin schuld). 

Zuerst eine Beschreibung des Fehlers:

  • Google Translate übersetzt in 52 Sprachen.
  • "Grossmutter" (mit einem grossen G) oder "Großmutter" (mit dem scharfen S) werden korrekt übersetzt, der Fehler taucht nur auf, wenn man "grossmutter" mit Doppel-S und kleinem g schreibt.
  • "grossmutter" wird in 38 Sprachen mit "blowjob" oder "Blowjob" oder "blowjobs" übersetzt (z.B. Englisch, Französisch, Albanisch, etc.).
  • 9 Sprachen haben andere Schriftsätze (Chinesisch, Japanisch, Griechisch etc.), dort kann ich mangels Kenntnis nicht feststellen, ob es eine korrekte Übersetzung oder einfach das chinesische, japanische Wort für Blowjob ist.
  • In 5 Sprachen wird "grossmutter" in Übersetzungen/Slang von Blowjob übersetzt (z.B. schwedisch: "avsugning", spanisch/katalanisch: "mamada", polnisch: "oral").
     

Bei Google widersprach man meiner ersten Vermutung, dass der Fehler durch die "Eine bessere Übersetzung vorschlagen"-Funktion entstand; dass also jemand sich einen Scherz machte und "blowjob" als Übersetzung vorschlug, und dass das irgendwie ungeprüft ins Live-System rutschte. Google sagt, dass alle Vorschläge von Menschen geprüft werden, was es sehr unwahrscheinlich macht, dass eine solche Lausbuben-Übersetzung durchkommen könnte.

Man verwies mich stattdessen an Jeff Chin in Singapur, den Product Manager von Google Translate. Er erklärte mir, wie der Fehler entstehen konnte. Zunächst: Es gibt zwei verschiedene Wege, wie man maschinelle Übersetzung angehen kann: entweder mit Regeln, oder per Statistik.

Die Regel-Methode arbeitet mit Computerlinguistik, versucht also, die Regeln einer Sprache zu definieren und so Methoden der Übersetzung abzuleiten. Die meisten kommerziell schon länger erhältlichen Produkte arbeiten so. Computational Linguistics ist komplex, Spezialisten sind rar, die Produkte, die daraus entstehen, deshalb teuer.

Die Statistik-Methode wertet dagegen zwei Dokumente mit dem gleichen Inhalt in zwei verschiedenen Sprachen aus (das eine ist bekannt als eine Übersetzung des anderen) und versucht so, Wörter und Wortgruppen einander zuzuordnen. Zusätzlich wird auch die Sprache selber statistisch analysiert (welche Wortgruppen sind häufiger als andere z.B.). Aus diesen statischen Daten werden dann Übersetzungsalgorithmen abgeleitet.

Google Translate gibt es schon seit 2001; Google arbeitete damals aber noch mit einer lizensierten Technologie einer Drittfirma (mit der Regel-Methode). Seit 2004 betreibt man selber Forschung im Bereich der Statistik-Methode; auch unterstützt von der US-Regierung, fokussiert auf chinesisch und arabisch. Später weitete man die Arbeit auf andere Sprachen aus und begann, das Produkt allen zugänglich zu machen. Mittlerweile benutzt Google Translate nur noch Google-eigene Technologie.

Die statistische Methode macht für Google sehr viel Sinn: Wohl niemand sonst hat Zugriff auf eine solche Datenmenge und Prozessor-Kraft. Und es ist klar, dass eine statistische Methode umso besser wird, je mehr Daten man ihr verfüttern kann. Chin sagt mir, dass die Qualität der Übersetzung von vielen Faktoren abhängt (sprachspezifisch, auch abhängig vom Inhalt), dass sie aber gut wird bei einigen Millionen Wörtern als Grundlage für die statistische Analyse.

Trotzdem schlug die Methode bei "grossmutter" fehl. Hier wurde das Doppel-S zum Stolperstein: weil die meisten Deutschsprachigen "Großmutter" mit dem scharfen S schreiben, reduziert das Doppel-S die Datengrundlage stark. In welchem Zusammenhang diese Blowjob-Zuordnung genau passierte, darf sich jeder gerne selber ausmalen (wer es expliziter braucht, stellt bei einer Suche nach den beiden Begriffen fest, dass sie sich durchaus häufig in der Nähe von einander befinden können). Es ist klar, dass ein statistisches System nie völlig fehlerlos sein kann, dass es gerade ein so peinlicher Fehler war, ist schlicht Pech.

Also gut, eine einzelne falsche statistische Zuordnung ist erklärbar. Warum dann aber die falsche Übersetzung in so vielen verschiedenen Sprachen? Diese Erklärung ist einfach: Google Translate übersetzt nie direkt von Deutsch z.B. auf Französisch (Haha! Entschuldigung.), sondern macht immer den Umweg über Englisch. Also Deutsch -> Englisch -> Französisch. Google legt die ganzen statistischen Analysen immer in Bezug auf Englisch an - das ist nachvollziehbar, weil der Aufwand bei so vielen Sprachen schlicht zu gross wäre, wenn man die statistischen Auswertungen direkt für jede mögliche Sprachkombination anlegen würde.

Damit ist nicht nur erklärt, warum die falsche Übersetzung in vielen Sprachen auftritt (weil die Übersetzung von Deutsch in Englisch schon falsch ist), sondern auch, warum es in einigen Sprachen zu Abwandlungen von "blowjob" kommt (weil in diesen Sprachen dann das englische "blowjob" korrekt auf spanisch oder schwedisch übersetzt wurde).

Korrigiert hat man den Fehler übrigens manuell, also von Hand in einer Datenbank eingetragen, dass die statistisch gewonnene Übersetzung falsch ist. So kann man schnell auf Fehler reagieren und sich in Ruhe dran machen, die statistisch generierte Übersetzung zu verbessern. Wenn die Algorithmen verändert werden, kann man dann überprüfen, ob die Fehler nun nicht mehr auftreten.

So ist das. Ich bin gespannt, ob dieser Post nun Leute anzieht, die auf der Suche nach etwas ganz anderem waren.

 

Abgelegt unter  //   FAIL   Technologie  
Loading mentions Retweet

Kommentare [1]

Haiku-Freitag: Polizei vs. Internet

Viel mehr Cybercops
braucht die deutsche Polizei,
wegen Internet.

Foto: Flickr/Eva Freude; bearbeitet

Denn, meint der Scheff: "Das
Internet ist der grösste
Tatort der Welt", Mann!

Ausserdem: Strassen
sind der gefährlichste Ort
für Autofahrer.

Mit grossem Abstand
der grösste Tatort der Welt
ist nun mal die Welt.

Polizeigewerkschaft: Internet ist der "größte Tatort der Welt" (Heise)

Strassenspruch: Lucius

Abgelegt unter  //   FAIL   Haiku   Recht   Security  
Loading mentions Retweet

Kommentare [0]

SS Reinigungen?!

Heute auf dem Nachhauseweg fährt ein Minibus an mir vorbei, mit der schönen Aufschrift "SS Reinigungen". Hatte die Kamera nicht schnell genug raus, auf dem Internet finde ich nur das hier. Immerhin war die Schrift weiss auf blau, nicht etwa rot/schwarz/weiss.


Welche Dienstleistungen die wohl anbieten? Tausendjährige Reinheit? Blitzkriegblanke Fenster? Die totale Endreinigung? Ich frag ja nur.

Abgelegt unter  //   FAIL   NSDAP  
Loading mentions Retweet

Kommentare [1]

Penalty Box: Nieder mit diesen Phrasen!

Es gibt Phrasen, die man in Game-Reviews sehr oft liest - auch in meinen eigenen Texten, wir sind alle schuldig! Man verwendet sie immer dann, wenn man noch keine präzisere Formulierung gefunden oder keinen klareren Gedanken gefasst hat. Sie verschleiern Inhalt und Meinung. Deshalb müssen sie weg. Die folgende Liste wird gegebenenfalls ergänzt.


  • "Easy to learn, hard to master". Das Casual-Game-Mantra ist ja wahr, wird aber einfach zu oft zitiert. Statt Gemeinplatz präziser die Mechanik beschreiben.

  • "Das Spiel ist liebevoll gestaltet". Wie sieht liebevoll denn aus? Auch im Team des schlimmsten Franchise-Verwurstung-Titels krampfen ein paar Designer, die Liebe in ihre Arbeit stecken.

  • "Die Welt ist lebendig und glaubwürdig". Das Standard-Klischee für Sandbox-Spiele wie GTA. Statt zu sagen, dass die Welt "lebendig" ist, könnte man ja beschreiben, was denn darin so lebendiges passiert.

  • "Toll gemachte Zwischensequenzen". Warum sind sie toll? Einfach, weil es kracht? Haben sie eine Funktion im Spiel? Ist die Geschichte gut? Warum?

  • "Ein Spiel für Strategie-Veteranen". Sind alle gleich, die schon lange Strategie-Spiele spielen? Woher weiss ich, was denen gefällt? Sag, warum das Spiel dir gefällt. Leser können selber entscheiden, ob sie sich angesprochen fühlen sollen oder nicht.

  • "Dichte Atmosphäre". Gemeinplatz. Erzähl eine erlebte Geschichte als Beispiel!

  • "Hardcore-Gamer". Wer soll das sein? Wer am Wochenende zehn Stunden Solitaire spielt, ist irgendwie auch recht hardcore. Und die Elitären können sich selber eh nicht einigen, wer wirklich hardcore genug ist. 

  • "Das Spiel ist ein Meilenstein". Bekämpfe die Superlativ-Inflation! Wenn dieses Jahr zig Meilensteine erscheinen, was machen wir dann nächstes Jahr? Meilensteine kommen nach jeder Meile, nicht nach jedem Meter.

  • "Das Spiel macht süchtig!" Ein grauenhaftes Klischee, weil es nicht stimmt (kein Arzt würde die Peggle-versessene Oma als süchtig diagnostizieren) und weil es eine schiefe Metapher ist: Lange Spass zu haben ist nicht gleich süchtig sein.

Diese Phrasen und Varianten davon sitzen ab sofort auf der Strafbank, und dürfen nur noch ganz selten und mit besonderer Begründung zurück ins Spiel. Damit macht man sich das Leben zwar etwas schwerer; wer aber über Games schreiben kann, hat an sich noch kein allzu schweres Leben.

Was gehört eurer Meinung nach auch noch in die Penalty Box? Oder habt ihr ein Argument, warum eine der genannten Phrasen diese Strafe nicht verdient? Rein in die Comments damit!

Abgelegt unter  //   FAIL   Games  
Loading mentions Retweet

Kommentare [0]

Moonwalk mit Helm


Warum?

Als Teil des Projektes Eternal Moonwalk des Radiosenders Studio Brussel, das öffentlich-rechtliche Alternativ/Rock-Radio des flämischen Belgiens.

Und natürlich, um sich einmal mehr für DRS 3 zum Affen zu machen.

Abgelegt unter  //   FAIL   User Generated Content  
Loading mentions Retweet

Kommentare [0]

Pirate Bay Ausverkauf

Na, das ist mal eine Bombe: ein schwedisches Unternehmen namens Global Gaming Factory X AB (GGF) kauft die Pirate Bay (TPB).

Pirate Bay to sell to private company, go legit (?) (!) (BoingBoing)
The Pirate Bay Sold To Software Company, Goes Legal (TorrentFreak)
The Pirate Bay Will Close Its Tracker and Remove Torrents (TorrentFreak)
Pirate Bay Bought Out, Suddenly Respects Copyrights (Gizmodo)

Und die offiziellen Verlautbarungen:

TPB might change owner (The Pirate Bay)
Global Gaming Factory Press Release (PDF)


Für knapp 8.5 Millionen Franken will GGF die Piraten aufkaufen. Die Hälfte davon in Aktien, die andere Hälfte in bar, der Deal soll bis im August über die Bühne, ist also noch nicht unter Dach und Fach (. Das ist sehr wenig für eine Website, die ca. 1.8 Millionen Torrents verteilt und über 20 Millionen User haben soll. Andererseits ist der Kauf natürlich stark risikobehaftet, die Berufung des verlorenen Prozesses noch hängig (die vier Piraten vor Gericht wurden in erster Instanz zu je einem Jahr Gefängnis und total zu 30 Mio SEK Schadenersatz verurteilt).

Die bis jetzt bekannten öffentlichen Statements sind ziemlich neblig. Die Pirate Bay redet davon, die Seite mit den richtigen Leuten weiterzuentwickeln (GGF hat gleichzeitig noch das P2P-Technologie-Startup Peerialism gekauft, für 100 Millionen SEK, ebenfalls hälftig in Cash und Aktien), und hofft, dass die neuen Besitzer die Seite nicht kaputtmachen. Die alte Crew wolle weiterhin politisch aktiv bleiben, es sei "win-win-win" und man solle "happy" sein.

Die neuen Besitzer (die bisher offenbar Internet-Cafés und Gaming Venues betrieben und Software hergestellt haben) klingen etwas anders. Dort will man neue Geschäftsmodelle einführen, die es möglich machen sollen, Content zu bezahlen. Was genau das für Modelle sein sollen, ist offen. Ein echtes Bezahlen für Inhalt ist undenkbar, siehe Napster. Vielleicht stellt man sich bei GGF vor, Einkünfte der auf der Seite geschalteten Werbung mit Content Providern zu teilen. Warum diese daran Interesse haben sollen, bleibt schleierhaft: schliesslich haben sie die Pirate Bay bereits vor Gericht gezogen und zumindest in erster Instanz den Prozess gewonnen.

Die Reaktionen in Blog-Comments und auf Twitter sind grossmehrheitlich die der Enttäuschung und der Wut. Man fühlt sich verraten, der Grundtenor ist "Ausverkauf!". Da hilft es wenig, dass die Pirate-Bay-Leute davon sprechen, das Geld des Verkaufs in eine Stiftung für Rede-, Informations- und Netzwerkfreiheit stecken zu wollen - die vollmundige Freiheitskämpfer-Pose verliert auf einen Schlag ihren Glanz.

Die zugänglichen Informationen im Moment sind noch recht spärlich, es ist deshalb schwierig, sich einen Reim auf die Geschichte zu machen. Ich sehe zwei mögliche Lesarten:

  • Die Piraten haben die Hosen voll und hängen ihre Piratenhüte an den Nagel.. Sie haben einen Glücksritter gefunden, der etwas Spielgeld übrig hat (total für beide Käufe mindestens 11 Mio. Franken in bar) und hofft, vom Bekanntheitsgrad der Pirate Bay zu profitieren. Indizien dafür sind die schwammige Beschreibung des neuen Businessmodells und der Umstand, dass der Bargeld-Teil des Deals genau der Schadenersatzforderung des Prozesses entspricht.

  • Die zweite Möglichkeit ist etwas abenteuerlicher. Das Hauptproblem der Pirate Bay ist der Tracker, weil das ein mehr oder weniger zentraler Dienst ist, den die Piraten selber betreiben. So werden sie angreifbar, technisch und juristisch. Evtl. wollen sie das ändern, dezentralisieren, verteilen. Peerialism könnte technologische Hilfe bieten. GGF wäre dann eher so etwas wie eine legitime Front, die Versprechen der Legalisierung nur Vernebelungstaktik und Spiel auf Zeit. Indizien für diese Theorie: In ihrem Blog-Eintrag reden die Piraten davon, "to evolve the protocols" und "everybody can be the owner". Und Torrentfreak schreibt, dass der Tracker abgeschaltet werden soll und: "[T]he site will use a new torrent hosting service that will store the torrents for them. This new hosting service will be open to other torrent sites as well and can be accessed through an API."

Auch wenn diese zweite Lesart technisch denkbar ist, sehr wahrscheinlich ist sie nicht. Einerseits, weil GGF börsenkotiert ist und damit ein hohes Risiko eingehen würde (wenn sie allerdings davon ausgehen, mit TPB wirklich Geld machen zu können, spricht das auch nicht gerade für sie). Andererseits, weil die Piraten den Kampf um die öffentliche Wahrnehmung der Transaktion schon so gut wie verloren haben: Wer sich jetzt verraten fühlt, wird sich nach einem Ersatzdienst umsehen und nicht so lange warten, bis die neue Pirate Bay fertig dezentralisiert hat. Und weil sich wohl auch die politischen Bewegungen veräppelt vorkommen, könnte die Pirate Bay den Filesharing-Aktivisten einen echten Bärendienst erwiesen haben.

Was meint ihr? Ist den Piraten einfach die Luft ausgegangen oder ist das stattdessen ein cleverer, zukunftsorientierter Schachzug?


Update:

Der schwedische Podcast What's Next hat ein Interview mit Peter Sunde gemacht. Nicht viel erhellendes (ausser den Details zu der Stiftung); der allgemeine Ton von Sunde lässt aber drauf schliessen, dass die erste Lesart wohl die richtige ist: Die Piraten sind ausgelaugt und haben genug. Wie sich GGF vorstellt, mit der Pirate Bay Geld zu verdienen, bleibt offen.

Update 2:

Interviews des GGF-CEO Hans Pandeya mit Business Week und Wired machen deutlicher, wie GGF mit der Pirate Bay verdienen will. Einerseits will man sie legalisieren, indem man Tantiemen an die Musikindustrie zahlt. Wieviel wofür? Keine Verhandlungen sind im Gang. Andererseits will man die Netzwerkkapazität all dieser Filesharer bündeln (à la SETI@home, aber nicht CPU, sondern Upload) und verkaufen, an Leute, die schnell viel Kapazität brauchen (jmd, der ein sehr beliebtes File zum Download anbieten will). Die Filesharer sollen für das zur Verfügung stellen ihrer Leitung entlöhnt werden. Auch hier keine Zahlen. Business Week nennt diesen Plan "weird" und weist darauf hin, dass unklar ist, ob die User unter ihren ISP-Nutzungsbedingungen das überhaupt dürfen (wird von Land zu Land und Provider unterschiedlich sein). Und dann will man noch 40 Millionen Euro mit Werbung auf der Seite verdienen.

Mut haben sie ja, diese Schweden. Dieser Plan geht nämlich nur auf, wenn die 20 Millionen User bleiben und weiterhin downloaden - aus einem Angebot, das garantiert kleiner wird (Lizenzverhandlungen) und ohne das ideologische "Finger to the Man"-Hochgefühl. Ich hätte da nicht investiert.

Abgelegt unter  //   Digital Distribution   FAIL   Piraterie  
Loading mentions Retweet

Kommentare [0]

Sicher verpackt

Von Sony/Playstation habe ich dieses Werbegeschenk erhalten:

Der Berg Verpackung links hat sichergestellt, dass die 4 GB USB-Stick auch sicher bei mir ankamen. Die 11. Spielvariante muss etwas mit grossen Kisten und Blasenfolie zu tun haben.

  

Abgelegt unter  //   FAIL  
Loading mentions Retweet

Kommentare [3]

LiLo schmollt wegen Facebook


Lindsay Lohan wurde aus Facebook ausgesperrt. Schreibt sie jedenfalls auf MySpace. Das trifft die junge Dame schwer:

"wow! i was in shock. [...] it was disabled because they believe that i was a fake of myself. genius. here i am loving facebook (as well as myspace-hehe) but going on facebook to talk to some of my friends and they are thinking that I AM THE "FAKE" OF MYSELF!!! hahahahahaha.. at first i laughed, and then i got angry. angry because, with ALL the people that PRETEND to be me on facebook, they decide to say I AM THE FAKE- of myself. all i can think is, WHO is running this site?"

Lohan scheint ausserdem zu den zahlreichen Kritikern des neuen Facebook-Layouts zu gehören:

"here they are re-designing the look on the site when they should be setting up a more secure way of allowing people to set up an account."

Und wie es sich für selbstbewusste Frauen gehört, weiss LiLo genau, was sie will:

"maybe i am just venting, but i am also writing this blog in hopes that the people at facebook will un-disable my account and allow me to sign in the EXACT same way it was, same friends, same emails, same "pets" and so on.."

Upset with Facebook (Lindsay Lohan, MySpace)

Nur wenig später zeigt Facebook bei mir plötzlich nichts mehr an, nur noch das hier:

Klar, wenn die Lohan hässig ist, würde ich auch gleich alle Server runterfahren und schauen, dass ihre Pets wieder EXAKT so sind WIE VORHER!



Update:

Dass Facebook down ist, hat vielleicht eher etwas damit zu tun:

Abgelegt unter  //   Blogosphere   FAIL   Populärkultur   Soziale Netzwerke  
Loading mentions Retweet

Kommentare [1]

Haiku-Dienstag: Zwei Schmäh-kus

Zur neuen Single von Kid Rock:


Wer sich das antut,
muss Angst vor Stille haben
und den Gedanken.


Zu Handy-Software:

Die ganze Herde
Schimpansen in einen Raum
mit PCs gesperrt

schmeisst ihre Scheisse
mit Schwung auf die Tastatur.
Ha! Weiche Ware!

Wäre viel besser
als das was auf den Handys
tatsächlich drauf ist.

Abgelegt unter  //   FAIL   Haiku  
Loading mentions Retweet

Kommentare [0]

Little Big Dick Move

Langsam tröpfeln die Ankündigungen zum Downloadable Content für Little Big Planet herein. Einige Kostüme gibt es gratis (Raumanzug - Yay!, Halloween-Kürbiskopf - Buuuh!) und einige kosten.

Was wäre euch dieses T-Shirt da unten wert?


Ich nehme an, niemand von euch hat viel mehr als "en Stutz" gesetzt. Na, dann setzt euch, denn dieses "Seltene Woche 1-T-Shirt" kostet sage und schreibe CHF 7.95.


Sehr geehrte Damen und Herren bei Sony Computer Entertainment Europe! SIND SIE NOCH GANZ DICHT? Welche gierigen Geiferlappen machen bei Ihnen die Preise? Acht Franken für ein digitales T-Shirt? Zehn dieser Kostümchen sollen gleich viel wert sein wie das ganze fucking Spiel?!? Das ist echt the dickiest dick move that has ever been moved and/or dicked

Offenbar sind im Moment eh die Dicks am Drücker bei Sony & Media Molecule. Neben der völlig durchgeknallt überrissenen DLC-Preispolitik tauchen nun Beschwerden von gelöschten LBP-Levels auf:


Einige Spieler beklagen sich, dass publizierte Little-Big-Planet-Levels gelöscht wurden. In den meisten Fällen scheinen Copyright-Überlegungen ausschlaggebend zu sein. Sony entfernt ("moderiert") solche Levels einfach aus dem "Share"-Teil des Spiels, ohne Begründung, ohne die Betroffenen vorzuwarnen, und ohne diesen die Möglichkeit zu geben, ihre Levels anzupassen. Die Levels können ausserdem nicht erneut publiziert werden (auch wenn sie verändert wurden).

Klar, Sony will sich nicht Copyright-Klagen aussetzen. Sie wählen hier aber erneut die Holzhammer-Lösung, indem sie den Betroffenen jedes Recht auf Einsprache verwehren. Einige der gelöschten Levels könnten durchaus unter Fair Use legal sein - auf diese Diskussionen will sich Sony aber offenbar gar nicht erst einlassen.

Nach der rückgratlosen Zensur und den skandalösen Nutzungsvereinbarungen ist das nun der dritte Little Big Dick Move in drei Wochen. Und das bei einem Spiel, das auf User Generated Content setzt und damit abhängig von einer lebhaften und gutgesinnten Community wäre.

Vornerum von Kreativität und den beflügelnden Möglichkeiten zu labern, hintenrum dann aber arrogant und stur die User knechten und knebeln. Way to go, Sony!

Abgelegt unter  //   DRM   FAIL   Games   User Generated Content  
Loading mentions Retweet

Kommentare [1]