Google übersetzt Stimmen in Echtzeit mit Gemini 3.5

Google laesst Gemini im Videocall mitdolmetschen - mit der eigenen Stimme

Mit Gemini 3.5 Live Translate uebersetzt Google Sprache in Echtzeit und behaelt dabei Tonfall, Tempo und Stimmlage der sprechenden Person bei.

Ein Telefonat zwischen Berlin und Tokio, beide reden in ihrer Muttersprache - und hoeren das Gegenueber trotzdem fast verzoegerungsfrei in der eigenen Sprache, mit dessen vertrauter Stimme. Genau das verspricht Google mit Gemini 3.5 Live Translate, das der Konzern und das KI-Labor DeepMind am Montag vorgestellt haben. Es geht nicht mehr nur darum, Worte zu uebertragen, sondern auch, wie sie gesagt werden. Damit greift Google ein altes Versprechen der Tech-Branche neu auf: das universelle Dolmetscher-Ohr.

Die neue Funktion kommt laut den Ankuendigungen in drei Google-Produkte: in Google AI Studio, also die Entwicklerumgebung des Konzerns, in Google Translate und in das Videokonferenz-Tool Google Meet. Die Uebersetzung laufe nahezu in Echtzeit und bewahre dabei Tonfall, Sprechtempo und Tonhoehe der Originalstimme. Zur Absicherung gegen Missbrauch versieht Google die synthetisch erzeugten Stimmen mit SynthID, einem unhoerbaren digitalen Wasserzeichen, das spaeter erkennen lassen soll, dass die Tonspur KI-generiert ist. Wie viele Sprachen unterstuetzt werden und ab wann genau die Funktion fuer alle Nutzerinnen und Nutzer ausgerollt wird, geht aus dem Material nicht eindeutig hervor.

Damit setzt Google einen Punkt, an dem Konkurrenten seit Jahren arbeiten. Stimmkonservierende Live-Uebersetzung war bisher entweder langsam, klang roboterhaft oder funktionierte nur in Demo-Videos. Wenn Gemini 3.5 das wirklich fluessig in Google Meet leistet, geraet vor allem das Geschaeft mit klassischen Dolmetscher-Plattformen, Untertitel-Diensten und spezialisierten Uebersetzungs-Apps unter Druck. Profitieren koennten internationale Teams, Support-Hotlines, Schulen mit mehrsprachigen Klassen und letztlich jeder, der heute noch in gebrochenem Englisch verhandelt. Dass Google die Funktion direkt in Translate und Meet einbaut, also in Produkte mit Hunderten Millionen Nutzern, macht den Vorstoss strategisch heikel fuer kleinere Anbieter, die dieselbe Idee verfolgen.

Offen bleibt einiges. Die Ankuendigungen sprechen von 'nahezu' und 'fluessig' - wie gross die tatsaechliche Verzoegerung im Gespraech ist, also der entscheidende Faktor fuer ein natuerliches Hin und Her, geht aus dem Material nicht hervor. Auch zur Fehlerquote bei Fachbegriffen, Dialekten oder emotional aufgeladenen Aussagen steht nichts in den Quellen. Und die Stimmklon-Funktion wirft Folgefragen auf: Wer darf wessen Stimme uebersetzen lassen, was passiert, wenn jemand das Wasserzeichen umgeht, wie reagieren Datenschuetzer auf eine Funktion, die Stimmprofile in Echtzeit verarbeitet? SynthID adressiert nur einen Teil dieses Problems, naemlich die nachtraegliche Erkennung - nicht die Frage der Einwilligung im Moment des Gespraechs.

In den naechsten Tagen lohnt sich der Blick auf zwei Dinge: Erstens, ob Google konkrete Sprachpaare und Verfuegbarkeiten nachreicht, also welche Sprachen wirklich unterstuetzt werden und wer ab wann Zugriff bekommt. Zweitens, wie Wettbewerber wie Microsoft, Meta oder spezialisierte Anbieter reagieren - und ob unabhaengige Tests die Versprechen zur Stimmqualitaet und zur Verzoegerung bestaetigen. Erst dann zeigt sich, ob Live-Uebersetzung tatsaechlich Alltag wird oder vorerst eine eindrucksvolle Demo bleibt.

Tools & Hands-on

DeepSeek-V4-Pro: Neues Open-Source-Textmodell mit über 4 Mio. Downloads

DeepSeek hat DeepSeek-V4-Pro veröffentlicht – ein Modell für Textgenerierung und Konversation. Mit über 4,3 Millionen Downloads zählt es zu den meistgenutzten Modellen auf der Plattform.

PROD

Anthropic bringt Claude Fable 5 für die Öffentlichkeit

Claude Fable 5 ist Anthropics erstes Mythos-Klasse-Modell, das du jetzt nutzen kannst. In Risikobereichen wie Cybersicherheit und Biologie blockt das Modell Antworten aktiv.

KI-Agent baut 3D-Galerie in Paris – nur durch Verknüpfen zweier Tools

Ein Agent hat selbstständig eine dreidimensionale Paris-Galerie erstellt, indem er zwei Hugging Face Spaces hintereinander schaltete. Das zeigt, wie KI-Systeme Werkzeuge eigenständig kombinieren.

PROD

DeepMind treibt Robotik-Entwicklung in Europa voran

DeepMind hat einen Beitrag zur Zukunft der Robotik in Europa veröffentlicht. Nähere Details zum Inhalt oder zu konkreten Produkten sind im vorliegenden Material nicht angegeben.

PROD

Nextdoor-Entwickler nutzen OpenAI Codex mit GPT-5.5 im Alltag

Ingenieure bei Nextdoor setzen Codex mit GPT-5.5 ein, um schwer reproduzierbare Fehler zu untersuchen und plattformübergreifend zu bauen. Der Fokus verschiebt sich so stärker auf Produktergebnisse.

Gemma 4 12B: Googles neues Multimodal-Modell ohne Encoder

DeepMind stellt Gemma 4 12B vor – ein Modell, das Text und andere Eingaben verarbeitet, ohne auf einen separaten Encoder-Baustein angewiesen zu sein. Das vereinfacht die Architektur spürbar.

Google übersetzt Stimmen in Echtzeit mit Gemini 3.5

KI-4-Everyone · Daily News