Zum Inhalt springen
CASOON

Google Search Live: KI sieht, was die Kamera sieht

Echtzeit-Konversation mit dem Smartphone-Kamera-Feed – und was das für die Suche bedeutet

15 Minuten
Google Search Live: KI sieht, was die Kamera sieht
#Google #KI #Search #Gemini

Google hat mit Search Live keinen kleinen Schritt gemacht, sondern die Interaktion mit Suche grundlegend verändert. Seit dem 26. März 2026 ist das Feature weltweit verfügbar – in über 200 Ländern und allen Sprachen, in denen AI Mode unterstützt wird.

Was im Juli 2025 als Experiment in den USA und Indien startete, ist jetzt Teil der Standard-Suche. Der Weg dahin war schneller als bei den meisten Google-Produkten: Von der Ankündigung auf der I/O 2025 bis zum globalen Rollout vergingen weniger als zehn Monate.

Der Unterschied zu allem, was vorher kam: Suche ist nicht mehr primär textbasiert. Sie ist visuell und dialogisch.

Was Search Live wirklich ist (und was nicht)

Search Live ist kein „Google Lens mit Sprache”.

Es ist ein System, das drei Dinge gleichzeitig verbindet: visuelle Wahrnehmung über die Kamera, Sprachdialog als Ein- und Ausgabe und einen Kontextspeicher über die laufende Session.

Das Ergebnis ist kein Suchvorgang, sondern ein Zustand: Du bist in einem Gespräch mit einer KI, die sieht, was du siehst.

Das verändert die Interaktion fundamental:

Klassische SucheSearch Live
Query eingebenFrage stellen
Ergebnisse scannenAntwort hören
Kontext selbst haltenKontext wird gespeichert
Mehrere SuchenEine Konversation

Bedienung: Google-App öffnen, auf das Live-Icon unter der Suchleiste tippen, Kamera auf das Objekt richten, Frage stellen. Der Einstieg ist bewusst niedrigschwellig – näher an „sprechen” als an „suchen”. Das Feature funktioniert auch bei gesperrtem Bildschirm und parallel zu anderen Apps.

Der eigentliche Shift: Von „Intent” zu „Situation”

Bisher musste der Nutzer seinen Intent formulieren: „rote Pflanze mit weißen Punkten giftig”. Mit Search Live fällt dieser Schritt weg. Die KI erkennt die Situation selbst – Objekt, Umgebung und Kontext.

Das ist ein massiver Unterschied, weil weniger kognitive Last beim Nutzer entsteht, weniger Fehler bei der Formulierung passieren und mehr implizite Information im Input steckt.

Ein Detail aus den Nutzungsdaten untermauert das: Queries im AI Mode sind dreimal so lang wie klassische Suchanfragen. Nutzer formulieren keine Keywords mehr, sondern Gedanken.

Suche wird nicht mehr abstrahiert – sie bleibt konkret.

Gemini 3.1 Flash Live: Die technische Grundlage

Das Modell, das Search Live antreibt, ist nicht einfach „ein Gemini”. Es ist eine spezialisierte Architektur, die Google zusammen mit dem globalen Rollout veröffentlicht hat: Gemini 3.1 Flash Live.

Der entscheidende architektonische Unterschied zu früheren Modellen: Flash Live fasst die traditionelle Pipeline aus Transkription, Reasoning und Sprachsynthese zu einem einzigen nativen Audio-zu-Audio-Prozess zusammen. Statt den Umweg über Text zu nehmen, verarbeitet das Modell Audio direkt – was die Latenz drastisch senkt.

Wichtige Eigenschaften:

  • native Audio-zu-Audio-Verarbeitung ohne Zwischenschritt über Text
  • Kontext-Fenster von 128.000 Tokens für Eingabe, 64.000 für Ausgabe
  • parallele Verarbeitung von Video-Frames (circa ein Frame pro Sekunde als JPEG/PNG) und Audio (16-bit PCM bei 16 kHz)
  • bidirektionales Streaming über WebSocket-Verbindungen
  • Unterstützung für Barge-in: Der Nutzer kann die KI jederzeit unterbrechen
  • Unterstützung für über 90 Sprachen

Das Modell ist damit näher an einem Gesprächspartner als an einer klassischen Suchmaschine. Die Priorisierung liegt auf Reaktionszeit und Gesprächsfluss, nicht auf maximaler Tiefe einzelner Antworten.

Die Modell-Genealogie zeigt die Geschwindigkeit der Entwicklung: Search Live startete 2025 auf Gemini 1.5 Flash. Der US-AI-Mode lief auf Gemini 2.5. Der globale Rollout nutzt jetzt 3.1 Flash Live – drei Modell-Generationen in unter einem Jahr.

UX: Warum sich das „anders” anfühlt

Search Live funktioniert nicht nur anders – es fühlt sich anders an. Drei Effekte sind zentral.

Friktion fällt weg. Kein Tippen, kein Lesen, kein Vergleichen. Die Einstiegshürde sinkt, die spontane Nutzung steigt.

Geschwindigkeit ersetzt Auswahl. Früher: zehn Ergebnisse vergleichen. Jetzt: eine Antwort akzeptieren oder nachfragen. Der Entscheidungsprozess wird verkürzt.

Follow-ups werden trivial. „Und was noch?” – „Gibt’s Alternativen?” – „Ist das gesund?” Exploration statt Suche.

Die Zahlen dahinter

Die Adoption ist nicht hypothetisch. Google nennt Zahlen, und Drittanbieter-Analysen bestätigen den Trend.

AI Mode – das breitere System, in das Search Live eingebettet ist – hat sich seit dem Launch im Mai 2025 vervierfacht und erreichte Ende 2025 rund 75 Millionen täglich aktive Nutzer. Über 100 Millionen monatlich aktive Nutzer werden über die USA und Indien hinaus gezählt.

AI Overviews – die automatisch generierten KI-Zusammenfassungen in der Suche – erreichen 2 Milliarden monatliche Nutzer weltweit. Sie erscheinen mittlerweile bei rund 26 Prozent aller US-Suchanfragen, in manchen Messungen bei bis zu 48 Prozent.

Google Lens verarbeitet 20 Milliarden visuelle Suchanfragen pro Monat – ein Anstieg von 43 Prozent gegenüber 2024. Bildbasierte Suchen machen 2026 bereits 26 Prozent aller Google-Queries aus.

Das Gemini-Ökosystem insgesamt zählt 750 Millionen monatlich aktive Nutzer (Stand Q4 2025).

Diese Zahlen sind relevant, weil sie zeigen: Das ist kein Nischenprodukt. Es ist die neue Normalität.

Typische Nutzung – realistisch gedacht

Die klassischen Beispiele kennst du. Interessanter ist, wie Search Live tatsächlich genutzt wird.

Kochen wird iterativ. Nicht „Rezept suchen”, sondern: „Was kann ich daraus machen?” – „Ich habe keine Zwiebeln, Alternative?” – „Wie lange haltbar?” Ein dynamischer Prozess statt einer statischen Anleitung.

Einkaufen wird vergleichslos. Nicht mehr Preisvergleich öffnen und Reviews lesen, sondern: „Ist das gut?” – „Gibt’s was Besseres?” Die Entscheidung wird delegiert. Der Effekt ist messbar: Websites mit KI-gestützter visueller Suche berichten von 14 Prozent höherem durchschnittlichem Bestellwert. 62 Prozent der Käufer bevorzugen visuelle Suche für die Produktentdeckung.

Reparatur wird heuristisch. Die KI gibt keine Garantie, sondern Hypothesen: „Könnte daran liegen…” – „Versuch mal…” Ähnlich wie ein Gespräch mit einem erfahrenen Techniker.

Lernen wird dialogisch. Nicht mehr Begriff googeln und Wikipedia lesen, sondern: „Was ist das?” – „Warum?” – „Erklär’s einfacher.” Wissen wird im Gespräch aufgebaut. AI Overviews erscheinen bereits bei 83 Prozent aller Bildungsanfragen.

Reisen wird spontan. Über 60 Prozent der Generation Z und Millennials nutzen KI-Tools für Reise-Inspiration und Reiseplanung. Search Live addiert die visuelle Komponente: Kamera auf eine Sehenswürdigkeit richten, Geschichte erfahren, nächstes Restaurant finden – ein einziger Gesprächsfluss.

Search Live im Smart Home: unterschätzter Hebel

Mit Integration in Kamera-Streams – etwa über Nest – wird ein neuer Use Case möglich: Remote Awareness. „Ist jemand da?” – „Liegt ein Paket vor der Tür?” – „Ist das Licht noch an?”

Das wirkt banal, ist aber strategisch wichtig. Google wird damit zur Interpretationsschicht deiner Umgebung. Nicht nur Information im Web, sondern Interpretation der Realität. Das Feature ist auf den Google Home Advanced Plan beschränkt.

Der Wettbewerb: Wer baut was?

Google ist nicht allein unterwegs. Die Idee, Kamera und KI zu verbinden, verfolgen mehrere Unternehmen – mit unterschiedlichen Ansätzen.

Apple Visual Intelligence ist Googles direktester Gegenpol. Die Funktion ist tief in iOS und Apple Intelligence integriert: Objekte auf dem Bildschirm identifizieren, Text zusammenfassen, Termine aus Flyern erstellen. Apple setzt dabei konsequent auf On-Device-Verarbeitung und Datenschutz als Differenzierungsmerkmal. Laut Bloomberg arbeitet Apple an KI-Wearables – Smart Glasses, Anhänger, erweiterte AirPods – mit Visual Intelligence als Kernfunktion.

Meta geht über das Smartphone hinaus. Die Ray-Ban AI-Brillen haben sich 2024 über 4 Millionen Mal verkauft, 67 Prozent der Nutzer verwenden die KI-Funktionen täglich. Auf der Meta Connect 2025 wurde das Nachfolgemodell mit integriertem Display und Neural-Armband angekündigt. Metas Ansatz ist radikaler: Die Kamera ist immer dabei, die KI immer erreichbar – ohne Smartphone aus der Tasche zu holen.

Samsung setzt auf Googles „Circle to Search”: einen Kreis um ein beliebiges Objekt auf dem Bildschirm ziehen und sofort Ergebnisse erhalten. Die Stärke liegt in der Allgegenwart – die Funktion arbeitet in jeder App, nicht nur in der Google-Suche.

Microsoft baut Copilot Vision in den Browser ein: Webseiten gemeinsam mit der KI betrachten und besprechen. Der Ansatz ist weniger mobil, aber strategisch auf die Desktop-Arbeitswelt ausgerichtet.

Die Unterschiede in den Ansätzen sind aufschlussreich: Google optimiert auf Reichweite und Ökosystem-Integration. Apple auf Datenschutz und Kontrolle. Meta auf Hardware und Wearables. Microsoft auf Produktivität. Jeder adressiert ein anderes Segment – aber alle bauen an der gleichen These: Die Kamera wird zum primären Input.

Was sich für Suche wirklich ändert

Viele sagen: „Keine Links mehr.” Das greift zu kurz. Die eigentlichen Veränderungen sind struktureller.

Ranking verschwindet aus der UI. Ranking existiert weiterhin – aber unsichtbar. Die Entscheidung passiert vor der Ausgabe.

Aggregation ersetzt Auswahl. Früher aggregierte der Nutzer Informationen aus mehreren Quellen. Jetzt aggregiert Google. Das ist eine Machtverschiebung Richtung Plattform.

Antwort wird zum Produkt. Nicht mehr eine Liste von Möglichkeiten, sondern ein konkreter Vorschlag. Höheres Vertrauen nötig, höheres Risiko bei Fehlern.

Klicks brechen ein – messbar. Die Daten sind deutlich: Wenn AI Overviews erscheinen, sinkt die organische Klickrate um 34 bis 61 Prozent. Für Seiten, die vorher auf Position 1 rankten, beträgt der Rückgang bis zu 79 Prozent. Im AI Mode enden 93 Prozent aller Anfragen ohne einen einzigen ausgehenden Klick.

Zero-Click-Suchen sind von 56 Prozent (Mai 2024) auf 69 Prozent (Mai 2025) gestiegen – Tendenz weiter steigend. Publisher berichten von Trafficverlusten zwischen 20 und 90 Prozent. Große Nachrichtenportale verzeichnen 26 bis 55 Prozent weniger Besucher im Jahresvergleich.

Es gibt einen Gegeneffekt: Marken, die in AI Overviews zitiert werden, erhalten 35 Prozent mehr organische Klicks und 91 Prozent mehr bezahlte Klicks. Aber zitiert werden ist die neue Hürde.

SEO: Was konkret anders wird

Das ist der Teil, der oft zu abstrakt bleibt. Deshalb konkret.

Was steigt

Antwortfähigkeit. Klare, direkte Aussagen. Keine unnötigen Einleitungen. Content, der eine Frage in zwei Sätzen beantwortet, wird bevorzugt.

Struktur. Saubere semantische Gliederung. Entitäten und Beziehungen klar definiert. Schema-Markup wird wichtiger als je zuvor.

Konsistenz. Gleiche Aussagen über mehrere Quellen hinweg. Widersprüchliche Signale innerhalb einer Domain sind ein Nachteil.

Autorität. Nachvollziehbare Expertise. Eindeutige Zuordnung zu Autor und Organisation. E-E-A-T wird zur harten Anforderung.

Was fällt

Klassische Rankings als KPI. Sie existieren noch, sind aber weniger sichtbar. Ein Top-Ranking garantiert nicht mehr, Teil der KI-Antwort zu sein.

Longtail-Optimierung im alten Stil. Die KI braucht keine exakt formulierten Queries mehr. Sie versteht Intentionen, nicht Keywords.

Content als Traffic-Generator. Traffic wird volatiler. Die Frage ist nicht mehr „Wie viele Besucher?”, sondern „Werde ich überhaupt Teil der Antwort?”

Der eigentliche SEO-Shift

Früher: „Wie komme ich auf Position 1?” Jetzt: „Werde ich überhaupt Teil der Antwort?”

Das ist ein binäres System: drin heißt Wert, nicht drin heißt unsichtbar. Und die Branchen, in denen AI Overviews am stärksten verbreitet sind, zeigen, wo der Shift bereits stattfindet: Gesundheit (88 Prozent aller Anfragen), Bildung (83 Prozent), B2B-Technologie (82 Prozent), Gastronomie (78 Prozent).

Publisher wehren sich

Der Widerstand wächst – und er ist inzwischen juristisch.

Im September 2025 hat Penske Media (Rolling Stone, Billboard, Variety, Hollywood Reporter) als erster großer US-Publisher Google wegen AI Overviews verklagt. Die Vorwürfe: Urheberrechtsverletzung, unlauterer Wettbewerb, Kartellverstoß. In Großbritannien haben die Independent Publishers Alliance, Foxglove und Movement for the Open Web Beschwerden bei der CMA und der Europäischen Kommission eingereicht.

Publisher beschreiben einen „Krokodil-Effekt”: Die Schere zwischen Suchimpressionen und tatsächlichen Klicks öffnet sich immer weiter. Die Inhalte werden genutzt, aber die Quellen nicht besucht.

Die zentrale Frage hinter diesen Klagen ist grundsätzlicher als Urheberrecht: Wer profitiert von Inhalten, die von Menschen erstellt, aber von KI aggregiert werden? Google erwirtschaftete im vierten Quartal 2025 einen Suchumsatz von 63 Milliarden Dollar – ein Plus von 17 Prozent gegenüber dem Vorjahr. Die Content-Ersteller, deren Arbeit in den Antworten steckt, sehen davon wenig.

Grenzen – technisch, regulatorisch und gesellschaftlich

Search Live ist stark, aber nicht robust in allen Situationen.

Technisch: Visuelle Fehlinterpretation bei ähnlichen Objekten, Probleme bei schlechten Lichtverhältnissen, Kontextverlust bei schnellen Szenenwechseln.

Modellseitig: Halluzinationen bei unsicheren Inputs, Übervereinfachung komplexer Themen, fehlende Quellen-Transparenz.

Datenschutz: Google beschreibt die Verarbeitung als Hybrid-Ansatz: Edge-TPU-Chips führen die initiale Frame-Filterung auf dem Gerät durch, komplexe Objekterkennung findet in der Cloud statt. Was nicht transparent ist: wie lange Kamera-Daten gespeichert werden, ob Video-Frames für Modell-Retraining genutzt werden, ob menschliche Reviewer Zugang zu fehlklassifizierten Frames erhalten. Google speichert Prompts und Kontextinformationen 30 Tage lang – auch bei deaktivierter Aktivitäts-Speicherung.

Regulatorisch: Ab August 2026 greift der EU AI Act als zweite Regulierungsschicht neben der DSGVO. Die Europäische Kommission hat im Januar 2026 bereits Verfahren eingeleitet, um Google bei der Einhaltung des Digital Markets Act im Bereich KI-Dienste und Suchdaten-Sharing zu begleiten. Die Reform der DSGVO könnte die Definition personenbezogener Daten erweitern – oder, wie Datenschützer warnen, aufweichen.

Gesellschaftlich: Permanenter Kamerazugriff als Normalzustand, Abhängigkeit von einer einzigen Interpretationsinstanz, weniger direkte Interaktion mit Originalquellen. Datenschutz-Forscher warnen, dass der konversationelle Zugang zu Live-Kamera-Feeds „permanente Beobachtung normalisiert”.

Google Lens vs. Search Live

Der Unterschied ist nicht Feature, sondern Paradigma:

Google LensSearch Live
erkennenverstehen
einmalige Aktionlaufender Dialog
Ergebnisse anzeigenAntwort geben
Nutzer steuertKI führt

Die Zahlen zeigen, dass beide Produkte koexistieren: Lens verarbeitet 20 Milliarden visuelle Suchen pro Monat. Search Live adressiert die Fälle, in denen eine einzelne Erkennung nicht ausreicht – wenn Kontext, Follow-up und Interpretation gefragt sind.

Strategische Einordnung

Search Live ist kein isoliertes Feature. Es ist Teil einer größeren Bewegung: weg von Text-Interfaces, hin zu multimodalen Systemen mit kontinuierlichem Kontext.

Das Ziel ist klar: Google wird nicht mehr nur Einstiegspunkt ins Web, sondern selbst die primäre Antwortschicht. Der Markt für visuelle Suche soll bis 2028 ein Volumen von knapp 33 Milliarden Dollar erreichen. Googles Investitionen spiegeln das wider: Die CapEx-Guidance für 2026 liegt bei 175 bis 185 Milliarden Dollar.

Was als Nächstes kommt

Search Live in seiner heutigen Form ist ein Anfang. Die Richtung, die es eröffnet, reicht deutlich weiter.

Neue Produktkategorien

Visueller Commerce ohne Umweg. Wenn die KI ein Produkt erkennt, Preis und Bewertungen kennt und eine Kaufoption anbieten kann, wird der gesamte Mittelbau aus Preisvergleich, Affiliate-Seite und Produkttest überflüssig. Nicht sofort, aber der Weg ist sichtbar. Search Live wird zur Schnittstelle zwischen Sehen und Kaufen – ohne Browser, ohne Shop-Besuch, ohne Recherche-Phase. Google hat im Februar 2026 bereits ein Shopping-Ad-Format speziell für den AI Mode eingeführt.

Echtzeit-Beratung als Massenprodukt. Was heute Fachberater, Kundenservice oder Tutorials leisten, kann ein System übernehmen, das sieht und spricht. Nicht auf dem Niveau eines Spezialisten, aber ausreichend für 80 Prozent der Alltagsfragen. Erste Szenarien sind schon erkennbar: Pflanzenbestimmung, Fehlercodes am Gerät, Montageanleitungen. Der nächste Schritt sind medizinische Ersteinschätzungen, rechtliche Orientierung und technische Diagnose – jeweils mit der Kamera als Input. In der Radiologie senken KI-basierte Bildanalysetools die Diagnosezeit bereits um 20 Prozent.

Kontextuelle Navigation. Search Live kann nicht nur Objekte erkennen, sondern Orte, Schilder und Räume interpretieren. Daraus entsteht eine neue Form der Navigation: nicht kartenbasiert, sondern situationsbasiert. „Wo bin ich?” wird ersetzt durch „Was sehe ich – und was bedeutet es?” Indoor-Navigation, Museumsführungen, Stadttouren – alles ohne App, ohne QR-Code, ohne Vorbereitung. Google hat auf der I/O 2025 Android-XR-Brillen als zukünftige Search-Live-Hardware angekündigt.

Passives Monitoring. Mit der Smart-Home-Integration zeichnet sich ein Modell ab, in dem Kameras nicht nur aufzeichnen, sondern interpretieren. Nicht „Aufnahme speichern”, sondern „Veränderung erkennen und melden”. Wasserfleck im Keller, offenes Fenster bei Regen, unbekannte Person im Garten. Die KI wird zur permanenten Aufmerksamkeitsschicht.

Was infrage gestellt wird

Produktbewertungs-Portale. Wenn die KI auf eine Kamerafrage direkt antwortet, ob ein Produkt empfehlenswert ist, verlieren Testberichte und Bewertungsplattformen ihre Gatekeeper-Funktion. Der Nutzer fragt nicht mehr „Wo finde ich einen Test?”, sondern „Ist das gut?” Die Antwort kommt aus aggregierten Quellen – welche genau, bleibt unsichtbar.

Klassische Tutorials und Anleitungen. Video-Tutorials, Schritt-für-Schritt-Guides und How-to-Artikel sind auf ein Problem optimiert, das Search Live anders löst: den Transfer von Wissen in eine konkrete Situation. Wenn die KI das Objekt sieht und den Kontext kennt, braucht sie keine generische Anleitung mehr. Sie gibt die spezifische Antwort direkt.

Übersetzungs-Apps. Search Live übersetzt nicht nur Text, sondern interpretiert ihn im visuellen Kontext. Eine Speisekarte wird nicht Wort für Wort übersetzt, sondern erklärt: was das Gericht ist, wie es schmeckt, ob es Allergene enthält. Eigenständige Übersetzungs-Apps verlieren ihren Vorsprung gegenüber einer KI, die sieht und versteht.

Bildungsplattformen im Selbstlernbereich. Wenn „Was ist das?” und drei Folgefragen ausreichen, um ein Konzept zu verstehen, sinkt der Anreiz, eine Lernplattform zu öffnen. Nicht für strukturierte Kurse, aber für den schnellen Wissensaufbau im Alltag. Die Grenze zwischen „googeln” und „lernen” verschwimmt.

SEO als eigenständige Disziplin. Nicht SEO selbst wird obsolet, aber die Vorstellung, dass Sichtbarkeit primär über technische Optimierung entsteht. Wenn die KI entscheidet, welche Quelle in die Antwort fließt, zählen Substanz, Konsistenz und Autorität mehr als Keyword-Strategie und Backlink-Profil. SEO wird zu einem Teil von Content-Strategie – nicht umgekehrt.

App-Ökosysteme für Einzelaufgaben. Pflanzen-Identifier, Barcode-Scanner, Weinlabel-Erkennung, Vogelstimmen-Apps – jede dieser Anwendungen löst genau ein Problem, das Search Live als Nebeneffekt mitlöst. Nicht besser in jedem Fall, aber bequemer. Die Schwelle, eine eigene App zu installieren, steigt, wenn die Kamera-KI den gleichen Job erledigt.

Die größere Verschiebung

Hinter all dem steht eine Veränderung, die über Google hinausgeht: Die Schnittstelle zwischen Mensch und Information wird von Text auf Wahrnehmung umgestellt. Nicht als Vision, sondern als laufender Prozess.

Das Web wurde gebaut für Menschen, die lesen und klicken. Search Live ist gebaut für Menschen, die zeigen und fragen. Diese beiden Modelle sind nicht kompatibel – und das Web in seiner heutigen Form ist nicht darauf vorbereitet, als unsichtbare Zulieferquelle für KI-Antworten zu funktionieren.

Die Frage ist nicht, ob sich das durchsetzt. Die Frage ist, wie schnell – und wer die Regeln schreibt für das, was danach kommt.