Künstliche Intelligenz wird zunehmend für Empfehlungen zu Produkten, Marken und Dienstleistungen eingesetzt. Systeme wie große Sprachmodelle oder KI-gestützte Suchfunktionen analysieren Texteingaben und generieren darauf basierend Vorschläge. Aktuelle Untersuchungen zeigen jedoch, dass diese Empfehlungen bei wiederholten Anfragen mit identischem Prompt nur selten stabil bleiben. In Tests mit verschiedenen Plattformen lag die Wahrscheinlichkeit, bei gleichen Eingaben exakt dieselbe Markenliste zu erhalten, bei unter einem Prozent.
Die zugrunde liegenden Modelle arbeiten probabilistisch. Statt feste, deterministische Antworten aus einer Datenbank abzurufen, berechnen sie Wahrscheinlichkeiten für das nächste Wort oder die nächste Textsequenz. Schon geringe Zufallsschwankungen oder Änderungen im Kontext können dazu führen, dass andere Produkte, eine andere Reihenfolge oder eine andere Anzahl an Empfehlungen ausgegeben wird. Selbst wenn Zufallsschwankungen reduziert werden, bleibt aufgrund der Komplexität der Modelle und der Vielzahl möglicher, gleich plausibler Antworten eine gewisse Varianz bestehen.
In umfangreichen Tests mit mehreren tausend Prompts zu Themen wie Küchengeräten, Unterhaltungselektronik, Gesundheitsdienstleistern, Beratungsdiensten oder Literatur zeigte sich, dass nahezu jede Antwort sich in mindestens einem Merkmal unterschied: in der Auswahl der Marken, der Reihenfolge der Nennungen oder der Anzahl der aufgeführten Optionen. Manche Systeme lieferten zwar etwas häufiger dieselben Markennamen, variierten aber stärker in der Sortierung oder Darstellung. Keine der untersuchten Plattformen erfüllte Kriterien, die üblicherweise für eine zuverlässige Reproduzierbarkeit in der Datenauswertung angesetzt werden.
Hinzu kommt, dass echte Nutzerinnen und Nutzer Prompts sehr unterschiedlich formulieren. Untersuchungen zu freiformulierten Anfragen ergaben, dass Texteingaben zu demselben Thema – etwa Produktempfehlungen für bestimmte Nutzungsszenarien – kaum voneinander absehbar waren. Variablen wie Tonfall, Detailgrad, zusätzliche Bedingungen (Preisrahmen, Qualitätsanforderungen, Herkunftsländer) oder sprachliche Nuancen führen dazu, dass die KI unterschiedliche Schwerpunkte setzt. Da die Modelle auch Kontext und implizite Annahmen interpretieren, kann schon eine kleine Formulierungsänderung andere Informationsquellen oder Relevanzbewertungen aktivieren.
Für Anwendungen im Marketing, in der Produktsuche und bei Markenanalysen ergeben sich daraus wichtige Konsequenzen. KI-Empfehlungen bilden keine statische Rangliste ab, sondern eine Momentaufnahme, die durch Modellversion, Parameter, Trainingstand, Systemupdates und die konkrete Promptgestaltung beeinflusst wird. Sichtbarkeitsanalysen, die auf einzelnen KI-Antworten basieren, können deshalb stark schwanken und liefern kein robustes Bild. Um Trends belastbar zu bewerten, sind wiederholte Messungen, systematische Protokollierung der Prompts sowie statistische Auswertungsverfahren erforderlich, die Varianz berücksichtigen.
Auch aus technischer Perspektive ist die beobachtete Inkonsistenz nachvollziehbar. Große Sprachmodelle werden in regelmäßigen Abständen aktualisiert, erhalten neue Trainingsdaten oder werden mit Sicherheitsschutzmechanismen und inhaltsbezogenen Filtern ergänzt. Diese Eingriffe verändern die internen Gewichte sowie die Art und Weise, wie Informationen gewichtet und kombiniert werden. Zusätzlich greifen viele Systeme auf externe Quellen wie Webindexe, Wissensdatenbanken oder Produktkataloge zurück, die ihrerseits dynamisch sind. Änderungen im Index, entfernte Seiten, neue Produkte oder geänderte Metadaten können unmittelbar Auswirkungen auf die generierten Vorschläge haben.
Für Verbraucherinnen und Verbraucher bedeutet dies, dass KI-Empfehlungen als hilfreiche Orientierung, nicht aber als reproduzierbares Ranking verstanden werden sollten. Wer mehrere Abfragen stellt oder Formulierungen variiert, wird oft ein breiteres Spektrum an Marken und Produkten sehen. Für Unternehmen ist es wichtig, diese Dynamik bei der Erfolgsmessung von KI-Sichtbarkeit zu berücksichtigen und nicht einzelne Antwortbeispiele zu verallgemeinern. Langfristig könnten standardisierte Evaluationsmethoden, offen gelegte Parameterbereiche und klar definierte Testprompts dazu beitragen, die Verlässlichkeit von Analysen im Umfeld KI-basierter Empfehlungen besser einzuordnen.
Benötigen Sie Hilfe bei Ihrem GEO- oder SEO-Projekt? Schreiben Sie uns gerne unter support@mertes-leven.de an.