Was sind Vektoreinbettungen und ihre Bedeutung für SEO
Vector Embeddings sind die Grundlage der semantischen Suche. Damit sind auch dafür verantwortlich, ob deine Seiten überhaupt in den Suchergebnissen angezeigt und als Quellen in den KI-Übersichten herangezogen werden. In diesem Blog-Beitrag erfährst du, was Vektoreinbettungen sind und worauf du in Zukunft in deinen SEO-Texten achten solltest, um auch in Chatbots und in KI-Übersichten als Quelle angezeigt zu werden.
Inhaltsverzeichnis
- Warum Vector-Embeddings verwendet werden
- Vektoreinbettungen und ihre Auswirkung auf SEO
- Praktische Anwendungsfälle
Warum Vector-Embeddings verwendet werden
Klassische Indexierungs- und Ranking-Algorithmen haben ein Problem: Sie können die inhaltliche Bedeutung von Wörtern oder Phrasen nicht berücksichtigen. So werden etwa die beiden Phrasen “photo spots” und “photo locations” für solche “Bag of Words” Ranking Algorithmen als zwei unterschiedliche Keywords behandelt. Inhaltlich meinen sie allerdings dasselbe. Nämlich Orte, um zu fotografieren.
Beispiele für solche klassischen Ranking-Algorithmen sind TF-IDF oder BM25.
Durch Vektoreinbettungen hingegen verstehen Suchmaschinen und KI-Systeme die inhaltliche Bedeutung (Semantik) von Texten und Suchanfragen. Daher sind Vektoreinbettungen eine der Säulen der KI.
Suchmaschinen wie Google nutzen KI nicht erst, seitdem es ChatGPT gibt. Einen Überblick darüber findest du auf der Google Seite über “Our AI Journey”. Google hat seit 2015 mehrere KI-Ranking-Systeme im Einsatz. Dadurch können sie sowohl die inhaltliche Bedeutung einer Seite als auch einer Suchanfrage besser verstehen und relevantere Suchergebnisse liefern.
Eine Vektor-Einbettung ist nun eine mathematische Darstellung von Inhalten, wobei der Begriff “Inhalt“ sehr breit gefasst ist. Damit kann eine ganze Website, eine einzelne Seite einer Website, einzelne Passagen einer Seite oder sogar ein Bild gemeint sein.
Das grundlegende Verständnis von Vektoreinbettungen und seiner Auswirkungen ist essenziell für modernes SEO.
Um die Funktionsweise von Vektoreinbettungen zu verdeutlichen, habe ich in diesem Blog-Beitrag ein einfaches Beispiel gewählt:
Nehmen wir an, es gibt eine Seite über “Fotospots in der Geisterstadt Rhyolite in Nevada”. Im klassischen SEO wäre die Seite auf “photo spots rhyolite” optimiert.
Jemand gibt in einer KI oder einer Suchmaschine die Suchanfrage “photo locations rhyolite” sein.
Eine semantische Suche, die Vektoreinbettungen verwendet, wird die auf “photo spots” optimierte Seite auch für die Suchanfrage nach “photo locations” sehr gut ranken, da sie erkennt, dass die beiden Phrasen dieselbe Bedeutung haben. Sie wird die Seite außerdem für Suchanfragen wie “what to photograph in Rhyolite” oder Variationen davon ausgezeichnet ranken.
Vektoreinbettungen und ihre Auswirkung auf SEO
Sehen wir uns im ersten Schritt ein bewusst vereinfachtes Beispiel für Vektoreinbettungen an. Dabei geht es mir nicht um eine wissenschaftliche Abhandlung, sondern um das Verständnis.
Vektoreinbettungen für die Indexierung
Einbettungen werden bereits bei der Indexierung einer Seite verwendet. Der Indexierungsalgorithmus erkennt auf der Seite über die “Fotospots in Rhyolite” verschiedene Formulierungen. Durch maschinelles Lernen und Kombination verschiedener Techniken weiß der Indexierungsalgorithmus, dass Formulierungen wie etwa “photo spots”, “photo locations” oder “photogenic spot” zu den beiden Themen “Reisen” und “Fotografie” gehören.
Wie fokussiert der Inhalt der Seite für die beiden Themen “Reisen” und “Fotografie” ist, wird auf einer Skala zwischen -1 und +1 berechnet. Je näher der Wert bei -1 liegt, desto weniger geht es etwa im Text um “Reisen” und “Fotografie”. Je näher der Wert bei +1 liegt, desto fokussierter ist der Text auf diese beiden Themen.
Unsere Beispielseite ist sehr fokussiert. Sie liegt daher sowohl auf der “Reise” als auch der “Fotografie” Skala fast bei 1. Sie bekommt daher im sogenannten “Vektorraum” (der für alle Seiten und Suchanfragen gleich ist) den Vektor “(0.90, 0.95)”.
Ich habe das grafisch dargestellt.
Vektoreinbettung für eine bestimmte Seite
Vektoreinbettungen haben in der Praxis mehr als nur die im Beispiel erwähnten 2 Nachkommastellen. Außerdem werden bei der Indexierung der Seite Vektoreinbettungen in der Praxis nicht nur für 2 Dimensionen (2 Achsen) wie im Beispiel berechnet, sondern bis zu 1024! Und diese Zahl steigt, sobald die KI-Systeme leistungsfähiger werden.
In diesem vereinfachten Beispiel berechne ich die Vektoreinbettung nur für die gesamte Seite. In der Realität werden die Vektoreinbettungen bei der Indexierung nicht nur für die gesamte Seite (als thematische Klassifikation) berechnet, sondern auch für Passagen, jeden einzelnen Satz und jedes einzelne Wort.
Aus den Einbettungen der Wörter eines Satzes wird dann die Einbettung für den Satz berechnet. Aus den Einbettungen der Sätze dann die Einbettungen einer Passage und daraus wiederum die Einbettungen für ein Dokument.
Einfachheitshalber bleiben wir im Beispiel aber bei Vektoren auf der Seitenebene.
Vektoreinbettungen für das Ranking
Gibt nun jemand in der Suche die Suchanfrage “photo locations rhyolite” ein, wird auch daraus eine Vektoreinbettung erzeugt. Der Algorithmus erkennt in der Suchanfrage Formulierungen rund um das Thema “Fotografie” und “Reisen” und erzeugt damit eine Vektor-Einbettung für die Suchanfrage mit dem Wert “(0.99, 0.98)”.
Die Werte des Vektors für die Suchanfrage sind nun etwas höher als die Werte für die Seite. Auch wenn die Seite perfekt auf den User-Intent fokussiert ist, enthält sie typischerweise inhaltliche Nuancen, die in der Suchanfrage fehlen. Deshalb ist der Vektor der Seite geringfügig anders als der für die Suchanfrage.
Ergänzen wir nun das Diagramm aus dem letzten Kapitel um den Vektor für die Suchanfrage, sehen die Vektoreinbettungen für die Seite (durchgehende Linie) und die Suchanfrage (strichlierte Linie) so aus.
Vergleich Vektoreinbettung für Seite und Suchanfrage
Mit mathematischen Methoden bzw. Algorithmen kann eine Suchmaschine nun für eine Suchanfrage die Seiten aus ihrer Vektor-Datenbank bzw. dem Vektor-Index ermitteln, die einen ähnlichen Vektor wie die Suchanfrage haben.
Dadurch kann ein Chatbot oder eine Suchmaschine eine Seite als thematisch relevant für eine Suchanfrage einstufen und somit für das Ranking in Betracht ziehen. Dafür werden allerdings noch weitere Signale berücksichtigt, die wir einfachheitshalber ignorieren.
Irrelevante Inhalte verzerren die Vektoreinbettungen
Würde ich nun meinen Text über “Fotospots in Rhyolite” mit thematisch irrelevanten Inhalten (a.k.a “SEO-Blah”) ergänzen, verzerrt das die erzeugte Vektoreinbettung.
Nehmen wir einmal an, ich erzähle in meinem Text auch viel über die Geschichte der Geisterstadt, etwa um eine bestimmte Wortanzahl zu erreichen. Dadurch könnte die thematische Vektor-Einbettung für meinen Text wie im nächsten Screenshot aussehen.
Vergleich Vektoreinbettung Suchanfrage und Seite mit irrelevantem Text
Der Indexierungsalgorithmus erkennt nun vorwiegend Inhalte über die Geschichte der Geisterstadt, weswegen die Vektor-Einbettung nun links auf der Achse “Geschichte” liegt statt rechts auf “Reisen”. Natürlich erkennt der Algorithmus auch einige Inhalte zu “Foto Spots”. Aber das irrelevante “SEO-Blah” über die Geschichte in der Seite für “Fotospots” sorgt für eine Vektor-Einbettung, die nicht mehr ähnlich zur Vektor-Einbettung der Suchanfrage ist.
Das sorgt dafür, dass die Seite für die Suchanfrage “photo locations rhyolite” nicht mehr als relevant eingestuft und nicht mehr berücksichtigt wird.
Wie Vektoreinbettungen von Suchmaschinen und KI genutzt werden können
Vektoreinbettungen sind nicht neu. Basierend auf den Erkenntnissen von “Word2Vec” (2013) verwendet Google laut den öffentlich verfügbaren Informationen Vector-Embeddings bereits seit 2015 in Ranking-Systemen wie “Rankbrain” und seit 2018 für das “Neural Matching” und “BERT”.
Thematische Autorität
Den Leak im Jahr 2024 hat Google verständlicherweise nicht öffentlich kommentiert. Darin finden sich aber Hinweise, dass Google Vektoreinbettungen auf breiter Ebene nutzen könnte.
- Die “siteEmbeddings” deuten darauf hin, dass Google für eine Domain eine oder mehrere Embeddings (Themen) ermittelt und speichert. Das kann Google z.B. verwenden, um Seiten zu ermitteln, die für das Ranking in Betracht gezogen werden sollen.
- Der “siteFocusScore” deutet darauf hin, dass Google die inhaltliche Tiefe bzw. den inhaltlichen Fokus einer Seite erfasst und ggfs. beim Ranking berücksichtigen kann
- Der “siteRadius” könnte das Gegenstück zum “siteFocusScore” sein. Damit wird die inhaltliche Breite einer Website erfasst. Das muss aber nicht unbedingt etwas Negatives sein. Klassische Nachrichten-Seiten haben typischerweise einen breiten siteRadius, aber einen geringen “siteFocusScore”. Ein Reisefotoblog hingegen hätte einen hohen “siteFocusScore”, aber einen geringen “siteRadius”.
Das kann Google etwa als Teil zur Berücksichtigung von E-E-A-T verwenden.
Ermitteln von Ranking-Kandidaten
Seit den Google-Anhörungen im Department of Justice der USA wissen wir, dass das Ranking von Seiten bei Google ein mehrstufiger Prozess ist. Im ersten Schritt werden ein paar tausend Seiten (“Ranking Kandidaten”) ermittelt. Diese Seiten bilden den sogenannten “Green Ring”.
Google könnte nun Vektoreinbettungen auf der Seitenebene (für eine thematische “Klassifikation”) nutzen, um thematisch relevante Ranking-Kandidaten zu ermitteln. Auf diese Seiten werden dann weitere Ranking-Algorithmen angewandt, woraus der “Blue Ring” entsteht. Das sind die Seiten, die auch in den Suchergebnissen angezeigt werden.
Ist also deine Seite (oder auch die ganze Website) für eine Suchanfrage thematisch nicht ausreichend fokussiert, wird sie für den “Green Ring” nicht berücksichtigt und scheint damit nicht in den Suchergebnissen auf.
Personalisierung
Mit Vektoreinbettungen lassen sich Themen effektiv und effizient speichern. Das könnte eine Suchmaschine oder auch eine KI zur Personalisierung nutzen, um damit für Nutzer oder Nutzerinnen thematische relevante Empfehlungen in den Suchergebnissen anzuzeigen.
Bei der Beobachtung von KI-Übersichten in Google ist mir aufgefallen, dass diese stärker als die Suchergebnisse personalisiert zu sein scheinen. Das spricht dafür, dass Google Vektoreinbettungen bereits für KI-Übersichten nutzt.
Passage Level Retrieval bzw. Ranking
Da Vektoreinbettungen nicht nur für ganze Seiten, sondern auch Absätze (“Passagen”) erzeugt werden, kann eine Suchmaschine aufgrund der Einbettungen für eine Passage eine Seite möglicherweise nur aufgrund einer Passage für KI-Übersichten verwenden.
Ich habe das auf einigen meiner Seiten schon beobachtet. Die Seiten werden in den KI-Übersichten für spezifische Fragen als Quelle angezeigt. Meine Hypothese dazu ist, dass dafür allerdings nur Seiten herangezogen werden, die schon für das allgemeine Thema als relevant eingestuft werden.
Die Existenz von “Passage Ranking” beschreibt Google natürlich sehr abstrakt auf der englischsprachigen Seite zum Passage Ranking.
Erkennung von Duplicate Content
Sind die Vektoreinbettungen von 2 oder mehr Seiten und z.B. ihren Passagen nahezu identisch, kann eine Suchmaschine oder eine KI das als Hinweis auf “Duplicate Content” werten. Das kann wiederum dazu führen, dass Seiten von Domains mit niedrigem “siteFocusScore” nicht für den “Green Ring” berücksichtigt werden. Eine zweite Konsequenz ist, dass thematisch identische Seiten einer Domain gar nicht mehr indexiert werden; etwa Produktlistenseiten, die lediglich eine andere Sortierung haben.
Diesen Effekt haben SEOs Anfang 2025 beobachtet. Wobei es natürlich keine Aussagen von Google gibt, ob die von mir erwähnte Erkennung von Duplicate Content dafür verantwortlich ist.
Beurteilung der Content-Qualität
Wie ich oben erwähnt habe, werden Vektoreinbettungen nicht nur für Seiten, sondern auch für Absätze (Passagen) erzeugt. Das kann eine Suchmaschine für eine Beurteilung der Content-Qualität nutzen. Fehlen etwa in einem Text über die “Fotospots in Rhyolite” Passagen für wichtige Sehenswürdigkeiten (=Entitäten), beurteilt eine Suchmaschine meine Seite also nicht relevant für eine Suchanfrage.
Wichtig ist dafür aber nicht, möglichst viele Inhalte in eine Seite “zu stopfen”, sondern die Richtigen. Siehe dazu mein obiges Beispiel über die Geschichte in einem Artikel über die Fotospots in Rhyolite. Dafür ist ein ausführlicher Text über die Geschichte irrelevant.
Praktische Anwendungsfälle
Vektoreinbettungen für den Knowledge-Graph
Gehen wir noch einmal zum obigen Beispiel. Dort habe ich die Vektoreinbettungen für “Reise” und “Fotografie” demonstriert. Nun gibt es aber auch noch den Knowledge-Graph, in dem tausende Entitäten gespeichert sind. Das sind “Dinge”, deren Bedeutung Google kennt und als vertrauenswürdig einstuft.
Nun hat die Entität “Rhyolite, Nevada” des Knowledge-Graph ebenfalls eine Vektoreinbettung im Vektorraum. Mein Text über die Fotospots erzeugt neben der Einbettung für “Reise” und “Fotografie” auch eine für den Ort “Rhyolite, Nevada”, um den es in meinem Text geht. Nachdem dieser Vektor nahe am vertrauenswürdigen Vektor der Entität des Knowledge-Graphs liegt, kann das meiner Seite für die entsprechende Suchanfrage einen Rankingboost verschaffen.
Um das zu erreichen, stelle ich sicher, dass ich in meinem Text nicht nur die Entität “Rhyolite, Nevada” verwende, sondern auch damit verknüpfte Entitäten wie etwa “Ghost Town” oder die korrekten Entitäten für die Sehenswürdigkeiten. Damit kommuniziere ich einer Suchmaschine oder einem KI-System ganz unmissverständlich, dass es um “Fotografie”, “Reise” und “Rhyolite” geht. Das steigert meine Chancen für eine top Platzierung und eine Erwähnung in den KI-Zusammenfassungen drastisch.
Hier siehst du, wie ChatGPT drei meiner Bilder und meine Seite als Quelle gleich beim ersten Suchergebnis anzeigt. Auch in den KI-Übersichten in Google wird die Seite 2x gefeatured.
Referenzen für Artikel in ChatGPT
Referenzen Artikel in Google AIO
Content-Cluster prüfen
Beim Erstellen deiner SEO-Strategie hast du im Idealfall Content-Cluster überlegt. Das sind thematisch verwandte Seiten. Die Seite über die “Foto Spots in Rhyolite” ist auf meiner Website im Cluster “Photo Spots”.
Die Cluster deiner Website kannst du mit einem Tool wie dem Screaming Frog überprüfen und dir die Vektoreinbettungen auf der Seitenebene berechnen lassen. Dazu benötigst du einen API-Key des Google AI Studio oder von ChatGPT und die entsprechende Prompt-Konfiguration in den Crawling-Einstellungen. Schließlich muss in den Crawler-Einstellungen unter “Inhalt” noch die “Einbettungen” aktiviert werden. Damit erstellt der Screaming Frog beim Crawling einer Seite eine Vektoreinbettung auf Dokumentenebene
Das Ergebnis sieht dann in etwa so aus:
Content-Cluster basierend auf Vektoreinbettungen im Screaming Frog
Jeder Punkt in diesem Diagramm entspricht einer URL und jede Farbe entspricht einem Thema. Im Idealfall sind die Punkte derselben Farbe gehäuft in einem Bereich geclustert. Das spricht für eine gute Umsetzung von Themenclustern.
Allerdings gibt es im Diagramm z.B. zwei rote Punkte, die sich nicht im Cluster mit den anderen roten Punkten befinden. Das ist ein Hinweis darauf, dass die Vektoreinbettungen dieser beiden Seiten nicht den anderen entsprechen. So wie ich es im Beispiel über die Geschichte der Geisterstadt weiter oben gezeigt habe. Diese beiden URLs muss ich mir genauer ansehen und sie inhaltlich überarbeiten.
Bilderkennung
Weiter oben habe ich erwähnt, dass Vektoreinbettungen nicht nur für Text, sondern auch für Medien wie Bilder erzeugt werden. Das kann man bis zu einem gewissen Grad sogar selbst testen.
Ich habe dazu ein Bild eines Foto Spots in Rhyolite (ohne Metadaten) im Vision AI Test bei Google hochgeladen. Das Ergebnis siehst du hier:
Themen für Vektorembeddings für Bilder
Markiert habe ich die “Themen”, die Google im Bild erkannt hat. Diese Themen kann Google nun verwenden, um daraus Vektoreinbettungen für das Bild zu generieren.
Für SEO bedeutet das, für entsprechende Texte auch inhaltlich passende Bilder statt “Happy People” oder dem hundertsten “Flatlay” zu verwenden.
Zusammenfassung: Worauf Du bei SEO-Texten aufgrund von Vektoreinbettungen achten solltest
Vektoreinbettungen sind die Grundlage der semantischen Suche. Die Zeiten mit “2% Keyword-Dichte” sind vorbei. Achte in deinen SEO-Texten lieber auf folgende 3 Punkte:
- Hyperfokus auf den User-Intent im Allgemeinen und den Micro-Intent im Speziellen. Suchanfragen nach “Fotospots Rhyolite” und “Geschichte Rhyolite” bedienen zwei ganz unterschiedliche Micro-Intents und Zielgruppen und erzeugen daher unterschiedliche Einbettungen für den Text und die Suchanfrage.
- Vermeide thematisch irrelevantes “SEO Blah” nur um auf eine bestimmte Wortanzahl zu kommen. Natürlich kann ich in einem Artikel über Fotospots 2-3 Sätze über die Geschichte der Geisterstadt erwähnen. Aber bitte keine 500 oder 1000 Worte. Dein Text muss nicht länger als der deines Mitbewerbs sein, sondern inhaltlich besser und fokussierter.
- Verwende relevante Begriffe, um das Thema zu verdeutlichen und vermeide eine zu bildhafte Sprache. Statt in einem Text z.B. dutzende Male “photo spots” (Keyword-Stuffing) zu verwenden, verwende Synonyme wie “photo locations” oder “photogenic site”, aber vermeide Phrasen wie “beautiful place”.
Das von Google im Jahr 2012 postulierte “Things, not strings” war schon vor dem KI-Zeitalter für SEO-Texte wichtig.
Im KI-Zeitalter ist es essenziell.