Wie funktioniert eine Suchmaschine - einfach erklärt

SEO

Damit deine Webseiten in den Ergebnissen einer Suchmaschine auftauchen, muss jede einzelne Seite deiner Website vier wesentliche Schritte durchlaufen.

In diesem Blogbeitrag habe ich diese vier Schritte zusammengefasst. Sie sollen dir einen einfachen Überblick darüber geben, wie eine Suchmaschine funktioniert. Zusätzlich erfährst du in jedem der vier Schritte ein paar Tipps, worauf du für deine Suchmaschinenoptimierung achten solltest.

Inhaltsverzeichnis

Website bei Suchmaschinen anmelden

Damit eine Suchmaschine deine Seiten überhaupt in den Ergebnissen anzeigen kann, muss sie von der Existenz deiner Website wissen.

In den guten alten SEO-Zeiten vor dem Jahr 2000 gab es dazu einfach ein Textfeld bei den Suchmaschinen. Dort hast du die Startseite deiner Website eingetragen. Dann hat es ein paar Wochen gedauert, bis deine Seiten in den Index aufgenommen wurden.

Heute gibt es zwei Möglichkeiten, um einer Suchmaschine mitzuteilen, dass deine Website existiert:

  1. Eine bereits indexierte Website setzt einen Link auf deine Website. Das ist der aufwendige und langsame Weg.
  2. Du meldest deine Website selbst bei den Suchmaschinen an. Dazu bieten viele Suchmaschinen sogenannte “Webmaster-Tools”.

Solche Webmaster-Tools zum Anmelden deiner Website findest du unter anderem bei diesen Suchmaschinen:

Auch für die lokale Suche bieten manche Suchmaschinen etwas Ähnliches wie die Webmaster-Tools:

In dieser Liste fehlen einige Suchmaschinen aus gutem Grund, zum Beispiel Yahoo oder DuckDuckGo. Diese bieten keine eigenen Webmaster-Tools an, da Sie den Index von anderen Suchmaschinen verwenden. So ist Yahoo im Wesentlichen eine "rebranded" Version von Bing und DuckDuckGo nutzt über spezialisierte 400 Quellen, um Suchergebnisse anzuzeigen.

Auf StatCounter.com findest du eine Übersicht der Marktanteile jeder Suchmaschine, die du nach Ländern filtern kannst. Das hilft dir herauszufinden, bei welchen Suchmaschinen du deine Website zusätzlich zu Google anmelden solltest.

Falls du es bisher nicht gemacht hast, melde nun deine Website mit den Webmaster Tools bei den Suchmaschinen an. Für die Google Search Console findest du in meinem Blog eine Anleitung, um die Google Search Console einzurichten.

Crawling

Nachdem du deine Website bei einer Suchmaschine angemeldet hast, wird deine Website von einem sogenannten “Bot” gecrawlt. Dabei wird jede einzelne Datei deiner Website von der Suchmaschine heruntergeladen. Also nicht nur die HTML-Datei, sondern auch die darin enthaltenen Bilder, CSS- und JavaScript-Dateien oder verlinkte PDF-Dateien, um nur einige Beispiele zu nennen.

Nachdem eine Suchmaschine deine HTML-Datei und alle dafür notwendigen Ressourcen wie Bilder, JavaScript und CSS geladen hat, wird die Seite “gerendert”. Dazu wird das JavaScript auf der Seite ausgeführt, das auch in einem Browser nach dem Laden einer Seite ohne eine Interaktion wie einen Klick ausgeführt werden würde. Durch das Rendern und die Ausführung von JavaScript erhält die Suchmaschine den fertigen HTML-Quelltext einer Seite.

Nun durchsucht die Suchmaschine den HTML-Quelltext der gerenderten Seite nach Links zu weiteren Seiten und indexierbaren Dateien und das Crawling beginnt von Neuem.

Manche Suchmaschinen, wie Google, crawlen deine Seiten mit unterschiedlichen Spidern: einmal für den Desktop und einmal für Mobile. In der Google Search Console siehst du sowohl den primären Spider als auch den Spider, mit dem jede einzelne Seite (unter Umständen nochmals) gecrawlt wurde. Für Google siehst du das in der Google Search Console unter “Einstellungen” und “Crawling Statistiken”.

 
Google Bottypen in der Google Search Console

Google Bottypen in der Google Search Console

 

Rechts unten siehst du die verschiedenen Bottypen, mit denen Google meine Seite crawlt. Für die Indexierung verwendet Google allerdings nur mehr den Smartphone-Bot (“Mobile Indexing”).

Crawling einzelner Seiten oder Verzeichnisse verbieten

Grundsätzlich crawlt der Bot alle Seiten und Dateien auf deinem Webserver, außer du verbietest es ihm. Dazu hast du mehrere Möglichkeiten:

  • URLs oder Verzeichnisse in die “robots.txt”-Datei eintragen.
  • URLs oder Verzeichnisse mit einem Passwort schützen.
  • Dem Spider beim Crawlen einer Seite oder eines Verzeichnisses den Status-Code “403 Forbidden zu liefern.

Ein “Meta noindex-Tag” verhindert nicht das Crawling, sondern nur die Indexierung. Ebenso wenig verhindert ein Eintrag einer Seite oder eines Verzeichnisses in die robots.txt die Indexierung, sondern nur das Crawling!

Für die letzte erwähnte Option musst du den Spider aus technischer Sicht irgendwie erkennen können. Dazu kannst du deinen Server so konfigurieren, dass er bei jeder Anfrage aus dem Internet den User-Agent des HTTP-Headers prüft. Die Spider der Suchmaschinen geben sich über diesen User-Agent freundlicherweise zu erkennen.

Falls du deine Website über Cloudflare auslieferst, siehst du unter “Analytics und Protokolle” unter “Bedrohungen”, welche Crawler deine Website regelmäßig besuchen:

 
Bots, die deine Website regelmäßig besuchen auf Cloudflare

Bots, die deine Website regelmäßig besuchen auf Cloudflare

 

Im obigen Screenshot siehst du beispielsweise den Eintrag AppleBot. Das ist der Bot, den Apple für Suchanfragen auf deinen Apple-Geräten via Siri verwendet.

Bei Google findest du ein Support-Dokument, in dem die User-Agents aller GoogleBot aufgeführt sind. Auch bei Bing gibt es so eine Liste der User-Agents aller BingBots und natürlich hat auch Yandex eine Liste der User-Agents aller YandexBots veröffentlicht.

Indexierung

Sobald eine Suchmaschine eine Seite Ihrer Website gecrawlt und in den meisten Fällen gerendert hat, wird die Seite an die Indexierung übergeben.

Früher haben Suchmaschinen vor der Indexierung einfach nur Stoppwörter wie Präpositionen, Artikel oder Konjunktionen aus einem Dokument entfernt. Dann wurden die verbleibenden Wörter auf Ihre Stammformen reduziert. Unter diesen Wörtern wurde dann eine Seite in einem Index gespeichert.

Stell dir den Index einer modernen Suchmaschine bitte nicht wie ein Inhaltsverzeichnis eines Buches vor, in dem zu jedem Wort ein paar tausende URLs gespeichert sind.

Basierend auf dem, was Google in der Cloud anbietet, gehe ich davon aus, dass Google so etwas wie einen Vektorindex nutzt. Dort werden Inhalte (ganze Dokumente, Absätze und einzelne Wörter (und Entitäten)) als Vektoren gespeichert. Aus diesem Vektorindex kann eine Suchmaschine dann mit mathematischen Funktionen relevante Seiten für Suchanfragen finden.

Das ist einfach schneller als einen klassischen Index zu durchsuchen.

Dein Ziel beim Texten sollte nicht sein, ein Keyword besonders oft im Text einzubauen, sodass es besonders oft im Index auftaucht. Sondern den Text inhaltlich und sprachlich so zu verfassen, dass Suchmaschinen den Text besser verstehen können. Ein wichtiger Aspekt dafür sind Entitäten; siehe dazu meinen Blog-Beitrag darüber, was Entitäten sind und wieso sie für SEO wichtig sind.

Indexierung einzelner Seiten verbieten

Natürlich kannst du eine Suchmaschine anweisen, bestimmte Seiten nicht zu indexieren. Dazu hast du im Wesentlichen 3 Möglichkeiten:

  • Füge das “noindex-Meta-Tag” im HEAD-Bereich der Seite hinzu, die nicht indexiert werden soll.
  • Konfiguriere deinen Server so, dass du im HTTP Header das Feld “_X-Robots-Tag: noindex” an den Bot lieferst.
  • Schütze die Seite mit einem Passwort.

Hat Google eine Seite bereits indexiert und du möchtest sie aus dem Index entfernen, gehe bitte so vor:

  1. Verwende eine der vorhin genannten Methoden, etwa das “noindex-Meta-Tag”.
  2. Verwende das URL-Removal Tool in der Search Console, um die Anzeige der Seite in den SERPs sofort zu unterbinden.

Dadurch wird die Seite zunächst nicht mehr in den Suchergebnissen angezeigt und beim erneuten Crawling wird der Bot erkennen, dass die Seite nicht indexiert werden soll und sie aus dem Index entfernen.

Blockierst du das Crawling einer Seite, die ein noindex-Meta-Tag enthält, durch die robots.txt-Datei, kann Google die Seite nicht crawlen und sieht damit das noindex-Meta-Tag nicht. Dadurch bleibt die Seite indexiert!

Ranking

Die bisher erwähnten Schritte, wie eine Suchmaschine funktioniert, sind gut dokumentiert. Anders sieht es beim Ranking aus. Suchmaschinen halten sich verständlicherweise über Ranking-Signale und deren Auswirkungen bedeckt. Sonst würden Spammer das Wissen verwenden, um ihre Seiten möglichst weit oben in den Suchergebnissen zu platzieren.

Beim Ranking berücksichtigen Suchmaschinen verschiedene Aspekte (und ich verwende hier bewusst den Begriff “Aspekt” statt “Ranking-Signal”. Vier wichtige Aspekte sind:

  • Der User-Intent, über den ich im Beitrag User Intent verstehen und für SEO nutzen geschrieben habe.
  • Den, wie ich es nenne, Conceptual Intent, um eine Suchanfrage und deinen Text inhatlich zu verstehen. Mehr dazu erfährst du im Blog-Beitrag über den Conceptual Intent für SEO.
  • E-E-A-T
  • Die inhaltliche Relevanz eines Dokumentes in Relation zur Suchanfrage. Dabei werden unter Umständen auch die eingestellte Sprache des Browsers, das Endgerät oder dein Standort berücksichtigt.

Jeder dieser vier Aspekte bestehen aus einem oder mehreren Ranking-Signalen.

Ranking-Signale

Nun gibt es aus dem oben erwähnten Grund keine Liste aller Ranking-Signale einer Suchmaschine. Ein wenig Einblick in mögliche Ranking-Signale haben wir durch den Yandex-Leak (2023) und den Google Leak (2024) bekommen.

Laut einem Artikel auf Search Engine Land über den Yandex Leak (2023) wurden dabei insgesamt 1.922 Ranking-Signale entdeckt. Beim Google-Leak im Jahr 2024 wurden je nach Quelle bis zu 14.000 Ranking-Signale gefunden.

Ich würde dein SEO daher nicht mehr auf eine (veraltete) Liste von “200 Ranking Signalen” oder Aussagen wie “Eine H1” stützen.

Einen der wichtigsten Aspekte von Ranking-Signalen solltest du jedoch kennen. Viele werden unabhängig voneinander berücksichtigt. So kann ein Ranking-Signal eines Ranking-Systems eine Seite um 10 Plätze nach unten ranken. Ein anderes Signal wiederum kann in einem nächsten Schritt das Ranking einer Seite wieder um 5 Plätze nach oben bringen.

Das ist der Grund, warum ein Mitbewerb für etwas (z.B. viel Werbung) nicht so heftig “abgestraft” wird, wie deine Website. Während deine Website und die eines Mitbewerbs durch ein Ranking-Signal gleich stark abgestraft werden, wird die Seite deines Mitbewerbs durch andere Ranking-Signale wieder stärker nach oben gereiht als deine.

Ranking-Signale werden nun nicht “auf einmal” auf eine Suchanfrage angewandt, sondern in mehreren Schritten und durch mehrere Systeme. Eine nicht vollständige Liste mit einigen Ranking-Systemen hat Google schon vor einiger Zeit veröffentlicht.

Schließlich sind Ranking-Signale gewichtet und wirken sich somit unterschiedlich stark auf das Ranking aus. Ein Beispiel dafür sind die Core Web Vitals (“Page Speed”). Die sind natürlich ein Ranking-Signal, wirken sich aber bei weitem nicht so stark auf das Ranking aus wie Relevanz-Signale. Eine Suchmaschine wird eine langsame, aber relevante Seite stets weiter oben ranken als eine schnelle, aber inhaltlich weniger relevante Seite.

Query Expansion & Verstehen

Eine Suchmaschine verwendet eine Suchanfrage nicht unbedingt so, wie du sie im Suchfeld eingegeben hast.

Sie kann die eingegebene Suchanfrage ändern oder erweitern. Das wird als “Query Expansion” bezeichnet. Hier ein ganz einfaches Beispiel: Gibst du als Suchanfrage den Begriff “Rhyolite” ein, weiß eine Suchmaschine zunächst nicht, ob du nach Seiten über die Gesteinsart “Rhyolith” (engl. “Rhyolite”) suchst oder über Informationen zur gleichnamigen Geisterstadt in Nevada.

Basierend auf deiner Suchhistorie oder allgemeinen Engagement-Signalen (wie etwa Klicks) mit den Suchergebnissen kann eine Suchmaschine die Suchanfrage “Rhyolite” zum Auffinden von für dich relevanten Seiten erweitern, beispielsweise um das Wort “Nevada”. Damit behandelt eine Suchmaschine die Suchanfrage nach “Rhyolite” so, also ob du nach “Rhyolite Nevada” gesucht hättest und zeigt dir Suchergebnisse über die Geisterstadt an.

Ob und wie eine Suchmaschine “Query Expansion” betreibt, bekommen Nutzerinnen der Suchmaschine in der Regel nicht mit.

Erstes Ranking

In einem Protokoll zum Google Hearing vor dem DOJ aus dem Jahr 2023 (Seite 6.400) erwähnt Google das “initial Ranking”. In diesem ersten Ranking werden inhaltlich relevante Seiten aus dem Index ermittelt. Laut Google können das bis zu 10.000.000 Seiten sein. Andere Quellen sprechen in diesem ersten Ranking-Schritt lediglich von ein paar Tausend Seiten.

Laut dem Protokoll nennt Google dieses erste Suchergebnis den “Green Ring” (Seite 6.403). Wir wissen allerdings nicht, welche Ranking-Signale sich auf dieses erste Ranking auswirken.

Meine Hypothese ist, dass im ersten Schritt vorwiegend Relevanz-Signale und ausschließende Ranking-Signale (z.B. SPAM) zum Einsatz kommen.

Re-Ranking

Die Ergebnisse aus dem ersten Schritt werden nun einem Re-Ranking unterzogen. Dabei wird einerseits die Anzahl der Ergebnisse auf einige hundert reduziert. Andererseits kann sich auch die Reihenfolge der Suchergebnisse ändern.

Laut dem DOJ Dokument bezeichnet Google das Ergebnis des Re-Rankings als “Blue Ring” (Seite 6.403).

Im Prozess des Re-Rankings kommen unter anderem sogenannte “Twiddler” zum Einsatz. Das sind kleine Ranking-Systeme, die ein Suchergebnis im Hinblick auf genau ein Ranking-Signal entweder auf- oder abwerten. Ebenfalls wird beim Re-Ranking das Ranking-System “Navboost” verwendet, das Interaktionen mit den Suchergebnissen in das Re-Ranking einbezieht. Beachte bitte hier meine Worte: Ich vermeide den Begriff “Klicks” ganz bewusst und schreibe von “Interaktionen”.

Glue und Tetris

Das Suchergebnis enthält nicht nur Links zu Webseiten, sondern auch zu Bildern, aktuellen Nachrichten oder YouTube-Videos. Das bezeichnet Google als *“Universal Search”, *wie du im Google Blog nachlesen kannst. In diesem Zusammenhang tauchen im DOJ Protkoll die beiden Systeme “Glue” und *“Tetris” *auf. Ihre Aufgabe ist im Wesentlichen aus den verschiedenen Suchergebnissen wie den “10 blauen Links”, Videos, Bildern, etc. eine Ergebnisseite zusammenzubauen, die dir dann angezeigt wird (DOJ Hearing Protokoll 2023, Seite 6403).

Zusammenfassung

Du hast in diesem Beitrag hoffentlich einen Überblick darüber bekommen, wie eine Suchmaschine heute funktioniert.

Zunächst muss eine Suchmaschine wissen, dass deine Website überhaupt existiert. Danach muss sie gecrawlt und indexiert werden.

Das Ranking ist kein trivialer Prozess (mehr), der mit Algorithmen aus den 70er und 80er Jahren wie TDF/IDF oder BM25 funktioniert. Er besteht bei modernen Suchmaschinen aus mehreren Schritten, bei denen viele Ranking-Systeme beteiligt sind, die ein (z.B. “Twiddler”) oder mehrere Ranking-Signale (z.B. “Navboost” oder “Freshness”) berücksichtigen.

Meine Empfehlung ist daher, dich nicht mehr mit alten “Ranking-Faktoren-Listen” zu beschäftigen, sondern die wichtigen Konzepte einer Suchmaschine und des Information-Retrieval zu verstehen. Dazu gehören unter anderem der “User Intent”, der “Conceptual Intent”, E-E-A-T und das “Natural Language Processing”.

Christian Feichtner

Ich stehe dir mit Rat und Tat zur Seite, um SEO & die Web-Analyse zu entmystifizieren, sodass du SEO & die Web-Analyse selbst in die Hand nehmen kannst.

Zurück
Zurück

Der Search Insights Bericht der Search Console im Überblick

Weiter
Weiter

10+ praktische Features des Screaming Frog, die du kennen solltest