Wie funktioniert eine Suchmaschine - einfach erklärt
Damit Ihre Seiten in den Suchergebnissen angezeigt werden, muss jede Seite bis zu vier Schritte durchlaufen.
In diesem Blog Beitrag fasse ich die vier Schritte, wie eine Suchmaschine funktioniert, zusammen. Für jeden Schritt sehen Sie einige Tools, die Sie dafür verwenden können und lesen, worauf Sie achten sollten.
Inhaltsverzeichnis:
- Knowing: Website bei Suchmaschinen anmelden
- Crawling: Weitere indexierbare Seiten und Ressourcen finden
- Indexierung: Seiten und Ressourcen wie Bilder indexieren
- Serving: Relevanz und Ranking
Knowing: Website bei Suchmaschinen anmelden
Damit eine Suchmaschine Ihre Seiten in den Suchergebnissen (SERPs) anzeigen kann, muss sie ihre Seiten erst einmal finden. In den guten alten SEO Zeiten gab es dazu einfach ein Textfeld bei den Suchmaschinen, in dem Sie die Startseite Ihrer Website eingetragen haben und dadurch Suchmaschinen mitgeteilt haben, dass Ihre Website existiert.
Heute gibt es zwei Möglichkeiten, um Suchmaschinen mitzuteilen, dass Sie Ihre Website existiert:
- Eine bereits indexierte Website setzt einen Link auf eine Ihrer Seiten. Das ist der aufwendige und langsame Weg.
- Sie melden Ihre Website selbst bei den Suchmaschinen an. Dazu bieten viele Suchmaschinen eigene Tools, die ich unter dem Sammelbegriff Webmaster-Tools zusammenfasse.
Webmaster Tools zum Anmelden Ihrer Website
Solche Webmaster-Tools zum Anmelden Ihrer Website bieten zum Beispiel:
- Google, mit der Google Search Console
- Bing, mit den Bing Webmaster Tools
- Yandex, mit den Yandex Webmaster Tools
- Baidu, mit den Baidu Webmaster Tools. Dafür sollten Sie allerdings Chinesisch können und im Besitz einer chinesischen Telefonnummer sein. Registrieren Sie sich zunächst für einen Baidu Passport und wechseln Sie danach in das Webmaster Dashboard, um Ihre Website anzumelden.
Auch für die lokale Suche und die Suche in Karten bieten manche Suchmaschinen etwas Ähnliches wie die Webmaster-Tools:
- Google My Business für Google Maps
- MapsConnect für Apple Maps
- Bing Places for Business für die Karten in Bing
In dieser Liste fehlen einige Suchmaschinen aus gutem Grund, zum Beispiel Yahoo oder DuckDuckGo. Diese bieten keine eigenen Webmaster-Tools an, da Sie den Index von anderen Suchmaschinen verwenden. So ist Yahoo im Wesentlichen eine "rebranded" Version von Bing und DuckDuckGo nutzt über spezialisierte 400 Quellen, um Suchergebnisse anzuzeigen.
Auf StatCounter.com finden Sie eine Übersicht der Marktanteile jeder Suchmaschine, die Sie nach Ländern filtern können. Das hilft Ihnen herauszufinden, bei welchen Suchmaschinen Sie Ihre Website zusätzlich zu Google anmelden sollten.
In diesen kostenlosen Webmaster-Tools stellen Ihnen die Suchmaschinen außerdem nützliche Informationen zur Verfügung, die Sie zur Optimierung Ihrer Website nutzen können; zum Beispiel:
- Die Impressionen, Klicks, CTR und das Ranking auf Keyword-, Seiten- und Länderebene sowie für die unterschiedlichen Arten von Endgeräten.
- Listen mit URLs, bei denen Suchmaschinen Probleme beim Crawling oder der Indexierung gefunden haben
- Eine Übersicht über die interne Verlinkung so wie Links von externen Seiten.
Zum Anmelden Ihrer Website bei den Webmaster Tools erstellen Sie in den jeweiligen Webmaster-Tools eine Property - manche nennen es auch Projekt.
Danach tragen Sie die Domain Ihrer Website und die URL der Sitemap-Datei ein. In einem eigenen Blog-Beitrag habe ich Schritt-für-Schritt beschrieben, wie Sie Ihre Google Search Console einrichten und damit Ihre Website bei Google Anmelden.
Achten Sie in diesem Schritt darauf, dass Sie keine "verwirrenden" Signale an Suchmaschinen schicken; beispielsweise eine URL in der Sitemap eingetragen haben, die aber gleichzeitig durch ein NOINDEX-Tag oder einen Eintrag in der robots.txt blockiert ist.
Damit haben Sie die Suchmaschine über die Existenz Ihrer Website informiert. Als Nächstes wird die Suchmaschine Ihre Website crawlen.
Cawling: Weitere indexierbare Seiten und Ressourcen finden
Beim Crawling besucht ein Spider Ihre Website; zum Beispiel der GoogleBot oder BingBot. Dieser Spider beginnt bei einer Seite Ihrer Website und lädt zunächst die erste HTML-Datei und darin enthaltene Ressourcen, wie Bilder, CSS oder Javascript.
Findet die Suchmaschine in der geladenen HTML-Datei Javascript, führt sie das Javascript in vielen Fällen gleich aus.
Nachdem die Suchmaschine das JavaScript ausgeführt hat, kennt die Suchmaschine nun den fertigen (gerenderten) HTML-Code der Seite. Jetzt durchsucht die Suchmaschine den gerenderten HTML-Code nach Links zu weiteren Seiten und Ressourcen (z.B. Bildern).
Daraufhin beginnt das Spiel von Neuem: Von jeder gefundenen URL wird die Seite oder Ressource heruntergeladen, das JavaScript ausgeführt, sofern es sich um eine HTML-Datei handelt, und die Suchmaschine sucht darin wieder nach weiteren Seiten und Ressourcen.
Das macht der Suchmaschinen-Spider Tag für Tag. Für jede Website. Immer wieder.
Manche Suchmaschinen, zum Beispiel Google, crawlen Ihre Seiten mit zwei unterschiedlichen Spidern: Einmal für den Desktop und einmal für Mobile. In der Google Search Console sehen Sie sowohl den primären Spider als auch den Spider, mit dem jede einzelne Seite (nochmals) gecrawlt wurde.
Welcher Spider auf Ihrer Website für die Indexierung verantwortlich ist, sehen Sie beispielsweise für Google in der Search Console unter Einstellungen.
Crawling einzelner Seiten oder Verzeichnisse verbieten
Grundsätzlich crawlt der Spider alle Seiten und Ressourcen Ihrer Website - außer Sie verbieten es ihm. Dazu haben Sie mehrere Möglichkeiten:
- URLs oder Verzeichnisse in die robots.txt Datei eintragen
- URLs oder Verzeichnisse mit einem Passwort schützen
- Dem Spider beim crawlen einer Seite den Status-Code 403 Forbidden zu liefern.
Wenn Sie eine URL in die robots.txt eintragen, verhindert das nur das Crawling der Seite, aber nicht unbedingt die Indexierung!
Für die letzte oben erwähnte Option müssen Sie den Spider aus technischer Sicht irgendwie erkennen. Dazu können Sie Ihren Server so konfigurieren, dass er bei jeder Anfrage aus dem Internet den User-Agent des HTTP-Headers prüft.
Die Spider der Suchmaschinen geben sich nämlich freundlicherweise zu erkennen. Falls Sie Sie Ihre Website über Cloudflare ausliefern, sehen Sie in Cloudflare-Analytics, welche Crawler Ihre Website regelmäßig besuchen:
Im obigen Screenshot sehen Sie den Eintrag AppleBot. Das ist der Crawler den Apple für Suchanfragen auf Ihrem iDevice via Siri verwendet.
Bei Google finden Sie ein Support-Dokument, in dem die User-Agents aller GoogleBots aufgeführt sind. Auch bei Bing gibt es so eine Liste der User-Agents aller BingBots und natürlich hat auch Yandex eine Liste der User-Agents aller YandexBots veröffentlicht.
Damit Ihnen die Crawler nicht Ihre Web-Statistiken durcheinander wirbeln, sollten Sie die bekannten Crawler in der produktiven Datenansicht in Google Analytics ausschließen. Klicken Sie dazu unter Verwaltung in der Spalte Datenansicht auf Einstellungen der Datenansicht und aktivieren Sie die Option Alle Treffer von bekannten Bots und Spidern ausschließen
Crawlability Ihrer Website analysieren
Die Webmaster Tools der Suchmaschinen zeigen Ihnen natürlich URLs an, die sie nicht crawlen konnten. In vielen Fällen sehen Sie sogar den Grund dafür. In der Search Console finden Sie so eine Liste unter Abdeckung, zum Beispiel in der Kategorie Ausgeschlossen.
In den Bing Webmaster Tools müssen Sie dafür zunächst eine Website-Überprüfung laufen lassen.
Um tieferliegende Probleme beim Crawling und in weiterer Folge bei der Indexierbarkeit zu finden, sollten Sie Ihre Website einem technischen SEO Audit unterziehen, zum Beispiel mit dem technischen SEO Tool Screaming Frog.
Mit dem Screaming Frog simulieren Sie den Spider einer Suchmaschine und crawlen damit Ihre Website. Als Ergebnis liefert Ihnen der Screaming Frog für jede einzelne Seite und jede Ressource, ob Suchmaschinen diese crawlen und indexieren könnten oder nicht. Kann eine URL nicht gecrawlt oder indexiert werden, sehen Sie im Screaming Frog den Grund dafür.
Das Crawling-Budget
Die Spider der Suchmaschinen besuchen Ihre Website regelmäßig. Wie oft sie das tun, hängt von einigen Faktoren ab. Beispielswiese von der Popularität Ihrer Website oder ob Sie auf Ihrer Website über aktuelle Themen schreiben.
Bei jedem Besuch crawlt der Spider allerdings nur eine gewisse Anzahl von URLs.
Die Anzahl der URLs, die der Spider bei jedem Besuch crawlt, wird als Crawling Budget bezeichnet. Die Größe es Crawling Budgets, hängt ebenfalls von verschiedenen Faktoren ab. Dazu gehören die Größe der Website, die Änderungshäufigkeit aber auch die Antwortzeit Ihrer Website.
Je länger die Antwortzeit Ihrer Website ist, desto weniger Seiten werden gecrawlt. Hier ist ein Beispiel um diese Behauptung zu untermauern. Nachdem ich bei einem technischen SEO Audit den Grund für langen Antwortzeiten finden konnte und der Kunde den Fehler behoben hat, stieg die Anzahl der täglich gecrawlten Seiten von knapp 1000 auf über 6000 pro Tag.
Durch ein hohes Crawling Budget werden Änderungen schneller indexiert.
Jeder broken Link und jeder Redirect kostet Sie einen kleinen Teil Ihres Crawling Budgets bei dem allerdings keine Seite indexiert wird.
Damit Sie das meiste aus dem Crawling Budget herausholen können, sollte die Antwortzeit Ihrer Website unter 300 ms liegen und so wenig broken Links und Redirects wie möglich haben.
Indexierung: Seiten und Ressourcen wie Bilder indexieren
Sobald eine Suchmaschine eine Seite Ihrer Website gecrawlt hat, wird die diese Seite an die Indexierung übergeben.
Früher haben Suchmaschinen bei der Indexierung einfach nur Stoppwörter eliminiert und die verbleibenden Wörter auf Ihre Stammformen reduziert. Diese Wörter wurden danach in den Index aufgenommen.
Heutzutage versuchen Suchmaschinen die Inhalte einer Seite zu verstehen. Dazu gehören Konzepte wie Natural Language Processing (z.B. Word2Vec) und Entitäten.
Das Ziel beim Texten sollte also nicht sein, ein Keyword besonders oft im Text einzubauen, sondern den Text inhaltlich und sprachlich so zu verfassen, dass Suchmaschinen den Text besser verstehen können.
Tools die Ihnen dabei helfen für Suchmaschinen verständliche Texte zu erstellen sind noch sehr spärlich gesät. Einige davon habe ich in meinem Blog-Beitrag über SEO Tools, die ich bei meiner täglichen Arbeit verwende, schon erwähnt:
- Die Knowledge-Graph Suche von technicalseo.com
- Das Test-Tool für das Natural Language Processing von Google
- Google Trends
Indexierung bestimmter Seiten verbieten
Natürlich können Sie Suchmaschinen anweisen, bestimmte Seiten nicht zu indexieren:
- Fügen Sie das -Tags im HEAD-Bereich der Seite hinzu.
- Liefern Sie Im HTTP Header das Feld X-Robots-Tag: noindex an den Crawler.
- Schützen Sie die Seite mit einem Passwort.
Hat beispielsweise Google eine Seite bereits indexiert und Sie möchten diese Seite aus dem Index entfernen, sollten Sie so vorgehen:
- Bauchen Sie zunächst das NOINDEX-Meta-Tag auf der Seite ein
- Verwenden Sie das URL-Removal Tool in der Search Console um die Anzeige der Seite in den SERPs unterbinden.
Damit wird die Seite zunächst nicht mehr in den Suchergebnissen angezeigt und beim erneuten Crawling wird der Spider erkennen, dass die Seite nicht indexiert werden soll und Sie aus dem Index entfernen.
Blockieren Sie eine Seite, die ein NOINDEX-Tag enthält, keinesfalls durch die robots.txt Datei! Dadurch verbieten Sie nämlich das Crawling der Seite und Google wird das NOINDEX-Tag nicht erkennen und die Seite trotzdem indexieren - zum Beispiel aufgrund interner Links.
Serving: Ranking und SERPs anzeigen
Der letzte der vier Schritte am Weg in die Suchergebnisse (SERPs) nennt Google Serving - was mit besser gefällt als der von vielen SEOs verwendete Begriff Ranking. Denn in diesem Schritt passiert mehr als nur das Ranking. Gary Illyes beschreibt das sehr gut in der [Episode 16 des Google Podcast Search off the Records].
Zunächst versucht Google in diesem Schritt die Suchanfrage zu verstehen und Dokumente aus dem Index zu holen, die für die Suchanfrage relevant sind.
Bereits beim Ermitteln der Relevanz spielen bereits einige Ranking-Signale eine Rolle. Beispielsweise die Art des Endgeräts das Nutzer:Innen für die Suche verwenden, die Sprache, TD*IDF, die Suchabsicht oder die Location: Sind Sie beispielsweise gerade physisch in New York und suchen dort nach dem Begriff "hair stylist" werden Ihnen kaum Friseure in San Francisco angezeigt.
Ähnliches gilt für den Suchbegriff Football, der in Großbritannien eine andere Bedeutung hat als in den USA.
Auch die Einzahl und Mehrzahl einer Suchanfrage kann eine ganz andere Bedeutung und somit Relevanz haben, beispielsweise die Suchbegriffe Teekanne (Marke) und Teekannen (Produkte).
Die Relevanz eines Textes ist das wichtigste Ranking-Signal. Darauf basiert das Geschäftsmodell der Suchmaschinen. Zeigt eine Suchmaschine nur irrelevante Ergebnisse an, wird sie bald niemand mehr nutzen.
Erst nachdem Google relevante Seiten aus dem Index geholt hat, erfolgt die Sortierung ("das Ranking") in den Suchergebnis-Seiten die Nutzer zu sehen bekommen. Dabei spielen andere Ranking-Signale, die nicht direkt mit der Relevanz zu tun haben, eine Rolle. Dazu zählen sehr wahrscheinlich User-Experience-Signale. Diese Signale sind natürlich wichtig, aber nicht so wichtig wie die Relevanz:
In einem Beitrag im Google Blog sagt Google das sehr deutlich: