Web-Scraping mit Screaming Frog: Drei Beispiele
Im Beitrag über vorwiegend kostenlose SEO Tools habe ich Screaming Frog an erster Stelle für technische SEO Tools aufgeführt.
Das Tool hilft Ihnen nicht nur bei einer technischen SEO Analyse, sondern auch beim Aufräumen und der inhaltlichen Analyse Ihrer Website. Dazu verwenden Sie Web-Scraping mit der Funktion Extractions. In diesem Blog-Beitrag sehen Sie drei Beispiele, wieso Sie sich mit dieser Funktion vertraut machen sollten.
Inhaltsverzeichnis
Web-Scraping mit Screaming Frog
Web-Scraping bedeutet "Inhalte von Webseiten automatisiert auszulesen". Dazu nutzen Sie im Screaming Frog die Funktion Extractions. Im Menüpunkt Configuration -> Custom -> Extraction legen Sie fest, welche Inhalte Sie auslesen möchten.
Hier definieren Sie entweder einen regulären Ausdruck, einen CSS Selektor oder einen XPath, mit dem Sie Daten extrahiert möchten.
In den nächsten Kapiteln finden Sie drei Beispiele dafür, wie Sie Web-Scraping mit Screaming Frog für Ihre Website verwenden können.
Ist der Google Tag Manager auf allen Seiten eingebunden?
Das ist eine der Fragen, die ich von Kunden häufig gestellt bekomme: Nämlich, ob man einfach und schnell feststellen kann, ob Google Analytics oder der Google Tag Manager auf allen Seiten eingebunden ist.
Verwenden Sie dazu im Screaming Frog unter Extraction einen regulären Ausdruck für eine Google Analytics Property-ID, eine Tracking-ID oder einen Tagmanager Container-ID. Wir verwenden den regulären Ausdruck '(GTM-.*?)'
Dieser reguläre Ausdruck funktioniert ähnlich wie bei Gruppierungen nach Content mit Regex in Google Analytics 3: Es wird der gesamte Inhalt der Seite nach einem regulären Ausdruck durchsucht. Wird der reguläre Ausdruck in der Seite gefunden, wird der Teil des regulären Ausdrucks in Klammern in der Ergebnisliste im Screaming Frog angezeigt.
Nachdem unser regulärer Ausdruck '(GTM-.*?)'
lautet, sehen wir in der Ergebnisliste die ID des Tagmanager Containers, sofern Screaming Frog die ID auf der Seite gefunden hat. Ist die Spalte für eine URL in der Tabelle leer, hat Screaming Frog den regulären Ausdruck und damit die Container-ID auf dieser Seite nicht gefunden.
Die einfachen Anführungszeichen im regulären Ausdruck '(GTM-.*?)' sind Teil des regulären Ausdrucks!
Möchten Sie mit Screaming Frog auf eine Google Analytics 3 Property-ID prüfen, können Sie diesen regulären Ausdruck verwenden:
'(UA-.*?)'
Für Google Analytics 4 funktioniert dieser reguläre Ausdruck:
'(G-.*?)'
Das ist der reguläre Ausdruck für den Google Tag Manager:
'(GTM-.*?)'
Diese regulären Ausdrücke prüfen nur darauf, ob im Text der Seite eine Google Analytics-ID oder Container-ID in Klammern mit Anführungszeichen vorhanden ist - also auch im Fließtext.
Mit dieser Methode können Sie außerdem prüfen, ob:
- Auf einer Seite Google Analytics und ein Tagmanager Container eingebunden sind. Haben Sie Google Analytics direkt auf der Seite eingebunden und zusätzlich im Google Tagmanager, kann das zu einer Verdopplung der Seitenaufrufe in Analytics führen.
- Nach einer Migration von Google Analytics auf den Google Tag Manager auf allen Seiten die richtige Container-ID eingebunden ist.
- Die Verifikations-Tags für die Search Console oder Pinterest auf allen notwendigen Seiten eingebunden sind.
Letztes Änderungsdatum aller Blog-Beiträge finden
Als Nächstes möchten wir das Datum der letzten Änderung jedes einzelnen Blog-Beitrags herausfinden. Das können Sie dafür nutzen um herauszufinden, welche Blog-Beiträge Sie wieder einmal aktualisieren sollten.
Beim Beispiel-Blog ist Datum der letzten Änderung in jedem Beitrag in einem Time HTML-Tag vorhanden. Daher verwenden wir einen XPath, um den Inhalt des Attributes datetime des Time HTML-Tags auszulesen.
Allerdings kommt das Time HTML-Tag auf der Seite dreimal vor: einmal für den aktuellen Blog-Beitrag, einmal für den vorherigen und einmal für den nächsten Beitrag.
Damit uns die XPath-Abfrage nur das Datum des ersten TIME HTML-Tags liefert, verwenden wir den XPath:
(//time/@datetime)[1]
Das [1] definiert dabei, dass wir das Attribut datetime des ersten TIME HTML-Tags wissen möchten.
Das Ergebnis sehen Sie im nächsten Screenshot. In der Spalte Datum 1 wird der Wert des Attributes datetime angezeigt. Damit sehen Sie das letzte Änderungsdatum jedes Blog-Beitrags auf einen Blick.
Das Datum wird bei der Extraktion als Text extrahiert. Benötigen Sie das letzte Änderungsdatum als Datumswert, exportieren Sie das Ergebnis nach Google Sheets. Dort wandeln Sie das Text-Datum mit der Funktion DATEVALUE in einen echten Datumswert um.
Übersichtliche Liste der Tags jedes Blog-Beitrags erstellen
Ausgangssituation: In den letzten acht Jahren haben sich bei einem Blog über 250 Tags für Blog-Beiträge angesammelt. Diese Tags möchte ich aufräumen, besser strukturieren und konsolidieren. Also nutze ich das Web-Scraping des Screaming Frog um alle Tags jedes einzelnen Blog-Beitrags zu extrahieren und übersichtlich in einer Liste darzustellen.
Diese Liste kann ich dann quasi als To-Do Liste abarbeiten.
Dafür verwenden Sie einen CSS-Pfad in der Extraktion. Bei diesem Beispiel-Blog sind Tags der Beiträge als einzelne Anchor-Link in einem Span HTML-Tag mit der CSS Klasse Blog-meta-item--tags enthalten. Den CSS Selektor dafür lautet: .Blog-meta-item—tags > A
Dadurch liest Screaming Frog jedes einzelne Tag aus und befüllt damit eine Spalte.
Nachdem Screaming Frog die Website gecrawlt hat, sehen Sie in der Liste alle Tags jedes Blog-Eintrags. Da der CSS-Pfad alle Anchor-Tags innerhalb des Eltern-Elements ermittelt, wird jedes Tag in einer eigenen Spalte angezeigt. Das ist perfekt zum Filtern, Sortieren und Analysieren.
Die Tags eines Blogs eigenen sich übrigens hervorragend für Gruppierungen nach Content!
Konfiguration mit Extraktionen speichern
Damit Sie die Extraktionen nicht jedesmal neu definieren müssen, speichern Sie die aktuelle Konfiguration für Ihre Website. Dabei werden die Konfiguration ebenfalls gespeichert und Sie haben Sie immer zur Hand.
- Klicken Sie dazu im Screaming Frog Hauptmenü auf File
- Danach im Menü File auf Configuration
- Nun klicken Sie Untermenü auf Save As
In diesem Untermenü können Sie die Konfiguration inklusive der Extraktionen jederzeit mit dem Menüpunkt Load oder Load Recent wieder laden.
Zusammenfassung
Die drei Beispiele in diesem Beitrag habe ich deshalb gewählt, um Ihnen die drei unterschiedlichen Methoden zu zeigen, mit denen Sie Inhalte extrahieren können: reguläre Ausdrücke, XPath und CSS-Selektoren.
Für Web-Scraping und die dafür notwendigen Extractions brauchen Sie die kostenpflichtige Version des Screaming Frog, die mit 149,- Pfund pro Jahr für den Leistungsumfang ziemlich günstig ist.