Crawler und ihre Funktion

Erstellt am2. April 2021

Zuletzt aktualisiert am2. April 2021

durchNiclas Bell

Unter dem Begriff Crawler versteht man eine bestimme Art von Software, welche Hauptsächlich von Suchmaschinen eingesetzt wird, um Texte, Bilder und Videos von Webseiten zu analysieren und zu indexieren. Alternativ nennt man diese Software auch Spider, Bot oder auch Searchbot.

Wie funktioniert ein Crawler?

Prinzipiell durchsucht ein Crawler alle Webseiten, die im Vorfeld nicht definiert haben, das sie nicht durchsucht werden sollen. Hyperlinks sowieso auch HTML-Code werden hierbei überprüft und nahezu 1 zu 1 kopiert und nachgestellt, sodass die Webseiten im Suchmaschinenindex schneller durchsucht werden kann. Es gibt für verschiedene Anwendungsgebiete auch verschiedene Crawler, die ein bestimmtes Ziel verfolgen. Normalerweise arbeiten Crawler vollautomatisch, jedoch können diese auch direkt angesteuert werden über zum Beispiel die Google Search Console.

Einige der bekannten Crawler sind zum Beispiel:

Plagiatssuche:
Diese Crawler suchen nach Webseiten und Dateien, die Urheberrechtsverletzung begehen, um so Straftaten aufzudecken.
Data-Mining:
Nicht nur nach Inhalten wird gesucht, sondern auch nach zum Beispiel E-Mail-Adressen und User-Profilen, was dieser Crawler übernimmt. Teilweise werden diese Crawler so gesteuert, dass gezielt nur E-Mail-Adressen gesammelt werden, um später an Privatpersonen und Unternehmen Spam-Mails zu versenden. Diese Art von Crawler nennt man auch „Harvester“ und kommen aus dem Bereich des Black-Hat-SEO.
Focused-Crawler:
Wenn nach bestimmten Themengebieten gesucht werden soll, werden diese Crawler verwendet.
Scraping:
Mit Hilfe von diesem Crawler werden häufig Inhalte von anderen Webseiten kopiert und auch der eigenen Homepage dann verwendet. Meistens wird dieses Vorgehen von Suchmaschinen als Manipulationsversuch gewertet und bestraft.

Crawler in der Suchmaschinenoptimierung

Natürlich sollte jeder, auch unabhängig von Suchmaschinenoptimierung daran Interesse haben, das Crawler optimal die eigene Webseite durchsuchen können, um das bestmögliche Ergebnis zu erreichen. Um dieses Ziel zu erreichen sollten Sie darauf achten, dass Ihre Website über eine vernünftige Robots.txt verfügt. Wichtig ist auch, dass bestimmte Bereiche von Crawlern ausgeschlossen werden, um zum Beispiel Duplicate Content aktiv vermeiden zu können.

Schlagwörter: