Ein Überblick über den Prozess des Web Crawling

Web-Crawler durchsuchen systematisch das Internet, um Websites zu finden. Aber wie finden sie alle verschiedenen Websites? Und wie finden sie alle Seiten auf einer Website?

Crawling von Links: Web-Crawler folgen Hyperlinks, ähnlich wie wir Menschen es tun, wenn wir selbst im Internet surfen, um von Seite zu Seite zu gelangen – oder von einer Website zur anderen. Dabei kann es sich um interne Links handeln, die von Seite zu Seite auf einer Website führen, oder um Backlinks, die von Website A zu Website B führen.
Crawling von Sitemaps: Web-Crawler werfen auch einen Blick auf die Sitemap einer Website, um alle Seiten zu verstehen, die sie besuchen und indizieren müssen.
Manuelle Anmeldung: Man kann eine Website und eine Liste ihrer Seiten mit Hilfe von Tools wie Google Search Console, Bing Webmaster Tools usw. manuell bei Suchmaschinen anmelden.

Dann kopieren Web-Crawler die Informationen auf den gefundenen Webseiten (Text, HTML, Hyperlinks, Metadaten usw.) und senden sie an ihr Suchmaschinen-Mutterschiff (die Firmenserver der Web-Crawler), die die Webseiten in ihre riesigen Datenbanken herunterladen und die Informationen so organisieren/indizieren, dass sie sehr schnell durchsucht und referenziert werden können. Web-Crawler senden Informationen so in die Datenbank von Google, dass sie für Suchende sehr schnell zugänglich sind.

Wenn Crawler eine Webseite finden, rendern die Systeme der Suchmaschine den Inhalt der Seite und beachten dabei Schlüsselelemente wie Schlüsselwörter und halten alles im Suchindex fest.

Verbessertes Web Crawling, verbesserte Indexierung

Nun aber entwickelt sich Google weiter und ist in der Lage, ein differenzierteres und komplexeres Verständnis von Informationen zu schaffen. Anstatt Informationen auf Webseiten einfach nach Schlüsselwörtern zu ordnen, ist es nun in der Lage, Entitäten zu verstehen – so wie wir Menschen es tun. Zum Beispiel war die Keyword-Phrase „Werner Stangl“ einfach eine Folge von 12 Buchstaben, die durch ein Leerzeichen getrennt waren. Jetzt versteht Google mehr über dieses Schlüsselwort, die Gründe, warum Menschen danach suchen, und dass Werner Stangl eine Entität ist – speziell eine Personenentität. Wenn man also nach Nicholas Cage suchen, erhält man mehr Informationen über ihn, als Person.