Einige Geheimnisse des Internets

Web Crawler – Web Crawling ist ziemlich faszinierend, aber normalerweise super langweilig. Dieser Artikel ist für Nicht-Entwickler, die die Bedeutung verstehen müssen, weil sie wollen, dass ihre Websites eine bessere Sichtbarkeit erhalten, mehr organischen Traffic bekommen und mehr Geld verdienen.

Was sind Web-Crawler?

Beginnen wir mit der Definition von Web Crawler. Web-Crawler (auch „Spider“, „Bots“, „Spiderbots“ usw. genannt) sind Software-Anwendungen, deren primäre Lebensaufgabe es ist, im Internet zu navigieren (zu „crawlen“) und Informationen zu sammeln, meist mit dem Ziel, diese Informationen irgendwo zu indexieren. Sie werden „Web-Crawler“ genannt, weil „Crawling“ eigentlich der Fachbegriff für den automatischen Zugriff auf eine Website ist, um mithilfe von Software Daten zu erhalten. Im Grunde ist ein Crawler so etwas wie ein virtueller Bibliothekar. Er sucht nach Informationen im Internet und sendet diese dann an eine Datenbank, um sie zu organisieren, zu katalogisieren usw., so dass die gecrawlten Informationen bei Bedarf schnell und einfach von Suchmaschinen abgerufen werden können (z. B. wenn Sie eine Suche durchführen).

Spiderbot! Ihre Mission, sollten Sie sie annehmen, ist es, das außerordentlich große (und ständig wachsende) Internet unaufhörlich zu durchstreifen und alle Informationen zu sammeln und in unseren Index aufzunehmen. Und nun gehen Sie los, erwerben und extrahieren Sie! Das ist so ziemlich das, wie es funktioniert. Nun, wer bei klarem Verstand würde das Internet durchforsten und all diese Informationen katalogisieren wollen? Das hört sich an wie die Strafe, die dem größten aller Sünder von Luzifer selbst auferlegt würde.

Googlebot. Das ist der Googlebot: Er ist ein nicht enden wollender Roboter (ein Stück Software), der im Internet herumläuft und alle Ihre Informationen (die Informationen von Ihrer Website, die Informationen, die Sie auf Social-Media-Websites laden, die Informationen, die Sie in Ihren Gmails senden, die Informationen, die Sie in Ihr Google Home sprechen, usw.) aufnimmt und in den Google-Index schickt. So funktioniert eine Suchmaschine. Google ist allerdings nicht der Einzige – andere Suchmaschinenunternehmen (wie Yahoo, Bing usw.) verdienen ihr Geld damit, dass sie uns Menschen, die an unseren Computern und Telefonen kleben und rund um die Uhr nach Dingen suchen, mit Informationen versorgen – aber sie müssen diese Informationen auf irgendeine Weise beschaffen. Das tun sie mit diesen Web Crawlern.

Wie funktionieren Webcrawler?

Das primäre Ziel eines Webcrawlers ist es, einen Index zu erstellen (mehr dazu später) und zu lernen, worum es auf jeder Webseite im Internet geht, so dass die Informationen von Suchmaschinen abgerufen und Ihnen (dem Suchenden) extrem schnell und mit großer Genauigkeit zur Verfügung gestellt werden können – das heißt, Ihnen Ergebnisse zu liefern, die die Suchabsicht dessen beantworten, was Sie in die Suchmaschine eingegeben (oder gesprochen) haben.

Das Internet ist wie eine ständig wachsende Bibliothek mit Milliarden von Büchern (Websites), aber keinem offiziellen/zentralen Ablagesystem. Daher verwenden Suchmaschinenunternehmen internetbasierte Software, die als Web-Crawler bekannt ist, um öffentlich zugängliche Webseiten – wie Ihre Website – zu entdecken.

Der Prozess des Web Crawling

Web-Crawler durchsuchen systematisch das Internet, um Webseiten zu finden. Aber wie finden sie alle verschiedenen Websites? Und wie finden sie alle Seiten auf Ihrer Website? Crawling von Links: Web-Crawler folgen Hyperlinks, ähnlich wie wir Menschen es tun, wenn wir selbst im Internet surfen, um von Seite zu Seite zu gelangen – oder von einer Website zur anderen. Dabei kann es sich um interne Links handeln, die von Seite zu Seite auf einer Website führen, oder um Backlinks, die von Website A zu Website B führen. Crawling von Sitemaps: Web-Crawler werfen auch einen Blick auf die Sitemap Ihrer Website, um alle Seiten zu verstehen, die sie besuchen und indizieren müssen. Manuelle Anmeldung: Sie können Ihre Website und eine Liste ihrer Seiten mit Hilfe von Tools wie Google Search Console, Bing Webmaster Tools usw. manuell bei Suchmaschinen anmelden.

Dann kopieren sie die Informationen auf den gefundenen Webseiten (Text, HTML, Hyperlinks, Metadaten usw.) und senden sie an ihr Suchmaschinen-Mutterschiff (die Firmenserver der Web-Crawler), die die Webseiten in ihre riesigen Datenbanken herunterladen und die Informationen so organisieren/indizieren, dass sie sehr schnell durchsucht und referenziert werden können. War das wirklich zu 100% technisch korrekt? Ich weiß es nicht. Ich bin kein Webentwickler. Aber es ist nahe genug, damit Sie die allgemeine Idee bekommen, wie es funktioniert, ohne dass Sie die Definition 17 Mal neu lesen müssen und trotzdem verwirrt sind.

Wie auch immer – Web-Crawler senden Informationen in die Datenbank von Google, und zwar so, dass sie für Sie (Suchende) sehr schnell zugänglich sind. Wenn Crawler eine Webseite finden, rendern die Systeme der Suchmaschine den Inhalt der Seite und beachten dabei Schlüsselelemente wie Schlüsselwörter und wir halten alles im Suchindex fest. Diese Technologie wird „Indizierung“ genannt. In der Vergangenheit basierte der gesamte Suchmaschinen-Index / Algorithmus von Google auf der Verwendung von Schlüsselwörtern, um Seiten zu verstehen, zu indizieren, zu organisieren und auszuliefern (wenn jemand eine Suche durchgeführt hat). Das ist der Grund, warum Google, wenn Sie nach etwas suchen, in weniger als einer halben Sekunde 4.220.000.000 Ergebnisse liefern kann… Absoluter Wahnsinn.

Beachten Sie: Dieser Prozess des Besuchs von Seiten, des Crawlens aller Links, des Herunterladens der Informationen usw. findet alles auf Ihrer Website statt, was bedeutet, dass Ihr Webserver (auch bekannt als Webhoster) derjenige ist, der die Informationen verarbeiten muss, und dass er Ihre Ressourcen verwendet, für die Ihnen der Webhoster Gebühren berechnet. Google lässt Sie also nicht nur Geld ausgeben, um Ihre Informationen zu „stehlen und zu organisieren“, sondern zwingt Sie auch dazu, für Werbung zu bezahlen, wenn Sie möchten, dass Ihre Website ganz oben auf der Suchseite erscheint. Denken Sie eine Sekunde darüber nach… Das ist der Grund, warum wir hier bei SERP Co, SEO Services mit Stolz anbieten – und es als einen Kampf gegen die Giganten sehen. Ein Weg für uns, den kleinen Jungs zu helfen, das zurückzuerobern, was ihnen gehört – organische Suchmaschinen-Immobilien, bei denen man nicht für Klicks bezahlen muss.

Verbessertes Web Crawling, verbesserte Indexierung

Nun entwickelt sich Google jedoch weiter und ist in der Lage, ein ausgefeilteres und komplexeres Verständnis von Informationen zu schaffen. Anstatt Informationen auf Webseiten einfach nach Schlüsselwörtern zu ordnen, ist es nun in der Lage, Entitäten zu verstehen – so wie wir Menschen es tun. Zum Beispiel war die Keyword-Phrase „nicholas cage“ einfach eine Folge von 12 Buchstaben, die durch ein Leerzeichen getrennt waren..Jetzt versteht Google mehr über dieses Schlüsselwort, die Gründe, warum Menschen danach suchen, und dass Nicholas Cage eine Entität ist – speziell eine Personenentität. Wenn Sie also nach Nicholas Cage suchen, erhalten Sie mehr Informationen über ihn, als Person.

Web-Crawler-Richtlinien

Da Web Crawler Software sind, folgen sie Regeln, die als Policies bekannt sind. Auswahlrichtlinien – sagen den Crawlern, welche Seiten sie herunterladen sollen und welche nicht. Re-Visit-Policies – sagen den Crawlern, wann sie zurückkehren sollen, um nach Änderungen zu suchen. Höflichkeitsrichtlinien – sagen den Crawlern, wie sie die Überlastung von Websites vermeiden können. Tipp: Sie haben hier eine gewisse Macht, indem Sie ihnen Anweisungen in Ihrer robots.txt-Datei geben.

Die Bedeutung von Webcrawlern für Suchmaschinenoptimierung

Suchmaschinenoptimierung – die Praxis, Inhalte für die Indizierung durch Suchmaschinen vorzubereiten, damit Ihre Website in den SERP-Ergebnissen weiter oben erscheint und Sie mehr Klicks, Traffic, Verkäufe usw. erhalten. Ohne Web-Crawler würde Ihre Website nie gefunden werden und somit nicht in den Suchmaschinen präsentiert werden können.
Selektivität Die meisten Crawler versuchen nicht, das gesamte Internet zu crawlen, denn seien wir ehrlich – einige Websites sind wichtiger als andere, und das Internet ist einfach viel zu groß. Web-Crawler (denken Sie daran, dass es sich um Software handelt) benötigen Ressourcen (aka Geld), um zu laufen, also wollen Unternehmen sicherstellen, dass sie ihre Ressourcen so effizient wie möglich nutzen, also müssen sie selektiv sein. Diese Bots entscheiden anhand von Faktoren, die sie als wichtig erachten, welche Seiten zuerst gecrawlt werden sollen: Wie beliebt ist die Seite? Sie müssen sie immer wieder crawlen, wenn sie wollen, dass die aktualisierten Informationen, die die Site weiterhin veröffentlicht, von einer Suchmaschine abgerufen werden können. Die Popularität wird durch Hunderte von Ranking-Faktoren bestimmt, aber die wichtigsten sind: Traffic, Anzahl der Links auf die Seite, etc.

Crawl-Budget

Das „Crawl-Budget“ eines Web-Crawlers ist im Grunde die Menge an Seiten, die er innerhalb eines bestimmten Zeitraums auf einer bestimmten Website crawlen (und indizieren) wird. Was bedeutet das für Sie? Wenn Ihre Website zu langsam ist, zu schwer zu crawlen, als nicht wichtig genug erachtet wird usw., wird Ihr Budget erschöpft sein und der Crawler wird gehen. Er wird es verpassen, Seiten zu finden, und somit werden Ihre Seiten nicht in Suchmaschinen indiziert werden.

Eine gute Sitemap
Eine gute Website-Architektur
Gute Seitengeschwindigkeit
Viele Backlinks
Gute interne Verlinkung
Eine richtig eingerichtete robots.txt-Datei
Sicherstellen, dass Ihre Website nicht viele defekte Seiten hat (404s, etc.)

robots.txt

Ihre robots.txt-Datei ist eine Datei auf Ihrer Website, in der Crawler nach Richtlinien suchen – Sie können die Spider einladen oder sie fernhalten – Sie haben die Wahl. Sie möchten vielleicht nicht, dass Bots bestimmte Seiten besuchen (maximieren Sie Ihr Crawl-Budget auf Ihre wichtigeren Website-Abschnitte) oder vielleicht möchten Sie einfach bestimmte Bots blockieren.

Gute Bots vs. schlechte Bots

Wir möchten also, dass unsere Website von Google, Bing, Yahoo usw. gefunden wird, damit unser Unternehmen von Kunden gefunden werden und wachsen kann. Großartig! Und jetzt wissen wir, dass wir dafür sorgen müssen, dass diese Crawler-Bots unsere Website finden, damit unsere Website gefunden wird. Prima. Aber nicht alle Web-Crawler sind Programme, die von den Suchmaschinenfirmen entwickelt wurden, und nicht alle Bots werden im Internet eingesetzt, um Inhalte zu INDEXieren – einige sind dazu da, Inhalte zu scrapen.

Was sind Scraper-Bots? Haben Sie jemals Spam-Anrufe oder Spam-E-Mails erhalten? Wie sind diese Leute an Ihre Kontaktinformationen gekommen? Nun, ein Weg war, dass sie von Ihrer Website oder einer anderen Website im Internet abgeschöpft wurden. Haben Sie sich jemals gefragt, wie Ihre geschäftlichen/persönlichen Informationen auf Websites landen, von denen Sie sicher wissen, dass Sie sie nicht hinzugefügt haben? Vielleicht wurden sie abgeschöpft.

Bots können alles auslesen, was öffentlich im Internet veröffentlicht wird. Dazu gehören Texte, Bilder, HTML, CSS, usw. Böswillige Bots können alle möglichen Informationen sammeln, die Hacker/Angreifer für eine Vielzahl von Zwecken nutzen: Textbasierte Inhalte können auf einer anderen Website wiederverwendet werden, um die SERP-Rankings der ersten Website zu stehlen. Angreifer könnten den gesamten HTML- und CSS-Code Ihrer Website verwenden, um ein Duplikat Ihrer Website zu erstellen und zu versuchen, Benutzer zur Eingabe ihrer Benutzernamen, Passwörter, Kreditkarteninformationen usw. zu verleiten usw.

Persönliche Informationen können massenhaft abgegriffen werden, um Datenbanken von Personen einer bestimmten Kohorte zu sammeln und für Marketingzwecke zu verwenden. Zugegeben, dies ist nicht annähernd so bösartig wie die vorherigen Beispiele, aber es verdeutlicht dennoch den Punkt – nicht alle Bots sind dazu da, Ihre Inhalte für Suchmaschinen zu indizieren. Das ist nicht nur eine schwindelerregende Menge an Bot-bezogenen Aktivitäten, sondern hat auch echte Auswirkungen auf Sie als Website-Besitzer. Es wirkt sich auf Ihre Analysen, Ihre Server-Ressourcen usw. aus.

Abschließender Gedanken

Bots sind überall. Web-Crawler machen fast die Hälfte des Internets aus. Als verantwortungsbewusster Geschäftsinhaber, Website-Besitzer, SEO-Berater usw. ist es daher von entscheidender Bedeutung, dass wir sie verstehen und weiterhin lernen, was wir tun können, um die guten Bots hereinzulassen und die bösen Bots draußen zu halten.