Was ist eine Suchmaschine? – SEO Grundlagen
Das World Wide Web hat seit den 1990er ein rasantes Wachstum zu verzeichnen. Dieses Wachstum beinhaltet immer mehr Internetseiten – immer mehr Inhalt, jeden Tag. So wurde es schon früh für die Internetnutzer unmöglich, sich selbst in dem riesigen Angebot an Internetinhalten zu orientieren und vielleicht sogar die passenden Informationen zu einem Thema zu finden. Daher wurden zunächst Webkataloge entwickelt, die wie die gelben Seiten die Internetseiten katalogisierten. Mit zunehmendem Wachstum des Internets wurden sie aber zu langsam, da die Aufnahme der einzelnen Seiten auch viel zu lange dauerte, zumal sie oft noch von Menschen überprüft wurden. Dann kamen die Suchmaschinen auf, bei denen das Erfassen der bereitgestellten Informationen im Internet automatisch und somit viel schneller ablief. So konnte zumindest einigermaßen mit dem Wachstum mitgehalten und den Usern passende und aktuelle Ergebnisse zu ihren Suchanfragen geliefert werden.
Grob gesagt übernimmt eine Suchmaschine im World Wide Web also drei Aufgaben: Ein Teil der Suchmaschine sucht und indexiert Webseiten. Ein zweiter Teil speichert und katalogisiert diese Informationen. Ein dritter Teil stellt die gesammelten Informationen zu einem Thema oder einen Bereich auf Anfrage zur Verfügung. So gesehen könnte man sagen eine Suchmaschine ist das Inhaltsverzeichnis oder ein Teil des Inhaltsverzeichnisses für das Internet.
Nach der Eingabe eines oder mehrerer Suchbegriffe liefert die Suchmaschine eine nach Relevanz geordnete Liste mit Verweisen auf verschiedene Websites, deren Inhalte am ehesten mit dem Suchtext in Beziehung gebracht werden können. Dabei greift sie auf ihre katalogisierten Informationen über das Internet zu. Veränderungen der Daten oder der Seiten, sowie die Kriterien wie sich das Ranking zusammensetzen soll, werden zusätzlich ständig aktualisiert. Zu erkennen welche Internetseiten für einen eingegeben Suchbegriff relevant sind, ist die eigentliche Kunst der Suchmaschinen.
Es gibt auch so genannte Metasuchmaschinen. Diese arbeiten mit den Daten, die mehrere der oben beschriebenen Suchmaschinen zusammen getragen haben. Sie werden aber seitens der Suchmaschinenbetreiber argwöhnisch beäugt, da diese die zusammengetragenen Daten, deren Katalogisierung und Präsentation im Ranking als Betriebsgeheimisse betrachten.
Technik der Suchmaschinen
Im Wesentlichen besteht eine Suchmaschine aus fünf Einzelelementen: Dem URL-Server, mehreren Crawlern (auch Bots, Robots oder Spider genannt), dem Parser, dem Store Server und dem Index.
Der URL-Server verwaltet die Internetadressen, die noch nicht in den Index aufgenommen wurden oder zur Aktualisierung erneut untersucht werden sollen. Anmeldungen einzelner Webseiten bei Suchmaschinen werden zumeist an diesen URL-Server übermittelt. Dieser gibt die Daten dann an die Crawler weiter, die die Internetseiten besuchen und dort Daten sammeln.
Die Crawler wandeln nun jede einzelne URL in eine IP-Adresse um und treten auf diese Weise mit den jeweiligen Servern in Verbindung. Um die Server nicht zu überlasten und die Dauer der Übertragung zu verkürzen, öffnet ein Crawler sehr viele (manchmal sogar mehrere hundert) Verbindungen gleichzeitig. Treten bei einer Verbindung Probleme auf, kann er auf die nächste Verbindung zugreifen. Durch dieses Verfahren kann ein einzelner dieser Robots bis zu 30 einzelne Seiten pro Sekunde erfassen. Die so gewonnenen Daten gibt der Crawler an den Parser weiter.
Der Parser erstellt von jeder einzelnen HTML-Seite eine vereinfachte Form und übergibt diese an den Store Server. Dieser Store-Server hat nun die Aufgabe, die Informationen aus den vereinfachten Seiten zu extrahieren. Enthaltene Links werden zur weiteren Auswertung an den URL- Server übermittelt. Der sonst enthaltene Text bzw. die enthaltenen Begriffe werden – sofern noch nicht bekannt – in den Index aufgenommen.
Der Index besteht vereinfacht gesagt aus dem Lexicon, den Hit Lists und dem Repository. Das Lexicon ist eine Sammlung der im Netz gefundenen Begriffe. Nur jene Begriffe, welche im Lexicon enthalten sind, liefern auch eigenständige Suchergebnisse. Jeder Begriff bzw. jedes Wort des Lexicons enthält einen Vermerk auf die entsprechende Hit List. Die Hit Lists wiederum enthalten zu jedem Wort Verweise auf die entsprechenden Seiten im Repository. Dort werden die Webseiten gespeichert. Gleichzeitig wird in den Hit Lists vermerkt, welche Bedeutung einer einzelnen Seite in Bezug auf die jeweils enthaltenen Begriffe bzw. Suchwörter zukommt.
Um mit einer Suchmaschine interagieren zu können, benutzt man das Frontend oder den Searcher. Das Frontend ist die Benutzeroberfläche einer Suchmaschine, also das was wir sehen wenn wir die Seite aufrufen. Stellt der Benutzer eine Suchanfrage, zeigt der Searcher eine aus dem Lexicon und den Hit Lists erstellte Ergebnisliste an – das sogenannte Ranking.
Jede Suchmaschine verwendet eine eigene Methode, nach der die Ergebnisse bewertet und gelistet werden. Dieser Algorithmus ist das eigentliche Herzstück einer Suchmaschine. Er besteht aus hunderten von Kriterien, welche darüber entscheiden, an welcher Position eine Webseite bezüglich einer bestimmten Suchanfrage im Ranking gelistet wird.