Architektur von Suchmaschinen: Dokumentenindex

01.02.2018 | mit David Linden

Beitragsbild - Webseitenarchitektur und Suchmaschinenoptimierung

Auf die Frage “ Was ist eine Suchmaschine? “ sind wir bereits eingegangen. In diesem und in einigen weiteren Beiträgen wird es nun um die Architektur von Suchmaschinen gehen, also grob gesagt, um deren Aufbau. Im Hintergrund dazu steht die Frage: Wie funktionieren Suchmaschinen? Um den Usern möglichst gute, komplette und aktuelle Ergebnisse liefern zu können, müssen riesige Datenmengen des Internets gesammelt werden, um sie dann zu analysieren und den Usern die richtigen Informationen zu den passenden Suchphrasen bereitzustellen. Von diesen drei Funktionen der Datengewinnung, der Datenanalyse und der Verarbeitung von Suchanfragen werden wir in diesem und den kommenden Beiträgen vor allem die erste Funktion der Datengewinnung betrachten.

Das Webcrawler-System

Wie schaffen es die Suchmaschinen, trotz ständig veränderter Websites und trotz eines stark wachsenden Datenvolumens, den „Überblick“ über das Internet zu behalten? Wie schaffen sie es, sich die ganzen relevanten Daten zu beschaffen und aktuell zu halten? Wir werden das nicht anhand der Besonderheiten einer einzelnen Suchmaschine erläutern. Das geht, da die wichtigsten Suchmaschinen alle mit dem sogenannten Webcrawler- oder Webrobot-System zur Datengewinnung arbeiten. In diesem System beschaffen sich die Suchmaschinen die relevanten Informationen mit Hilfe von Robots bzw. Crawlern selbst, was sie zum Beispiel von Webkatalogen unterscheidet.

Die wichtigsten Komponenten des Webcrawler-Systems sind:

Dokumentenindex
Scheduler
Crawler
Storeserver
Repository

Auf diese fünf Komponenten werden wir in den nächsten Beiträgen eingehen.

Der Dokumentenindex

Der Dokumentenindex gehört zusammen mit dem Repository zum sogenannten Datenspeicherungsmodul, einer weiteren Zusammenfassung der fünf Komponenten des Webcrawler-Systems. Er wird gelegentlich auch als URL-Datenbank bezeichnet, ist jedoch viel mehr als das. Der Dokumentenindex enthält Informationen zu allen in der Datenbank gespeicherten Dokumenten. Diese Informationen umfassen unter anderem:

die Länge des Dokuments
das Erstellungsdatum (sowie Änderungszeitpunkte)
den Dokumententyp
die Seitentitel
Informationen aus dem Meta-Tags
Statusinformationen über den Server
den Hostname und die IP-Adresse

Die Dokumente erhalten eine eindeutige Bezeichnung, die sogenannte DocID, wonach sie auch sortiert werden. Eine wichtige Funktion des Dokumentenindex ist auch, dass sich mit seiner Hilfe einzelne Dokumente abgleichen lassen. Dies funktioniert mit Hilfe der Checksumme. Sie wird für jedes Dokument mit Hilfe von Algorithmen, die die Suchmaschinenbetreiber selbst entwickeln, berechnet. Eine Änderung der Seite führt daher auch zu einer Änderung der Checksumme. Identische Dokumente haben folglich die selbe Checksumme, sodass sich duplicate Content hier feststellen lässt. Somit hilft der Dokumentenindex auch dabei, Platz für das Repository zu sparen.

Repository

Wie erwähnt gehört das Repository, ebenso wie der Dokumentenindex, zum Datenspeichermodul. Wenn allerdings der Dokumentenindex am Anfang steht, so bildet das Repository das Ende der Datengewinnung. Im Repository werden nämlich die Dokumente, also Kopien der Webseiten, in der Regel im HTML Code gespeichert – und das mitsamt der im Dokumentenindex gespeicherten Informationen und nach DocID geordnet.