Architektur von Suchmaschinen – Review
Ich habe mir für die Serie, um die es heute wieder geht, so viel Mühe gegeben, dass es sich durchaus lohnt sie noch einmal „Review“ passieren zu lassen. Schlechte Wortspiele sind übrigens nicht Teil der Serie, vielmehr handelte es sich dabei um ein sehr grundlegendes Thema für die Suchmaschinenoptimierung. Denn es geht generell darum, wie Suchmaschinen funktionieren. Dementsprechend heißt die Serie ja auch „Architektur von Suchmaschinen“ und besteht aus ganzen sieben Beiträgen. Das ist eine Menge und deswegen lohnt es sich auch, die Serie hier noch einmal kurz vorzustellen und zusammenzufassen, wenngleich man für einen wirklichen Einblick natürlich die Artikel selbst lesen sollte. Diese werden an den passenden Stellen verlinkt.
Die Serie orientiert sich in ihrer Reihenfolge natürlich an der tatsächlichen Architektur der Suchmaschinen. So ist die Struktur nach den drei Hauptfunktionen einer Suchmaschine aufgebaut:
1. Die Datengewinnung
2. Datenverwaltung und -analyse
3. Verarbeitung von Suchanfragen
Datengewinnung
Im Grunde arbeiten alle Suchmaschinen mit dem sogenannten Webcrawler-System zur Datengewinnung. Das bedeutet, sie beschaffen sich im Gegensatz zu Webkatalogen ihre Informationen durch eigene Crawler oder Robots . Das Webcrawler-System lässt sich in fünf Komponenten aufteilen, die sich wiederum auf drei Module verteilen.
1. Datenspeicherungsmodul
Dieses Modul des Webcrawler-Systems besteht aus den Komponenten Dokumentenindex und Repository. Während im Repository die Dokumente beziehungsweise die Internetseiten als Textdatei abgespeichert werden, so speichert der Dokumentenindex eine Reihe von Informationen zu den jeweiligen Dokumenten und weist ihnen eine eindeutige Bezeichnung zu, die DocID. Außerdem bildet der Dokumentenindex für jedes Dokument eine Checksumme, die mit Hilfe eines eigenen Algorithmus berechnet wird. Mit dieser Checksumme lassen sich dann die Dokumente abgleichen und so Dopplungen vermeiden, beziehungsweise Duplicate Content erkennen.
Dem Datenspeicherungsmodul des Webcrawler Systems wurde der erste Beitrag gewidmet, in dem Sie genaueres zum Dokumentenindex und Repository nachlesen können.
2. Verarbeitungsmodul
Das Verarbeitungsmodul beinhaltet die beiden Komponenten Scheduler und Storeserver des Webcrawler-Systems. Der Scheduler ist dabei für die Erweiterung und Pflege des Datenbestandes zuständig. Dazu erhält er alle relevanten Informationen aus dem Dokumentenindex und vergibt dann Aufträge an die Crawler, eine bestimmte Seite zu besuchen. Er ist dabei immer über den Status der Crawler informiert und nutzt sie möglichst ökonomisch. Damit bildet der Scheduler einen maßgeblichen Teil für das reibungslose und effiziente Funktionieren einer Suchmaschine.
Der Storeserver ist wiederum dafür zuständig, die von den Crawlern gelieferten Daten zu verarbeiten und zu speichern. Das funktioniert grob gesagt indem er drei Arbeitsschritte durchführt. Hier wird unter anderem festgelegt ob eine Seite in den Index aufgenommen wird. Dazu werden bestimmte Filterregeln angewandt. In unserem Beitrag aus der Serie zum Verarbeitungsmodul mit Scheduler und Storeserver erfahren Sie mehr dazu.
3. Protokollmodul
Die Protokollmodule im Webcrawler System bestehen aus den einzelnen Crawlern selbst. Die Crawler durchsuchen das Web selbstständig und/oder nach Auftrag durch den Scheduler nach Internetseiten. Durch ihre selbstständige Funktionsweise finden sie in der Regel neue Internetseiten von ganz alleine. Allerdings sind die Crawler eher dumm und finden nur den Weg, den man ihnen zeigt. Das ist eine der Hauptaufgaben für SEOs und daher ist die Funktionsweise der Crawler für die Suchmaschinenoptimierung auch so relevant. Wie sie ungefähr funktioniert, können Sie im dritten Beitrag zum Webcrawler-System nachlesen.
Datenverwaltung und -analyse
In den ersten drei Teilen wird geschildert, wie die Suchmaschinen mit dem Webcrawler-System an Daten gelangen. Die weiteren Artikel betrachten die Verwaltung und Analyse dieser Daten, denn irgendwie müssen die Suchmaschinen ja die Informationen der Internetseiten verstehen und ordnen, um später vernünftige Suchergebnisse ausgeben zu können. Dies geschieht im Information Retrieval System, das sich auch wieder in drei Bereiche aufteilen lässt:
1. Datennormalisierung
In der Datennormalisierung werden alle Dokumente in einheitliche Form gebracht, was normalerweise Textform bedeutet. Dazu werden alle Code-Elemente entfernt, sodass am Ende eine vergleichbare Datenbasis als Zeichenfolge in Textform bleibt. Im Grunde könnte man die Datennormalisierung auch mit der Datenanalyse zusammen durchführen.
2. Datenanalyse
Die Datenanalyse setzt sich aus zahlreichen einzelnen Prozessen zusammen. Die Wichtigsten werden hier kurz erklärt:
- Wort- und Sprachidentifikation:Die Wortidentifizierung ist ein Konvertierungsvorgang, bei dem die in der Datennormalisierung erreichte Zeichenfolge in eine Wörterfolge umgewandelt wird. Das heißt, die einzelne Anneinanderreihungen von Buchstaben werden als Wörter identifiziert. In der Sprachidentifikation wird die Sprache, in der das Dokument verfasst ist, bestimmt. Genaueres zum Information Retrieval System und den bisher erwähnten Punkten zur Datennormalisierung und Wort- und Sprachidentifikation erfahren Sie im vierten Teil unserer Serie.
- Word Stemming: Das Word Stemming bezeichnet als weiteren Prozess die Bildung von Wortstämmen aus den vorhandenen Wörtern. Das ist notwendig, da ansonsten nur genau die Wörter gefunden werden würden, die auch eingegeben wurden und zwar ganz exakt. Das heißt schon eine abweichende Form, zum Beispiel der Plural, würde keinen Treffer ergeben. Das wird durch Word Stemming vermieden. Zusätzlich geht es auch um die Effizienz des Suchsystems. Word Stemming ist dabei nicht das einzige Mittel, dazu gehören ebenso die Stoppworterkennung oder die Mehrwortgruppen-Identifikation.
- Keywordgewinnung: Auch Deskriptorengewinnung genannt, was aber nicht so leicht die Alarmglocken eines SEO-Interessierten klingeln lässt. Das ist das eigentliche Hauptziel des Information Retrievals, die relevanten Schlüsselbegriffe eines Textes herauszufiltern. Das passiert mit verschiedenen statistischen Verfahren, die unter anderem die Keyword-Density, also die Häufigkeit von Wörtern ermitteln und daraus Rückschlüsse auf die Bedeutung ziehen.
- Blacklist-Abgleich: Auf der Blacklist der Suchmaschinen stehen bestimmte Wörter, die nicht vorkommen sollen und/oder dürfen. Kommen solche Wörter in Dokumenten vor, werden diese nicht in den Index aufgenommen. Diese Prozesse wurden im fünften Teil der Serie zur Architektur von Suchmaschinen beleuchtet.
3. Indexierung
Eigentlich geht es ja um die Erschaffung durchsuchbarer Datenstrukturen, aber der Begriff Indexierung ist doch viel eingängiger. Zumal die Indexierung ja keinen abgekoppelten Prozess bezeichnet, sondern alles bisher Genannte irgendwie dazu gehört. Durchsuchbare Datenstrukturen schaffen die Suchmaschinen mit Hilfe eines invertierten Dateisystems, das sich ebenfalls in drei Teile gliedert:
- Direkte Dateien: Das sind die Textdokumente, die aus den ursprünglichen Dokumenten gewonnen wurden;
- Index: Der Index enthält alle in allen verfügbaren Dokumenten gefundenen Keywords in alphabetischer Reihenfolge sortiert;
- invertierte Dateien: Hier wird der Index mit den direkten Dateien verbunden, denn hier sind jedem Keyword alle DocIDs von Dokumenten zugeordnet, die dieses Keyword enthalten. Wenn das jetzt auf die Schnelle zu komplex war, dann lohnt es sich auf jeden Fall den sechsten Teil unserer Serie zu lesen.
Verarbeitung von Suchanfragen
Im siebten und letzten Beitrag der Serie wird dann die dritte und letzte Funktion der Suchmaschine erläutert, nämlich die Verarbeitung der vom Nutzer gestellten Suchanfrage. Dafür ist der Query-Prozessor zuständig, der über das invertierte Dateisystem erst einmal alle zu den Suchbegriffen passenden Dokumente findet und diese dann anhand vieler verschiedener Kriterien einordnet. Die dafür notwendigen Algorithmen, die tatsächlich die relevantesten unter den Dokumenten finden, sind das Herzstück der Suchmaschinenbetreiber. Googles Pagerank-Algorithmus hat beispielsweise maßgeblich zum Erfolg von Google beigetragen. In diesem letzten Teil werden einige der wichtigsten Rankingfaktoren genannt.