Architektur von Suchmaschinen: Wort- und Sprachidentifikation im Information Retrieval System
In unserem ersten Beitrag zur Architektur von Suchmaschinen habe ich bereits erwähnt, dass die meisten Suchmaschinen drei Funktionen oder Funktionsbereiche haben. Das waren erstens die Datengewinnung, zweitens die Datenverwaltung und-Analyse und drittens die Verarbeitung von Suchanfragen.
Wir bewegen uns auch weiterhin entlang der Frage: Wie funktionieren Suchmaschinen? In den ersten drei Beiträgen haben Sie erfahren können, wie die Datengewinnung im Webcrawler-System funktioniert. Nun kommen wir zur zweiten Funktion der Suchmaschinen, der Datenverwaltung und Datenanalyse oder zu der Frage: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können?
Dies geschieht mit dem sogenannten Information Retrieval System, dessen Aufgaben sich in drei Teile gliedern lassen: Die Datennormalisierung, die Daten- bzw. Dokumentenanalyse und die Schaffung von durchsuchbaren Datenstrukturen (die eigentliche Indexierung).
Ziel der Datennormalisierung und der Analyse ist es, die relativ ungeordneten Dokumente, die im Webcrawler System gesammelt wurden, zu strukturieren, um sie dann später indexieren und also durchsuchbar machen zu können. Dazu werden vor der Indexierung sechs Prozesse durchlaufen:
- die Datennormalisierung
- die Wortidentifikation
- die Sprachidentifikation
- das Word Stemming
- die Deskriptorengewinnung
- der Blacklist-Abgleich
Hierbei ist zu berücksichtigen, dass es sich bei diesen sechs Prozessen nur um eine vereinfachende Zusammenfassung handelt. Es finden sich auch Auflistungen mit abweichenden Formulierungen oder anderen Gewichtungen in der Zusammenfassung der eingesetzten Verfahren.
Im diesem Beitrag werden wir uns nun zunächst mit den ersten drei Verfahren befassen, die weiteren werden dann in kommenden Beiträgen folgen.
Datennormalisierung
Die Datennormalisierung könnte man auch Datenanpassung nennen, denn sie hat die Aufgabe alle Dokumente in ein einheitliches Dateiformat, also in der Regel in Textform, zu bringen. Das dient zum einen dazu eine vergleichbare Datenbasis zu schaffen, zum anderen können die Suchmaschinen so an den reinen inhaltlichen oder informativen Teil der Dokumente gelangen, da dieser sich normalerweise im Textteil befindet. Also werden alle inhaltlich nicht relevanten Teile entfernt, unter anderem HTML-, Java- oder andere Code-Elemente, sodass am Ende eine reine textliche Zeichenfolge übrig bleibt. Daher ist es im Rahmen der Suchmaschinenoptimierung sehr wichtig auf eine saubere Programmierung Ihrer Internetseite zu achten, denn wenn einzelne Code-Elemente fehlerhaft sind und daher dem inhaltlichen Teil zugerechnet werden, dann senkt das natürlich die inhaltliche Qualität des Textteils, was sich aufs Ranking auswirken kann.
Wortidentifikation
Bei der Wortidentifizierung handelt es sich im Wesentlichen um einen Konvertierungsvorgang. Denn in der Datennormalisierung wurde ja lediglich eine Zeichen- oder Textreihe erzeugt. Aus dieser Aneinanderreihung von Zeichen muss dann eine Aneinanderreihung von Wörtern werden, wenn denn in einem späteren Schritt relevante Keywords aus dem Text gefiltert werden sollen. Das ist in westlichen Sprachen noch recht einfach, da wir Satzzeichen und Wortseparatoren wie das Leerzeichen haben. Dies wird auch als Tokenisierung bezeichnet und ist für Sie ebenfalls relevant, denn wenn Sie in Ihren Texten Rechtschreibfehler, Zeichensetzungsfehler oder vor allem auch Fehler beim Einsatz von Sonderzeichen machen, kann das auch zu Fehlern bei der Tokenisierung führen.
Sprachidentifikation
Das Internet ist ja bekanntlich nicht auf ein Land beschränkt sondern WorldWide. Daher gibt es auch Websiten in allen möglichen Sprachen. Wenn ein Nutzer einen Suchbegriff eingibt, erwartet er dann in der Regel auch Ergebnisse in seiner Sprache. In Google gibt es dafür zum Beispiel eine Option in der man die Sprache wählen kann, in der die Ergebnisse erscheinen sollen. Woher aber wissen die Suchmaschinen um welche Sprache es sich handelt? Aus dem Meta-Tag language entnehmen sie diese Information nicht, denn dafür ist diese Information für die Suchmaschinen ja zu wichtig, um von fremden Angaben abhängig zu sein. Mit Hilfe einer Wörterbucherkennung und vor allem hoch komplexen statistischen Verfahren ermitteln die Suchmaschinen daher die Sprache der Internetseiten selbst.
Im nächsten Beitrag zur Architektur von Suchmaschinen werden wir uns wieder mit dem Information Retrieval System beschäftigen. Dann wird es darum gehen, wie die Texte analysiert und die relevanten Keywords aus ihnen gewonnen werden.