Architektur von Suchmaschinen: Keywordgewinnung

Beitragsbild - Webseitenarchitektur und Suchmaschinenoptimierung

Dieser Artikel aus unserer Reihe zur Suchmaschinenarchitektur wird sich erneut dem Information Retrieval System widmen. Im Beitrag zur Wort-und Sprachidentifikation habe ich darauf hingewiesen, dass sich dieses System allgemein in drei Komponenten aufteilen lässt: die Datennormalisierung, die Dokumentenanalyse und die Schaffung durchsuchbarer Datenstrukturen (Indexierung). Auch möchte ich noch einmal an die Frage erinnern, die ich in diesem Artikel gestellt habe und an der sich auch der heutige Beitrag orientiert: Wie gelingt es den Suchmaschinen vollautomatisch, also ohne menschliche Hilfe, Internetseiten zu verstehen und so zu ordnen, dass bei einer Abfrage passende und sinnvolle Ergebnisse anzeigt werden können?

Hierzu wurden beim letzten Mal bereits erste Antworten geliefert. Von den sechs Prozessen, die hierbei im Rahmen der Datennormalisierung und der Dokumentenanalyse durchlaufen werden müssen, haben wir die Datennormalisierung sowie die Wort- und Sprachidentifikation bereits erläutert. Heute geht es daher um den zweiten Teil der Dokumentenanalyse, die das Word Stemming, die Deskriptoren- oder Keywordgewinnung und die Blacklist umfasst. Die Übergänge von der Dokumentenanalyse zur Indexierung sind hier fließend. Man sieht auch, dass zum Beispiel die Keywordgewinnung schon zur Indexierung gezählt wird, so zum Beispiel im 1 und 1 Blog.

Word Stemming

Word Stemming bedeutet letztlich nichts anderes als die Bildung von Wortstämmen. Die Wörter in dem zu untersuchenden Dokument werden also auf ihren Wortstamm reduziert. Auf diese Weise können dann auch Begriffe gefunden werden, die im Text zum Beispiel im Plural oder als konjugiertes Verb vorkommen. Dies funktioniert selbstverständlich nur, da vorher in der Sprachidentifikation die Sprache des Dokuments festgestellt wurde. In einer Suchmaschine, die kein Word Stemming verwendet, würde man Probleme bekommen, wenn man einen Suchbegriff zum Beispiel in der Pluralform eingibt. Das passiert bei den großen Suchmaschinen wie Google jedoch nicht, da diese in der Regel Word Stemming verwenden.

Ziel des Word Stemmings ist es die Größe des zu durchsuchenden Dokuments zu verringern. Vor allem sollte zunächst der Anteil relevanter Dokumente des Datenbestandes, die auch tatsächlich gefunden werden (Recall), erhöht werden. So werden nach Möglichkeit alle für eine Abfrage relevanten Dokumente ermittelt. Außerdem sollte der Anteil relevanter Dokumente in den gefundenen Dokumenten (Precision) gesteigert werden, sodass im Idealfall keine irrelevanten Dokumente mehr zu finden sind.

Die Steigerung von Recall und Precision kann selbstverständlich nicht allein durch Word Stemming erreicht werden. Daher ist es  extrem vereinfachend für die Dokumentenanalyse von nur sechs Prozessen auszugehen, denn es gibt auch noch weitere Verfahren, die  anstatt des Word Stemmings oder zusätzlich von den Suchmaschinen in der Dokumentenanalyse verwendet werden, u.a. um Recall und Precision zu steigern. Davon sollen hier einige genannt werden:

Stoppworterkennung

Bei Stoppwörtern handelt es sich im Wesentlichen um Wörter, die zwar eine syntaktische Bedeutung haben, aber für den Inhalt eines Textes keine Rolle spielen. Darunter fallen zum Beispiel bestimmte und unbestimmte Artikel, Präpositionen oder Konjunktionen. Diese werden mit der Stoppworterkennung zunächst erkannt und dann aus dem Dokument entfernt. Das erhöht die Precision, wie es auch die Größe des zu indexierenden Dokuments verringert.

Mehrwortgruppen-Identifikation

Hierbei handelt es sich um ein Verfahren, das Worte erkennen soll, die aus mehreren Wörtern zusammengesetzt sind. Dies geschieht mit Hilfe von Wörterbüchern und statistischen Verfahren. Im Übrigen erscheint mir dieser Filter gerade für den deutschen Sprachraum sehr wichtig, denn wir verwenden ja ungewöhnlich häufig zusammengesetzte Worte. Das Wort Suchmaschinenoptimierung könnte man zum Beispiel in zwei, bzw. sogar in drei Wörter zerlegen. Wenn also „Suchmaschine“ oder nur das Verb „suchen“ vorkommt, könnte durch die Mehrwortgruppen-Identifikation festgestellt werden, dass die Wörter zu einer bestimmten Wahrscheinlichkeit zusammengehören.

Es gibt auch noch weitere Filterverfahren, wie zum Beispiel das Part-of-Speech Tagging, die zur Dokumentenanalyse eingesetzt werden. Dass all diese Filter noch nicht perfekt arbeiten, merkt man sehr häufig, wenn man selbst mal etwas sucht und auf falsche Ergebnisse trifft. Aber durch stetige Weiterentwicklung dürften sie immer besser werden.

 

Keywordgewinnung

Die Keywordgewinnung, genauer gesagt die Gewinnung von relevanten Keywords, ist das eigentliche Hauptziel des Information Retrieval Systems. Denn Keywords (Schlüsselwörter, Deskriptoren) sind für die Suchmaschinen die Wörter eines Dokuments, die den Inhalt der Seite am besten beschreiben oder wiedergeben. Keywords sind auch die Wörter, die dann später im Index mit der Sucheingabe des Users verglichen werden. Sie sind daher letztlich für die Suchmaschinen der wichtigste Anhaltspunkt, um zu erkennen, welche Seiten für eine Sucheingabe relevant sind. Damit sind die Keywords auch für die Seitenbetreiber von großer Bedeutung. Nicht zuletzt dreht sich im Rahmen der Suchmaschinenoptimierung letztlich alles um die Optimierung auf bestimmte Keywords. Darauf gehen wir in diesem Artikel genauer ein.

Wie erkennen die Suchmaschinen aber die inhaltlich relevanten Keywords? Die Antwort lautet mal wieder: über statistische Verfahren. Nachdem die Texte durch die vorher beschriebenen Filter bearbeitet wurden, wird in der Keywordgewinnung die Häufigkeit ermittelt, wie oft bestimmte Wörter und Begriffe vorkommen. Es hat sich gezeigt, dass inhaltlich relevante Keywords in der Regel eine Dichte von zwei bis sechs Prozent im Text ausmachen (Keyword-Density).

Was bedeutet das für Sie als Betreiber, wenn Sie bei bestimmten Keywords gefunden werden wollen? Das bedeutet für Sie, dass Sie darauf achten sollten, dass eben diese Keywords in einer mittleren Häufigkeit selbst oder in Variation in Ihrem Text vorkommen. Dabei kann der Begriff ruhig ein- oder zweimal häufiger verwendet werden, als man dies normalerweise machen würde. Jedoch muss unbedingt darauf geachtet werden, dass es nicht zu offensichtlich und für den Leser nervend wird.

Blacklist-Abgleich

Mit der Blacklist soll der Teil zur Dokumentenanalyse abgeschlossen werden. Im nächsten Beitrag zur Architektur von Suchmaschinen wird es dann schließlich um die Indexierung gehen.

Auf der Blacklist der Suchmaschinen befinden sich rechtlich oder sonstwie problematische bzw. verbotene Begriffe. Im Blacklist-Abgleich werden die zu indexierenden Dokumente noch einmal auf diese Wörter untersucht. Werden Dokumente mit solchen Begriffen entdeckt, wird es nicht in den Index aufgenommen und aus der URL-Datenbank entfernt.

 

Das könnte dir auch gefallen

Kommentar hinterlassen

Deine E-Mail Adresse wird nicht veröffentlicht.

4 Kommentare
19.11.2011

Und wer mal wissen möchte welche Keywords auf seiner Seite relevant kann gerne mal bei mir vorbei schauen ;)

http://www.semager.de/keywords/url-analyse.php