Wie erkennt Google Spam?

28.12.2017 | mit Marko Engelberth

Google und alle anderen Suchmaschinen wollen ihren Usern die bestmöglichen Suchergebnisse zu einer Suchanfrage liefern. In Bereichen, in denen im Internet kein Geld verdient werden kann, ging das auch schon immer recht gut. Aber es gibt eben auch Bereiche, in denen Unternehmen online in starker Konkurrenz zueinander stehen, weil dort (viel) Geld verdient werden kann. Google selbst ist in der Hinsicht das beste Beispiel. Am Anfang konkurrierte Google zum Beispiel mit den Suchmaschinen Fireball, Lycos und Yahoo. Bis auf Yahoo redet heute niemand mehr über diese Konkurrenten, manche kennen nicht einmal deren Namen. Und Google? Der Internetgigant steht prächtig da und dominiert die Suchmaschinenbranche weltweit.

Natürlich gibt es heute andere Konkurrenten, zum Beispiel Bing und diverse vertikale Suchmaschinen, die sich auf ihre Nische konzentrieren. Sie alle haben Probleme mit dem sogenannten „Webspam“ oder „Black Hat“-Techniken. Kurz gesagt gibt es Möglichkeiten, das Ranking in den Suchmaschinen zu manipulieren. Das führt dazu, dass in den Suchergebnisseiten nicht immer die relevantesten Ergebnisse ganz vorne stehen, sondern auch Seiten, die außer viel Werbung keinen Mehrwert bieten oder deren Inhalte von schlechterer Qualität sind als die ihrer Mitbewerber.

Da das nicht im Interesse der Suchmaschinenbetreiber ist, versuchen sie immer wieder ihre Algorithmen zu verbessern und zu verfeinern. Auf der anderen Seite suchen die Black Hats stets nach neuen Lücken und Methoden, mit denen sie weiter erfolgreich sind. Es ist also ein immerwährendes Katz-und-Maus-Spiel.

Um Webspam automatisch zu identifizieren, ordnet Google diesen in bestimmte Klassen ein (sogenannte Classifier).

Es gibt eine ganze Reihe von Spam-Methoden, die Google inzwischen automatisch erkennt:

Hidden Text und versteckte Links
Keyword-Stuffing
Content-Spam
Cloaking
Doorway-Pages
Verhältnis Content zu Quelltext, wobei beachtet werden muss, dass Links nicht zum Content gezählt werden
Verhältnis Werbung zum Content
Position von Werbung und Content auf einer Webseite
Qualität des Inhalts
Position und Länge des Contents in einer Webseite
Relevanz von eingehenden Links auf eine Webseite
Relevanz und Anzahl von ausgehenden Links einer Webseite
Linktexte
Linknetzwerke und Linkhubs
unverhältnismäßig viele Fehler in Content und Quelltext
Contentdiebstahl
Suchmaschinenvergiftung

Bei dieser Liste handelt es sich lediglich um die bekannteren Webspam-Methoden. Sie ist natürlich nicht abschließend, aber ich hoffe, ich habe keine der gängigen Methoden vergessen. Falls doch, bitte ich um Nachsicht und einen kleinen Hinweis in den Kommentaren.

Neben der automatischen Spam-Entdeckung gibt es natürlich auch die manuelle. Google stellt in den Webmastertools ein Formular bereit, in dem man eine Seite als Spam-Seite melden kann. Diese Meldung wird dann von sogenannten Quality Ratern überprüft.

Was geschieht, wenn eine Webseite als Spam klassifiziert wird?

Das kommt auf die Schwere des Vergehens an. Eine Seite, die ihr Ranking mit ein paar gekauften Links angeschoben hat, erhält eher keine Strafe (engl. penalty), außer dass die Linkquelle als Linkverkäufer enttarnt wurde und die Links künftig nutzlos sind. Dadurch dürfte sie im Ranking ein wenig an Boden verlieren. Eine Seite, die hingegen in großem Stil Links verkauft oder Cloaking betrieben hat, kann sogar gänzlich aus den Suchergebnissen gestrichen werden.

Dann bedarf es großer Mühen, um wieder in den Index aufgenommen zu werden. Auch hier kommen wieder die Quality Rater ins Spiel, die die Website genau untersuchen.