Die Mär von der Erkennung ähnlicher Inhalte
Manchmal passieren rätselhafte Dinge. Alle Welt schreibt immer wieder vom semantischen Web, von toten Keyword-Densities, oder gar vom Sterben der gesamten SEO-Szene. Mögen Computer und die Algorithmen, die in ihnen werkeln, noch so intelligent sein: Doppelte Inhalte zu erkennen ist offenbar ganz und gar nicht trivial.
Ich machte dazu ein kleines Experiment und beteiligte mich vor geraumer Zeit am HochgeschwindigkeitsSEO-Wettbewerb. Dabei stieß ich auf mehrere interessante Dinge:
- Google lässt sich noch immer hinsichtlich des Veröffentlichungsdatums eines Artikel täuschen.
- Mit Schrottcontent passable Rankings zu erzielen ist nicht ganz so kompliziert wie gedacht.
Zu den Eckdaten:
Ziel des Wettbewerbs war es mit dem Keyword „HochgeschwindigkeitsSEO“ an einem bestimmten Tag auf Platz 1 der Google-Suchergebnisse zu landen. Der Contest dauerte ein paar Wochen und ich nahm ihn nur am Rande zur Kenntnis, weil ich zu dieser Zeit recht viel unterwegs war. Fünf Stunden bevor der Sieger bekannt gegeben wurde, hatte ich ein bisschen Zeit und da man bei Sistrix so schön die Ergebnisse beobachten konnte, dachte ich mir: Schau mal, wie weit Du in ein paar Stunden kommst. Schließlich ging es um möglichst schnelle Optimierung.
Wenn ich Tools zur Textoptimierung entwickle, teste ich ganz gern mit dem Wort „Currywurst“ und so war es naheliegend, den entsprechenden Wikipedia-Artikel zu kopieren und alle Vorkommen von Currywurst durch „HochgeschwindigkeitsSEO“ zu ersetzen. Noch ein paar Überschriften setzen und den Text anständig formatieren – fertig war mein Contest-Beitrag.
Mir fiel auf, dass ältere Ergebnisse zum Thema potentiell ein bisschen besser rankten, also versuchte ich einen Trick, den ich vor längerer Zeit schon einmal beschrieben hatte. Ungeachtet dessen, dass das bessere Ranking auch an einer besseren Verlinkung hätte liegen können, setzte ich das Veröffentlichungsdatum des Beitrages einen Tag zurück.
30 Minuten später stand mein Artikel auf Platz 57 der Google-Suchergebnisse. Eine Stunde später auf 47. Am Abend landete er noch in den 30ern. Angesichts der Anzahl der Ergebnisse, die Google zu diesem Thema aufwies, war das ein etwas erstaunlicher Aufstieg. Zumal ich nur zehn Minuten mit dem Beitrag zugebracht hatte und meine einzigen Links von Seoigg und aus einem Blog kamen, für den ich kaum noch schrieb. Etwas später hatte der Artikel es sogar bis auf Platz 14 in den Suchergebnissen (der Anstieg erfolgte ganz von allein, ohne das weitere Links hinzukamen oder sonstige Änderungen vorgenommen wurden) geschafft. Der Begriff hate 1,5 Mio. Konkurrenten von denen sich viele viel mehr Mühe gemacht haben als ich.
Und obwohl der Artikel voll in die duplicate content Problematik laufen sollte, passierte nichts, außer einem steigenden Ranking. Ich hätte erwartet, dass er nach maximal zwei Wochen komplett aus dem Ranking verschwindet.
Warum tut er das dennoch nicht?
Es gibt dafür mehrere Erklärungen: Die Klassifizierung der Hochwertigkeit eines Beitrages erfolgt stufenweise. Selbst mit derart viel Rechenpower wie bei Google bleibt einem zunächst nichts anderes übrig, als erstmal alles in den Index aufzunehmen, was ankommt. Genau das ist passiert.
Nach oberflächlichen OnSite-Kriterien ist der Artikel super. Sowohl was die Textlänge, als auch die enthaltenen Formulierungen angeht. Selbst wenn die Keyword-Density in der Theorie keine Rolle spielen dürfte, hier tut sie es definitiv. Und auch wenn unsere Suchmaschinen immer intelligenter werden, bedeutet das noch lange nicht, dass Sie einen sinnvollen Text erkennen. Google tut sich selbst mit der Erkennung von Singular und Plural derart schwer, dass es äußerst unwahrscheinlich scheint, tatsächlich den Inhalt eines Textes nach menschlichen Maßstäben „vernünftig“ klassifizieren zu können.
(Artikel erstmals veröffentlicht am 18. September 2012 – Inhalte evtl. nicht mehr aktuell)
Interessante Untersuchung. Wäre interessant, wie sich das in nächster Zeit entwickelt. Bitte auf dem laufenden halten.