Die Mär von der Erkennung ähnlicher Inhalte

26.02.2018 | mit Jakob Holterhöfer

Manchmal passieren rätselhafte Dinge. Alle Welt schreibt immer wieder vom semantischen Web, von toten Keyword-Densities, oder gar vom Sterben der gesamten SEO-Szene. Mögen Computer und die Algorithmen, die in ihnen werkeln, noch so intelligent sein: Doppelte Inhalte zu erkennen ist offenbar ganz und gar nicht trivial.

Ich machte dazu ein kleines Experiment und beteiligte mich vor geraumer Zeit am HochgeschwindigkeitsSEO-Wettbewerb. Dabei stieß ich auf mehrere interessante Dinge:

Google lässt sich noch immer hinsichtlich des Veröffentlichungsdatums eines Artikel täuschen.
Mit Schrottcontent passable Rankings zu erzielen ist nicht ganz so kompliziert wie gedacht.

Zu den Eckdaten:

Ziel des Wettbewerbs war es mit dem Keyword „HochgeschwindigkeitsSEO“ an einem bestimmten Tag auf Platz 1 der Google-Suchergebnisse zu landen. Der Contest dauerte ein paar Wochen und ich nahm ihn nur am Rande zur Kenntnis, weil ich zu dieser Zeit recht viel unterwegs war. Fünf Stunden bevor der Sieger bekannt gegeben wurde, hatte ich ein bisschen Zeit und da man bei Sistrix so schön die Ergebnisse beobachten konnte, dachte ich mir: Schau mal, wie weit Du in ein paar Stunden kommst. Schließlich ging es um möglichst schnelle Optimierung.

Wenn ich Tools zur Textoptimierung entwickle, teste ich ganz gern mit dem Wort „Currywurst“ und so war es naheliegend, den entsprechenden Wikipedia-Artikel zu kopieren und alle Vorkommen von Currywurst durch „HochgeschwindigkeitsSEO“ zu ersetzen. Noch ein paar Überschriften setzen und den Text anständig formatieren – fertig war mein Contest-Beitrag.

Mir fiel auf, dass ältere Ergebnisse zum Thema potentiell ein bisschen besser rankten, also versuchte ich einen Trick, den ich vor längerer Zeit schon einmal beschrieben hatte. Ungeachtet dessen, dass das bessere Ranking auch an einer besseren Verlinkung hätte liegen können, setzte ich das Veröffentlichungsdatum des Beitrages einen Tag zurück.

30 Minuten später stand mein Artikel auf Platz 57 der Google-Suchergebnisse. Eine Stunde später auf 47. Am Abend landete er noch in den 30ern. Angesichts der Anzahl der Ergebnisse, die Google zu diesem Thema aufwies, war das ein etwas erstaunlicher Aufstieg. Zumal ich nur zehn Minuten mit dem Beitrag zugebracht hatte und meine einzigen Links von Seoigg und aus einem Blog kamen, für den ich kaum noch schrieb. Etwas später hatte der Artikel es sogar bis auf Platz 14 in den Suchergebnissen (der Anstieg erfolgte ganz von allein, ohne das weitere Links hinzukamen oder sonstige Änderungen vorgenommen wurden) geschafft. Der Begriff hate 1,5 Mio. Konkurrenten von denen sich viele viel mehr Mühe gemacht haben als ich.

Und obwohl der Artikel voll in die duplicate content Problematik laufen sollte, passierte nichts, außer einem steigenden Ranking. Ich hätte erwartet, dass er nach maximal zwei Wochen komplett aus dem Ranking verschwindet.

Warum tut er das dennoch nicht?

Es gibt dafür mehrere Erklärungen: Die Klassifizierung der Hochwertigkeit eines Beitrages erfolgt stufenweise. Selbst mit derart viel Rechenpower wie bei Google bleibt einem zunächst nichts anderes übrig, als erstmal alles in den Index aufzunehmen, was ankommt. Genau das ist passiert.

Nach oberflächlichen OnSite-Kriterien ist der Artikel super. Sowohl was die Textlänge, als auch die enthaltenen Formulierungen angeht. Selbst wenn die Keyword-Density in der Theorie keine Rolle spielen dürfte, hier tut sie es definitiv. Und auch wenn unsere Suchmaschinen immer intelligenter werden, bedeutet das noch lange nicht, dass Sie einen sinnvollen Text erkennen. Google tut sich selbst mit der Erkennung von Singular und Plural derart schwer, dass es äußerst unwahrscheinlich scheint, tatsächlich den Inhalt eines Textes nach menschlichen Maßstäben „vernünftig“ klassifizieren zu können.

(Artikel erstmals veröffentlicht am 18. September 2012 – Inhalte evtl. nicht mehr aktuell)

10 Kommentare

Malte

01.10.2012

Interessante Untersuchung. Wäre interessant, wie sich das in nächster Zeit entwickelt. Bitte auf dem laufenden halten.

Antworten

Ingo

Ich denke dieser und die vergangenen SEO-Wettbewerbe ala „HochgeschwindigkeitsSEO“ sind kein Maßstab für die Genauigkeit von Google, wenn es um das Thema semantisches Web geht.

Was du aber schön gezeigt hast ist, dass wenn Google den Suchbegriff und/oder Content semantisch nicht einordnen kann, entsteht eine Spielwiese für „schlechtes“ bzw. „technisches“ SEO (was in den vergangenen Wettbewerben auch überzeugend gezeigt wurde).

Ich denke, dass jeder (du eingeschlossen) 100x mehr Beispiele generieren kann, in denen der Semantik Algo überzeugend greift und die technisch arbeitenden Seiten am Ende der Suchergebnisse erscheinen.

Was mich bei sowas immer am meisten ärgert ist der Fakt, dass Google steif und fest behauptet ihr Steckenpferd sei der Longtail in Verbindung mit semantischen Faktoren. Das ist schlicht und ergreifend nicht der Fall. Eventuell besser, wenn an der Konkurrenz gemessen, aber immer noch u-n-t-e-r-i-r-d-i-s-c-h.

Schöner Artikel! :)

Chrischi

03.10.2012

Was ich nicht verstehe – wieso hat es so einen großen Einfluss auf das Ranking, wenn ich das Datum nur um einen Tag nach hinten verschiebe?

admin

@Chrischi
Bei einem Begriff den Google noch nicht kennt bekommen diejenigen die zuerst darüber schreiben ein paar Gummipunkte. Richtig interessant wird das Thema aber erst, wenn man den Blogsearch verwendet. Dort kann man nämlich den Veröffentlichungszeitpunkt für die Suche eingrenzen. Dadurch lassen sich signifikante Vorteile erzielen. Für den Wettbewerbskontext spielte die zeitliche Verschiebung eher eine untergeordnete Rolle.

Martin Pi

08.10.2012

Schön, dass ein Profi der Szene(?) offenbart, dass SEO einfach ist und kein großes Geheimnis.

David Linden

09.10.2012

In der Tat ist es bisweilen erschreckend und ernüchternd, was doch alles mit welchen Methoden möglich ist. Aber solche Ergebnisse, gerade im Rahmen von Wettbewerben zeigen keineswegs, dass SEO einfach wäre. Niemand weiß so ganz genau wann z.B. duplicate Content erkannt wird und wann nicht. Es ist auch möglich dass er erst nach einiger Zeit erkannt wird. Um sowas rauszufinden sind ja unter anderem solche Experimente da. Das sind aber Modellversuche, mit der SEO in der Realität haben sie nur teilweise Ähnlichkeit, denn für niemanden macht es Sinn, seine Website mit dem Currywurst Text zu betexten oder auf einen fiktiven Begriff nach dem niemand sucht zu optimieren, zumindest dann nicht wenn man mit der Seite irgendwelche Menschen erreichen möchte.

Die Mär von der Erkennung ähnlicher Inhalte

Zu den Eckdaten:

Warum tut er das dennoch nicht?

Das könnte dir auch gefallen

Kommentar hinterlassen Antwort abbrechen

Die Mär von der Erkennung ähnlicher Inhalte

Zu den Eckdaten:

Warum tut er das dennoch nicht?

Das könnte dir auch gefallen

Die Absprungrate in Google Analytics verstehen, manipulieren und optimieren

FAQ – 10 Fragen und Antworten zum hreflang-Attribut

Canonical und hreflang-Auszeichnung bei mehreren Webseiten-Versionen

Kommentar hinterlassen Antwort abbrechen