Was Co-Occurrence und WDF*IDF gemeinsam haben

Um diesen Artikel hier einzuleiten, habe ich vergangene Woche erst einmal geklärt, was Co-Occurrence überhaupt ist. Das schien mir notwendig und nützlich, zumal ich deswegen jetzt schneller ins Thema einsteigen kann. Das Thema Co-Occurrence kommt ursprünglich aus den USA und wurde dort bereits als das „Next Big Thing in SEO“ bezeichnet. Ich glaube aber, dass es wohl eher nicht das nächste große Ding ist, denn es ist schon längst da – in abgewandelter Form. Als ich mich mit der Sache beschäftigt habe, schoss mir sofort das Thema WDF*IDF in den Kopf, auch genannt die Termgewichtung, die im letzten Jahr für einen Hype in der SEO-Szene gesorgt hat, jedenfalls in Deutschland. Meine These ist nun, dass die systematische Anwendung der Termgewichtungsformel in der Textoptimierung die Co-Occurrence bereits berücksichtigt, soweit sie für die Suchmaschinenrankings überhaupt relevant ist.

Der Einsatz von Co-Occurrence

Co-Occurrence oder Kookkurrenz bezeichnet das gleichzeitige Vorkommen zweier oder mehrerer unterschiedlicher Begriffe in Texten zu einem bestimmten Thema. Kommen diese Begriffe also gemeinsam in einem Text vor, ist es wahrscheinlich, dass dieser Text auch eine Relevanz für ein bestimmtes Thema hat. Wenn der Suchmaschine also gewisse Beziehungen zwischen zwei Begriffen bekannt sind, kann sie diese Erkenntnis in ihre Ergebnisse einfließen lassen. Berühmt berüchtigt ist zum Beispiel das Thema Weihnachtsmarkt und Glühwein. Texte über Weihnachtsmärkte enthalten häufig auch das Wort Glühwein, weil es hier einen engen inhaltlichen Zusammenhang gibt. Die meisten Leute die ich kenne, gehen nur wegen des Glühweins zu diesen Märkten. Aber wir wollen mal bei der Textoptimierung bleiben: Es gibt also eine direkte inhaltliche Beziehung zwischen Weihnachtsmarkt und Glühwein. Das können sogar Suchmaschinen erkennen (anhand der vielen Datensätze die sie haben). Ein Text über Weihnachtsmärkte in dem Glühwein nicht vorkommt, hätte demnach deutlich schlechtere Karten bei einer Suchmaschine für das Wort Weihnachtsmarkt zu ranken als die anderen. Auf die Spitze getrieben könnte auf diese Weise sogar ein Text für Weihnachtsmarkt ranken, in dem das Keyword selbst gar nicht vorkommt, dafür aber z.B. Glühwein. Da würde dann, aufgrund der häufigen Kookkurrenz der beiden Begriffe der Weihnachtsmarkt einfach vorausgesetzt, wenn es um Glühwein geht, zumal letzterer selten allein vorkommt. Teilweise kommt diese Verknüpfung von Keywords auch schon zum Einsatz, allerdings natürlich längst nicht in vollendeter Form. Somit kann man sagen, dass Co-Occurrence oder Kookkurrenz vor allem den Suchmaschinen dazu dient, die Relevanz von Texten zu einem bestimmten Thema zu ermitteln.

WDF*IDF in der Praxis

Die Termgewichtungsformel WDF*IDF bzw. WDF*p*IDF ist hingegen im letzten Jahr von SEOs wiederentdeckt worden. Seitdem hat es einige Tools gegeben, mit der sie sich berechnen lässt. Sie dient dazu nicht nur herauszufinden, welches Keyword im Text wichtig ist und wie häufig es vorkommt (Keyworddichte / Within Document Frequency =WDF), sondern gewichtet dieses Keyword noch nach seiner globalen Relevanz, also seinem Vorkommen in allen bekannten Dokumenten/Texten (Inverse Document Frequency). Um nochmal auf das Glühweinbeispiel zurückzukommen: Glühwein kommt in einem Weihnachtsmarkt-Text relativ häufig vor (WDF); in allen Texten die es gibt, ist Glühwein jedoch ein selten gesehener Begriff (IDF). Dadurch erhält Glühwein in einem Text einen hohen WDF*IDF-Wert.

Die Termgewichtung kann jedoch immer nur für genau ein Keyword angewendet werden. Eine Beziehung zwischen zwei oder mehreren Keywords drückt sie nicht aus. Daher wird sie für alle Keywords eines Textes angewandt. Anhand der Verteilung der Werte der einzelnen Keywords kann man dann herauslesen, welcher Begriff nicht nur für diesen Text relevant, sondern auch allgemein speziell für das Thema des Textes von Bedeutung ist, weil er in anderen Texten selten vorkommt.  Anhand dieses Musters der WDF*IDF Verteilung einzelner Keywords in einem Text lassen sich daher recht leicht Kookkurrenzen herauslesen, wenn man mehrere Texte zu einem Thema betrachtet. Genau das wird in der SEO-Anwendung von WDF*IDF gemacht. Die Top-Ergebnisseiten bei Google werden mit einem WDF*IDF Tool analysiert und miteinander verglichen, um somit das – für Google – optimale Verteilungsmuster zu erkennen und zu imitieren. Die Termgewichtung wird also von SEOs eingesetzt um herauszufinden, welche Relevanz die Suchmaschinen einzelnen Keywords und Keyword-Beziehungen beimessen.

So werden Co-Occurrence und WDF*p*IDF zusammengeführt

Für die SEO-Textoptimierung ist die Kookkurrenz bestimmter Keywords von steigender Bedeutung. Welche Kookkurrenzen allerdings für ein Thema relevant sind, lässt sich ohne genügend große Datenbasis nicht sagen. Diese haben die Suchmaschinen. Und ohnehin geht es ja nur darum herauszufinden, auf welche Kombinationen die Suchmaschinen Wert legen. Das machen SEOs mit Hilfe von WDF*IDF Tools und analysieren dabei die Kookkurrenz gleich mit, sofern sie die Ergebnisse in die Keywordanalyse miteinfließen lassen. Mit WDF*IDF lassen sich die von den Suchmaschinen beobachteten Kookkurrenzen beobachten, ein Beobachtungsbeobachtungstool sozusagen, oder eher ein Kookkurrenzbeobachtungsanalysetool. De Facto werden diese Keywords (Glühwein) jedoch deutlich banaler bezeichnet, nämlich beweisführende Terme oder eben Proof-Keywords, denn sie dienen letztlich dazu, das Thema eines Textes zu verifizieren, oder wie Karl Kratz es auf unserer Facebook-Seite genannt hat: „Terme, die einen thematischen Selbstbeweis von Inhalten ermöglichen“

Das könnte dir auch gefallen

Kommentar hinterlassen

Deine E-Mail Adresse wird nicht veröffentlicht.

4 Kommentare
30.04.2013

Erstmal großes Lob an euren Blog! Wirklich schöne Aufmachung un dviele interessante Themen, wie z.B. dieses hier. ;)

Auch Anfänger, die in das Thema SEO reinschnupern wollen, erhalten so einen guten Einblick in die Materie. Weiter so!

David Linden
30.04.2013

Hi Marius!
Danke für das tolle Lob! Sowas hört man doch gerne, da lohnt sich die Mühe.