Das Canonical Tag – SEO-Grundlagen
Das Canonical Tag wurde im Februar 2009 von den seinerzeit größten Suchmaschinenanbietern Google, Yahoo und Microsoft eingeführt. Es sollte das Problem des doppelten Contents (engl. Duplicate Content) mildern. Die Suchmaschinen haben bis heute mit doppeltem Content zu kämpfen: URLs mit inhaltlich gleichen Seiten werden im Zuge der Suchergebnisanzeige ausgeblendet, denn Google mag keine Redundanz in seinen Suchergebnissen. Doppelte Inhalte sind aus vielerlei Gründen ein Problem in der Suchmaschinenoptimierung. Das Canonical Tag bietet da manchmal Abhilfe.
Was ist das Canonical Tag?
Das Canonical Tag ist ein Verweis von einem Duplikat auf die kanonische, also die bevorzugte Seite mit dem „Original“ Inhalt.
So kurz, so gut, trotzdem bin ich überzeugt, dass Begriffserklärungen wichtig sind, um das was sich dahinter verbirgt zu verstehen. Daher folgt nun zunächst ein kleiner Exkurs zur Bedeutung des Wortes canonical. Wer findet, dass Begriffserklärungen nicht so wichtig sind, kann das gerne auch überspringen.
Canonical – Begriffserklärung
Manchmal erklären sich technische Begriffe von alleine. Beim Canonical Tag ist das nicht so, nicht etwa weil es Englisch ist, sondern vielmehr weil auch die deutsche Übersetzung ein Fremdwort ist. In manchen Artikeln liest man dann etwas von kanonischen Links. Ich bezweifle aber, dass diese Übersetzung viel hilft. Denn kanonisch verbinden die Meisten mit dem Musikunterricht, also dem Kanon, den man singen kann. Vielleicht auch mit einem Literatur- oder Wertekanon, oder mit dem kanonischen Recht. Das hat aber alles nichts mit SEO zu tun. Also zäumen wir das Pferd von hinten auf:
Das (deutsche) Wort Kanon stammt ursprünglich vom altgriechischen und – für uns wohl releavanter – lateinischen canon, was zunächst Maßstab und Richtschnur, und später dann auch noch Regel und festgelegtes Gesetz bedeutete. Diese Bedeutungen gelten bis heute, auch in den eben genannten Formen. Das erklärt unseren Begriff aber immer noch nicht, denn offensichtlich erschließt sich seine Bedeutung erst im Zusammenhang in dem er erscheint. Die Bezeichnung canonical oder kanonisch gibt es in sehr vielen Bereichen, dabei spielt die ursprüngliche Bedeutung des Maßstabs und der Richtschnur die entscheidende Rolle. Auch in der Mathematik und Informatik wird der Begriff verwendet. In diesem Zusammenhang haben die meisten von uns so etwas sogar schon in der Schule gehört, ohne es zu wissen. Immer dann, wenn von Normalform die Rede war, hätte man im Grunde auch kanonische Form sagen können. Das scheint mir im Deutschen aber nicht üblich zu sein. Um wirklich zum Kern unseres Begriffes durchzudringen, reicht aber die mathematische Form nicht aus, sondern wir müssen uns in die Informatik begeben. Dazu habe ich in der englischen Wikipedia einen aufschlussreichen Satz gefunden:
In computer science, and more specifically in computer algebra, when representing mathematical objects in a computer, there are usually many different ways to represent the same object. In this context, a canonical form is a representation such that every object has a unique representation.
Salopp gesagt zeigt die kanonische Form dort also die einzigartigen Darstellungen für jedes Objekt an. Mit dieser etwas holprigen Übersetzung sind wir vermutlich bei unserem canonical angekommen. Denn es ist doch stark davon auszugehen, dass diese oder eine ähnliche Bedeutung bei der Namensgebung für das Tag im Hintergrund stand.
Warum gibt es das Canonical Tag?
Einleitend wurde ja schon gesagt, dass das Canonical Tag eingeführt wurde, um Duplicate Content und Probleme, die sich daraus für die Suchmaschinen ergeben, zu bekämpfen. Duplicate Content bedeutet doppelte Inhalte und das gibt es daher immer dann, wenn derselbe oder sehr ähnlicher Inhalt von mindestens zwei unterschiedlichen URLs abrufbar ist. So etwas lässt sich oft vermeiden, oder mit 301er Weiterleitungen umgehen, das ist jedoch nicht immer sinnvoll oder gewollt. Beispielsweise kann es sein, dass man möchte, dass die Website sowohl über eine „sichere“ Verbindung (also über https://) erreichbar ist, aber auch über das normale Protokoll (http://). Auf beiden steht aber natürlich dasselbe, für die User gibt es keinen Unterschied, denn denen ist es egal, ob es eine zweite Seite gibt. Google nicht, denn irgendeine von beiden müssen sie ja indexieren und die soll vielleicht sogar ranken. Aber welche? Google kann eine Kanonisierung zwar eigenständig vornehmen, aber ob das dann immer der Realität entspricht und die richtige Seite als Standard gewählt wird, steht auf einem anderen Blatt. Daher gibt es das Canonical Tag. Es ist im Grunde kein Tag sondern ein Link, der genauso funktioniert wie eine 301er Weiterleitung, allerdings nur für die Suchmaschinencrawler. Als Vergleich kann man ein Bild im Museum nehmen, das man aus irgendwelchen Gründen nicht an die Wand hängen kann. Stattdessen nimmt man eine Kopie und hängt davor eine Glaswand. Wir können durchgucken und das reicht uns, wenn es gut geputzt ist, bemerken wir das Glas nicht einmal. Die Crawler hingegen können nicht gucken, sondern nur abtasten und werden in einen anderen Raum geleitet, in dem das Original Bild zum Abtasten bereit liegt.
Wie wird das Canonical Tag verwendet?
Das Beispiel ist zwar nicht optimal aber immerhin anschaulich. Die Glaswand symbolisiert das Canonical Tag, das die Crawler auf die zu bevorzugende Standard oder kanonische Seite verweist. Sinnvoller Weise sollte man das den Crawlern gleich beim Betreten der Website mitteilen, also im Head-Bereich. Canonical Tags gehören nur in den head. Da es sich beim Canonical Tag um einen Link handelt, besteht das einzufügende Codeschnipsel auch aus einem Link mit dem Attribut rel=canonical. Das ganze sieht dann wie folgt aus:
<link rel="canonical" href="http://www.bold-ventures.de/Beispielseite"/>
Dadurch bekommen die Suchmaschinen einen Hinweis, welche Seite die Standardvariante ist und daher bevorzugt werden sollte. Die positiven Effekte des Canonicals gehen aber noch darüber hinaus. Denn ansonsten wirken sie wie eine normale Weiterleitung, mit allem was dazu gehört, inklusive Weiterleitung des Linkjuices, etc.
Dennoch ist es wichtig zu erwähnen, dass das Canonical nur eine Empfehlung ist und keine Garantie, dass die Suchmaschinen dem folgen. In aller Regel machen sie das aber.
Das Canonical Tag gegen Duplicate Content einsetzen
Die Möglichkeiten dafür, wie Duplicate Content entsteht, sind vielfältig. Mit dem Canonical Tag sollte man dabei vorsichtig umgehen. Es gilt immer zu prüfen, ob es nicht eine andere Möglichkeit gibt, den Duplicate Content zu beseitigen, bevor das Tag gesetzt wird – denn Ursachenbekämpfung ist bekanntlich nachhaltiger als Symptombekämpfung. Außerdem kann man natürlich in der Anwendung selbst Fehler machen.
Wir haben mögliche Ursachen von Duplicate Content grob in drei Bereiche eingeteilt. Bei den ersten beiden kann das Canonical Tag unter bestimmten Voraussetzungen verwendet werden.
Serververseitig: URLs mit Unterschiedlichen „Vorzeichen“
Bei der Einrichtung von Webseiten wird meistens eingestellt, dass eine URL auch ohne führendes www aufgelöst werden soll. Ein anderes Beispiel ist, wie eben schon erwähnt, https und http. Für die User ist es schön bequem, wenn auch der Aufruf http://bold-ventures.de die Startseite unseres Portals liefert und keine 404-Fehlermeldung (Seite nicht gefunden). Es gibt ziemlich viele Möglichkeiten, wie URLs geringfügig voneinander abweichen können. Für den User ist es zwar kein Problem, für die Suchmaschinen aber schon. Hier kann das Canonical Tag den Suchmaschinen die „richtige“ Seite zeigen. Dies funktioniert auch für Subdomains. Zunächst sollte aber immer geprüft werden, ob eine dauerhafte Weiterleitung (301) nicht auch möglich ist, denn das ist oft die bessere Lösung.
Die zweite Möglichkeit liegt im verwendeten Content Management System (CMS).
Die Suchmaschinen bevorzugen sprechende URLs. Die interne Verwaltung findet bei vielen CMS jedoch über Parameter statt. Um bei den Suchmaschinen aber nicht benachteiligt zu werden, findet ein sogenanntes URL-Rewrite statt. Das heißt, aus der URL www.beispiel.de?pid=34 wird www.beispiel.de/reifen. Vor allem in älterer Software muss der überschriebene URL aber auch nochmal deaktiviert werden, sonst kann die Webseite ebenfalls mit dem Parameter aufgerufen werden. Das Ergebnis ist dann wiederum Duplicate Content.
Für diese beiden Möglichkeiten eignet sich das Canonical Tag. Dank ihm kann man den Suchmaschinen mitteilen, welche URL richtig ist.
Das Canonical Tag kann aber nicht immer helfen
Gerade in Blogs und Online-Shops entsteht häufig Duplicate Content, einerseits durch viele Artikel, aber auch durch Paginierung und Kategorisierung. Das Canonical-Tag kann dabei oft nicht helfen, bei paginierten Seiten ist es sogar völlig fehl am Platz.
Bei einer anderen Variante des Duplicate Content kann das Canonical Tag ebenfalls gar nichts ausrichten, nämlich beim Content-Klau. Wenn jemand hergeht, den Inhalt Ihrer Webseite kopiert und unter einer eigenen Domain veröffentlicht, können Sie große Probleme bekommen. Auch wenn Sie unschuldig, beziehungsweise der geistige Urheber eines Textes oder einer Webseite sind, kann es passieren, dass Ihre Seite nicht mehr bei den Suchmaschinen angezeigt wird. Dafür finden Sie dort die Seite des Diebes. Das kann passieren, da die Suchmaschinen – wie gesagt – nicht wissen, welche Seite die Richtige ist und sich dann für eine entscheiden (müssen). In diesem Fall hilft Ihnen das Canonical Tag natürlich nicht, denn Sie können es ja nicht auf der fremden Webseite einbauen.
Stattdessen sollten Sie sich mit dem Content-Dieb in Verbindung setzen. Gegebenenfalls ist er sich gar nicht im Klaren darüber, was er mit seiner Kopie angerichtet hat, und macht sofort alles rückgängig. Schlimmstenfalls müssen Sie ihn abmahnen oder sogar vor Gericht bringen.