Canonical Link gegen duplicate Content
Soeben bin ich in meinem Feedreader über den Artikel “Learn about the Canonical Link Element in 5 minutes” in Matt Cutts Blog gestoßen. Bisher war das Thema ein wenig an mir vorbeigegangen (die letzte Woche hatte ich nichteinmal Zeit meine Mails zu beantworten – vom Checken meines Feedreaders einmal abgesehen
.
Die Idee hinter dem neuen Canonical Attribut ist so einfach wie auch genial. Bei vielen Systemen lässt sich duplicate Content nicht wie zB bei WordPress einfach mittels weniger Kniffe bzw. einem passenden Plugin vermeiden.
Hier bräuchte es einen erheblichen Aufwand um duplicate Content mittels 301 Weiterleitungen oder ähnlichem zu verhindern (ich spreche dabei zB Shopsysteme an, welche in aller Regel recht aufwändig sind und nicht mal eben in wenigen Minuten umprogrammiert werden können).
Die Problemstellung dabei ist, dass es bei vielen Systemen möglich ist ein und dieselbe Seite bzw. ein und denselben Inhalt über verschiedene URLs anzeigen zu lassen – wie oder warum es zu diesen verschiedenen URLs kommt ist dabei jetzt unerheblich.
zB:
- http://www.domain.tl/shop/product.php?id=1234
- http://www.domain.tl/shop/product.php?id=1234&sessionid=5886&ref=8865
Ausgehend von der Annahme, dass der Einsatz von speaking URLs mittels modRewrite und entsprechenden 301er Weiterleitungen nicht möglich ist steht man eventuell vor einem duplicate Content Problem. Theoretisch behaupten zwar die meisten Suchmaschinen alle Faktoren einer URL zerlegen zu können um diese Probleme zu vermeiden – in der Realität sieht es jedoch oftmals ein wenig anders aus…
…was tun? Ganz einfach im Head Bereich den Tag verbauen, welcher zur “echten” URL zeigt:
<link rel=”canonical” href=”http://www.domain.tl/shop/product.php?id=1234″ />
Testlauf
Jetzt stellt sich nur noch die Frage ob die Geschichte auch so funktioniert wie es versprochen wird. Um das auszutesten habe ich einen kleinen Versuch, in Form von zwei Testseiten mit identischem Content, aufgesetzt.
Die Seite A (canonical-test-mit-canonical-seite-a.html) stellt die “Originalseite” dar – wenn alles glatt läuft soll diese (und nur diese) Seite im Index landen. Die Seite B (canonical-test-mit-canonical-seite-b.html) stellt die Kopie dar, welche (theoretisch) nicht im Index landen sollte.
Als kleinen Gegencheck gibt es zwei weitere Seiten, welche ebenfalls über identischen Inhalt verfügen – allerdings kein canonical-Tag gesetzt wurde. Diese Zwei Seiten (canonical-test-ohne-canonical-seite-a.html, canonical-test-ohne-canonical-seite-b.html) dienen sozusagen als Gegencheck – vielleicht braucht Google ja gar kein canonical-tag um nur eine der zwei Seiten zu indexieren…?!?
Links zum Thema:
- Specify your caronical auf dem Google Webmastercentral – Blog
- Fighting Duplication auf dem Yahoo Search – Blog
- Partnering to help solve duplicate content issues auf dem MSN Live Search Webmaster Blog
- Learn about the Canonical Link Element in 5 minutes von Matt Cutts
- Rel Tag canonical vom Thomas Zeithaml
- rel=”canonical”-URL für WordPress auf bueltge.de

Sehr interessant werde ich sofort ausprobieren.
Grüsse aus Kaiserslautern Enrico