Sitecheck mit WebCheck

Dank mod_rewrite und ähnlichen Webserver-Modulen hat man die volle Kontrolle über die ausgespielten URLs. Innerhalb einer „SEO„-Maßnahme habe ich bei einem Projekt kürzlich das komplette URL-Schema überarbeitet und am Ende einer solchen Optimierung muss man sich fragen ob die Seite jetzt noch richtig funktioniert.

Natürlich ist es bei einem solchen Eingriff wichtig das man das alte URL-Schema weiterhin unterstützt, optimalerweise mit 301er Redirects zur neuen URL. Eine URL Schema Umstellung ohne Weiterleitungen würde alle Suchmaschinen die ihren Index pflegen wollen verprellen und Besucher die über Bookmarks kommen ebenso.

Auf der Suche nach Link Check Tools bin ich auf „webcheck“ gestossen.

WebCheck ist ein python Tool das in der Konsole ausgeführt wird:

raoul@z:~/webcheck-1.10.4$ ./webcheck.py -o mg_24.03.11 http://minigolf.raoulkramer.de
webcheck: checking site....
webcheck:   getting robots.txt for http://minigolf.raoulkramer.de
webcheck:   http://minigolf.raoulkramer.de/
webcheck:   http://minigolf.raoulkramer.de/scoreboard/index
webcheck: Warning: falling back to the legacy HTML parser, consider installing BeautifulSoup
webcheck: Warning: tidy library (python-utidylib) is unavailable
webcheck:   http://minigolf.raoulkramer.de/player/view?nickname=Maddness
webcheck:   http://minigolf.raoulkramer.de/player/index
webcheck:   http://minigolf.raoulkramer.de/matchday/5
webcheck:   http://minigolf.raoulkramer.de/images/arrow-in.png
webcheck:   http://minigolf.raoulkramer.de/player/view?nickname=Calli
webcheck:   http://minigolf.raoulkramer.de/matchday/53
webcheck:   http://minigolf.raoulkramer.de/player/view?nickname=Klaus
webcheck:   http://minigolf.raoulkramer.de/matchday/view?date=2010-10-10&time=15%3A00%3A00
webcheck:   http://www.raoulkramer.de/
...
webcheck: done.
webcheck: postprocessing....
webcheck: done.
webcheck: generating reports...
webcheck:   anchors
webcheck:   sitemap
webcheck:   urllist
webcheck:   images
webcheck:   external
webcheck:   notchkd
webcheck:   badlinks
webcheck:   old
webcheck:   new
webcheck:   size
webcheck:   notitles
webcheck:   problems
webcheck:   about
webcheck: done.

Mit dem Aufruf in Zeile 1 startet man einen WebCeck Lauf, der Parameter „-o mg_24.03.11“ gibt den Zielordner an, in dem die Ergebnisse gespeichert werden, darauf folgt die URL die überprüft werden soll.

Je nach Webseiten Komplexität kann ein Durchlauf schon lange dauern, und am Ende wird in dem mit „-o“ angegebenen Ordner folgende Daten produziert:
Minigolf Tabelle Webcheck Ausgabe

Die „index-html“ öffnet man in einem Browser der Wahl und bekommt eine Auflistung aller gefundenen Seiten des Webauftritts. Diese Ansicht ist auch hilfreich um in einem ersten Schritt die Komplexität einer „fremden“ Webseite einzuschätzen.

Das erste Augenmerk sollte man aber auf die Seite „bad links“ richten. Minigolf Tabelle Bad Links Auflistung

Hier werden alle Links und aufgelistet die einen anderen Status als 200 zurücklieferten. Im Minigolf Tabelle Projekt ist anscheinend die „handheld.css“ Datei nicht vorhanden – ein Copy N‘ Paste Fehler meinerseits. Das der Link zur HTML5Boilerplate umgeleitet wird, ist vernachlässigbar.

In diesem Beispiel hat man nur eine fehlerhafte CSS Einbettung entdeckt, in anderen Szenarien kommen hier häufig auch die kleinsten Fehler ans Tageslicht.

Neben der „Sitemap“ und den „Bad Links“ enthält der WebCheck Report noch weiter hilfreiche Auflistungen, zum Beispiel „what’s big“ gibt einem die Größe einer Seite an. Hier kann man weitere Optimierungen vornehmen wenn nötig. Fehlende <title> werden ebenso aufgelistet wie die eingebettenden Bilder.

Alles in allem ein sehr hilfreiches Tool, das man immer mal wieder über seine Projekte laufen lassen kann und so schnell auch den letzten Fehler aus einem Projekt herausbekommt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.