Im redaktionellen Alltag kommt es immer wieder vor, dass alte Beiträge aus heutiger Sicht nicht mehr stimmen – die Artikel zu löschen wäre dennoch töricht.
Es gibt Situationen, in denen einem als Produktmanager und SEO das Messer in der Tasche aufgeht. Man sitzt in einem Meeting mit Redakteuren, die schon seit Jahrzehnten ihren Job vor allem in und an gedruckten Publikationen verrichten. Im Kontext der Digitalisierung, die endlich auch in den Verlagen angekommen scheint, fällt das Thema auf die Frage, wie man mit alten Artikeln im Internet umgeht.
„Jeder Artikel, der einmal online publiziert wird, erhält eine URL und aus SEO-Sicht sollten diese einmal gesetzten Links immer auf eine mehr oder weniger korrekte Seite führen. In jedem Fall müssen 404-Fehler vermieden werden. “
Da entfährt einem völlig perplexen Redakteur:
„Heißt das, ich kann keinen Artikel mehr offline stellen? Das geht doch nicht. Das was da steht, stimmt doch dann gar nicht mehr.“
Da schlägt der Redakteur ein Verhalten an, dass ihm sonst eigentlich völlig abgeht, wenn er Besuchern voller Stolz sein Printarchiv seit den frühen 1990er Jahren präsentiert. Schließlich bereist er ja auch nicht die Leserschaft, um mit einem dicken Edding von Zeit zu Zeit nicht mehr zutreffende Artikel zu schwärzen. Auch von Redakteuren, die ihr gepflegtes Archiv unter Erleichterungsseufzern in Brand gesetzt haben, ist bislang nichts bekannt geworden. Archive brennen glücklicherweise ja nicht allzu häufig – sie verschwinden nur manchmal im Untergeschoß, aber eben nicht völlig.
Das Internet ist im Grunde ein ganz hervorragendes Archiv, mit der Besonderheit, dass viele der Seiten trotz hohen Alters kaum Moder ansetzen.
Betrachtet man eine einzige Website nehmen die älteren Seiten eine besondere Rolle dabei ein. Je länger eine Link also auch eine Seite dahinter existiert, desto mehr Traffic hat sie erzeugen können. Auf die Seite wurde von zahlreichen anderen Menschen verlinkt – und sie damit in gewisser Weise geadelt. Zugleich hatten die alten Links sehr viel Zeit, um im Google-Index ihren Platz zu finden.
Die neuesten Beiträge und Seiten einer Website könnte man vergleichen mit den jüngsten Trieben einer Pflanze. Demgegenüber sind die ältesten Beiträge wie die Wurzel einer Pflanze. Sie sind verhältnismäßig stabil und festverankert und bringen im günstigen Fall durch Indexrank und Backlinks einen kontinuierlichen Trafficfluss auf die Seite.
Wer bitteschön käme bei einer Pflanze auf die Idee, die Wurzeln zu kappen? Das ist ungefähr so sinnvoll wie der Versuch ein Feuer mit einer Kanne Öl zu löschen.
Kappt man einer Website diese Wurzeln, wird sie, wenn sie intensiv gepflegt wird auch in Zukunft neue Wurzeln ausbilden – wie eine Pflanze. Die alten sind aber auf jeden Fall dahin. Zudem entsteht bei der Website ein Problem, dass es bei Pflanzen so nicht gibt: Die Links von anderen, internen wie externen Seiten zeigen ins Leere, wenn das Dokument dahinter nicht mehr erreichbar ist.
Folgt ein Nutzer dem Link, erntet er eine 404-Fehlerseite und ist traurig.
Folgt eine Suchmaschine dem Link, erhält sie auch den 404-Code und ist geradezu schockiert und alamiert.
Während der Nutzer entweder auf der Seite weiter sucht, oder zur Ausgangsseite zurückkehrt, schlägt der Suchrobot Alarm: „Auf der Seite gibt es Probleme!“ Das zieht eine ganze Reihe möglicher Implikationen nach sich: Möglicherweise funktionieren auch andere Dokumente auf der Seite nicht mehr oder sogar die ganze Domain ist nicht mehr erreichbar.
Dabei ist der Suchrobot gar nicht so selbstlos wie das jetzt klingen mag. Seine Aufgabe ist es, den Index so korrekt und für den Nutzer sinnvoll wie möglich zu halten. Links, die nicht funktionieren, gehören da nicht hinein. Folglich werden fehlerhafte Links aus dem Index entfernt. Der Aufwand, da wieder hineinzukommen ist recht groß. Den Link einfach wiederherzustellen, funktioniert leider nur sehr bedingt und oftmals nur, innerhalb einer gewissen Zeitspanne.
Die Lösungen
Die aus meiner Sicht beste Lösung ist es, broken Links und damit 404-Fehler soweit es geht zu vermeiden.
Konsequenz: gelöscht wird nicht.
Hat man Angst, den Nutzer durch veraltete Inhalte zu verschrecken, kann man dem ein bisschen vorbeugen:
Durch ein Datum am Artikel kann der mündige Leser sich jederzeit selbst eine Meinung zur Aktualität bilden.
Mittels technischer Lösungen kann man dem User am Artikel Links zu thematisch ähnlichen, mutmaßlich aktuelleren Artikeln an die Hand geben (bei Bedarf auch gleich mit Datum)
Technisch lässt sich auch ein optisch gut wahrnehmbarer Warnhinweis für den Nutzer erzeugen, dass dies nicht der aktuellste Beitrag zu einem Thema ist.
Was aber, wenn man doch unbedingt den Artikel aus dem Netz nehmen will oder muss, weil er andernfalls Schaden anrichtet?
Manchmal genügt eine Korrektur des Beitrags, sodass der Link komplett und der Inhalt größtenteils erhalten bleiben. Vorsicht beim Löschen von mit Sprungmarken markierten Absätzen: Diese sollten zuerst auf vorhandene Backlinks abgeklopft werden.
Muss doch ein Beitrag vom Netz genommen werden, sollte der Link des Beitrags dennoch gespeichert werden. Statt der Seite (die den HTTP-Code 200 („ok“) zurückgäbe) wird dann ein Fehlercode übermittelt. Allerdings nicht der 404 („File not found“ steht für Seite nicht erreichbar), sondern ein 410 („gone“). Dieser Code signalisiert, dass diese Seite mutwillig gelöscht worden ist.
„Gelöscht“ oder „nicht erreichbar“ – das ist doch irgendwie dasselbe, könnte man meinen. Der Unterschied liegt nicht im offensichtlichen Ergebnis, sondern in der Ursache:
Beim 410-Fehler erfährt der Robot, dass die Seite gelöscht wurde. Das bedeutet lediglich, dass dieser eine Link nicht mehr existiert und folglich aus dem Index gelöscht werden kann.
Der 404-Fehler zeigt dem Robot dagegen nur an, dass das verlinkte Dokument, also beispielsweise die Seite nicht erreichbar ist. Es sagt jedoch nichts über die Ursache aus. Aus diesem Grund löst diese Fehlermeldung in der Regel einen „Alarm“ aus.