Abmelden vom Webarchiv

Andrea Dainese
29 April 2024
Post cover

Web Archive ist ein Online-Dienst (Non-Profit), der seit ewigen Zeiten verschiedene Websites aufzeichnet, indem er sie praktisch dauerhaft archiviert, sodass jeder die Geschichte und die Änderungen einer bestimmten Website analysieren kann.

Ich bin ein Befürworter des Vergessens, und vor allem davon, die Kontrolle über die eigenen Daten zu haben. Außerdem nutze ich den Web Archive-Dienst oft für meine Arbeit und kenne die Probleme, die dieser Art von Dienst verursacht, gut. Obwohl die grundlegende Idee interessant ist, gefällt es mir nicht, dass der Dienst alles tut, um es schwierig zu machen, diesen Dienst zu verlassen.

Es gäbe tatsächlich ein bequemes System, um Suchmaschinen (Crawler) anzuweisen, wie sie mit einer bestimmten Website umgehen sollen. Die robots.txt-Datei würde es ermöglichen, für jede Website festzulegen, was erlaubt ist und was nicht. Aber genau das ignoriert Web Archive.

Sehen wir also heute, wie wir teilweise von Web Archive ignoriert werden können. Ich sage teilweise ignoriert, weil es scheint, dass der Motor weiterhin Seiten besucht, die jedoch nicht durchsuchbar sind.

Zunächst muss die robots.txt-Datei unnötigerweise konfiguriert werden, um Web Archive anzuweisen, die Website zu ignorieren:

User-agent: archive.org_bot
Disallow: /

An diesem Punkt fügen wir der Wurzel der Website die Datei verify.txt mit folgendem Inhalt hinzu:

please remove from archive.org

Senden Sie schließlich eine E-Mail an info@archive.org, in der Sie die Löschung der Domain und der zugehörigen Daten aus dem Archiv von Web Archive anfordern:

I am NAME SURNAME owner of EXAMPLE.COM. I'm officially requesting the immediate removal of my site from all archive.org products. The "User-agent: archive.org_bot Disallow: /" code present in our robots.txt file is not being honored. It can be seen at:

https://www.example.com/robots.txt

I am requesting removal of EXAMPLE.COM from all stored dates, including today, and all days going forward. I have been the sole owner of this domain since inception. I have sent this message from my private address, but you can reply to any address hosted at the domain which should be removed. I have also placed a confirmation message at the following link:

https://www.example.com/verify.txt

Thank you for your prompt attention.

DMCA Notice:

I am the site owner and sole copyright holder for each of the domains cited above. This letter is official notification under Section 512(c) of the Digital Millennium Copyright Act ("DMCA"), and I seek the removal of the aforementioned infringing material from your servers. Archive.org does not have any right or permission to reproduce, sell or display my websites in any way, shape or form. I am providing this notice in good faith and with the reasonable belief that rights I own are being infringed. Under penalty of perjury I certify that the information contained in the notification is both true and accurate, and I am the copyright owner and therefore have the authority to act on behalf of the owner of the copyright(s) involved. Thank you for your prompt assistance with this matter.

NAME SURNAME
EXAMPLE.COM

Sie sollten in Kürze eine Bestätigung über die erfolgte Löschung erhalten.

Seien Sie sich darüber im Klaren, dass die Welt weder besser noch sicherer sein wird nach dieser Aktion, aber es bleibt eine Aktion, die es zu prüfen gilt. Immer mehr Dienste durchsuchen heute öffentliche Daten, auch zu kommerziellen Zwecken. Mir kommen verschiedene generative KIs, Suchmaschinen, Überwachungsdienste (Clearview AI), Cyberkriminalität in den Sinn…

Referenzen