Published September 15, 2022 | Version v1
Publication

Hash data files for "Hashes are not suitable to verify fixity of the public archived web"

  • 1. Columbia College
  • 2. Dominion University College
  • 3. Old Dominion University

Description

This work investigates the fixity of a set of archived webpages, or mementos. We conducted a study on 16,627 mementos from 17 public web archives. We replayed and downloaded the mementos 39 times using a headless browser over a period of 442 days and generated a hash for each memento after each download, resulting in 39 hashes per memento. The hashes were generated by creating Merkle trees to represent hashes at each level of the memento. A hash was generated for each resource used to construct the full webpage and then the hashes were combined to generate an overall hash for the composite memento. There are 39 data files, one for each download. The mementos downloaded come from the dataset at https://github.com/oduwsdl/mementos-fixity/

⚠️ This is an automatic machine translation with an accuracy of 90-95%

Translated Description (Arabic)

يبحث هذا العمل في مدى ثبات مجموعة من صفحات الويب المؤرشفة أو التذكارات. أجرينا دراسة على 16,627 تذكار من 17 أرشيف ويب عام. أعدنا تشغيل التذكارات وقمنا بتنزيلها 39 مرة باستخدام متصفح بدون رأس على مدى 442 يومًا وأنشأنا تجزئة لكل تذكار بعد كل تنزيل، مما أدى إلى 39 تجزئة لكل تذكار. تم إنشاء التجزئة عن طريق إنشاء أشجار ميركل لتمثيل التجزئة في كل مستوى من مستويات التذكار. تم إنشاء تجزئة لكل مورد يستخدم لإنشاء صفحة الويب الكاملة ثم تم دمج التجزئة لإنشاء تجزئة شاملة للتذكار المركب. يوجد 39 ملف بيانات، واحد لكل تنزيل. تأتي التذكارات التي تم تنزيلها من مجموعة البيانات على https://github.com/oduwsdl/mementos-fixity/

Translated Description (French)

Ce travail étudie la fixité d'un ensemble de pages Web archivées, ou de souvenirs. Nous avons mené une étude sur 16 627 souvenirs provenant de 17 archives Web publiques. Nous avons rejoué et téléchargé les souvenirs 39 fois à l'aide d'un navigateur sans tête sur une période de 442 jours et généré un hachage pour chaque souvenir après chaque téléchargement, résultant en 39 hachages par souvenir. Les hachages ont été générés en créant des arbres Merkle pour représenter les hachages à chaque niveau du souvenir. Un hachage a été généré pour chaque ressource utilisée pour construire la page Web complète, puis les hachages ont été combinés pour générer un hachage global pour le souvenir composite. Il y a 39 fichiers de données, un pour chaque téléchargement. Les souvenirs téléchargés proviennent de l'ensemble de données sur https://github.com/oduwsdl/mementos-fixity/

Translated Description (Spanish)

Este trabajo investiga la fijeza de un conjunto de páginas web archivadas o recuerdos. Realizamos un estudio sobre 16.627 recuerdos de 17 archivos web públicos. Reprodujimos y descargamos los recuerdos 39 veces con un navegador sin cabeza durante un período de 442 días y generamos un hash para cada recuerdo después de cada descarga, lo que resultó en 39 hashes por recuerdo. Los hashes se generaron creando árboles Merkle para representar hashes en cada nivel del recuerdo. Se generó un hash para cada recurso utilizado para construir la página web completa y luego los hashes se combinaron para generar un hash general para el recuerdo compuesto. Hay 39 archivos de datos, uno por cada descarga. Los recuerdos descargados provienen del conjunto de datos en https://github.com/oduwsdl/mementos-fixity/

Additional details

Additional titles

Translated title (Arabic)
ملفات بيانات التجزئة لـ "التجزئة غير مناسبة للتحقق من ثبات الويب المؤرشف العام"
Translated title (French)
Fichiers de données de hachage pour « Les hachages ne conviennent pas pour vérifier la fixité du site Web public archivé »
Translated title (Spanish)
Archivos de datos hash para "Los hash no son adecuados para verificar la fiabilidad de la web pública archivada"

Identifiers

Other
https://openalex.org/W4393595387
DOI
10.5281/zenodo.7082485

GreSIS Basics Section

Is Global South Knowledge
Yes
Country
Ghana