Saltar navegación

Integridad de la información a través del archivo web: captura de lanzamientos de datos

James Lowry|

Este blog es parte de una serie de publicaciones sobre la importancia de la integridad de la información. Hacer clic esta página para leer la publicación introductoria.

En 11th November 2016, Matthew Kirschenbaum tuiteó:

Es seguro asumir que el @realDonaldTrump ????? la cuenta ahora será archivada por @USNatArchives ????? bajo la Ley de Registros Presidenciales?

Kirschenbaum destacaba la importancia política de la preservación digital. Cuando hay tanto debate político y campañas en las redes sociales, capturar y preservar la información publicada en la web se vuelve vital para la rendición de cuentas.

Más allá de las redes sociales, el archivo web tiene otras aplicaciones políticamente importantes. Si datos abiertos debe ser la base de las decisiones de política, la planificación para la prestación de servicios o el debate público, si va a ser el terreno común sobre el que se encuentran los ciudadanos y los gobiernos, se debe mantener un registro. ¿Qué datos publicó el gobierno? ¿Donde y cuando?

El archivado web proporciona una solución. El archivado web implica tomar instantáneas (recolección) de contenido web utilizando rastreadores web y preservarlas en repositorios digitales. Es importante destacar que (desde el punto de vista de la auditoría), los rastreadores web también capturan metadatos sobre el proceso de recolección. La iniciativa de archivo web más antigua es la Internet Archive, que comenzó a rastrearse en la web en 1996 y que, desde 2001, proporciona acceso a su colección a través de Wayback Machine.

En su guia practica Al archivar sitios web, Adrian Brown observó que la 'facilidad con la que el contenido puede estar disponible a través de la web, combinado con la fragilidad de ese contenido en un mundo de cambio tecnológico constante, genera un entorno de información que puede ser positivamente hostil a largo plazo sostenibilidad '(p. 3). El cambio tecnológico es una amenaza; La eliminación activa de contenido es otra. El texto puede ser alterado, las páginas retiradas, los enlaces eliminados. La mala gestión y la falta de recursos también plantean riesgos para la persistencia del contenido web.

Esto sugiere que la frecuencia de captura de sitios web necesita una consideración cuidadosa. ¿Con qué frecuencia ocurre el archivo web? los Archivo web del gobierno del Reino Unido captura conjuntos de datos publicados en data.gov.uk solo dos veces al año. Incluso si los gobiernos archivan sus propios sitios web con más frecuencia, la naturaleza dinámica de la publicación en línea sugiere que el archivo web oficial no puede capturar de manera realista cada actualización o cada publicación de datos.

¿Deberían las organizaciones de la sociedad civil crear archivos alternativos que documenten la procedencia de los datos que utilizan? Dada la capacidad limitada o el interés de algunos gobiernos en el archivo web, los archivos web de la sociedad civil pueden ser el único registro de las publicaciones en línea del estado. los Consorcio Internacional de Preservación de Internet proporciona acceso a una variedad de herramientas para cosechar, preservar y proporcionar acceso a contenido web archivado que puede ser útil aquí. También proporciona orientación sobre los diversos problemas legales que surgen del archivo web.

Quizás el archivado web debe formar parte del proceso de uso de datos abiertos. ¿Es factible producir una herramienta que permita a los actores de la sociedad civil documentar las fuentes de los datos que utilizan? Aprendiendo lecciones de la Testigo ocular de atrocidades aplicación, la herramienta podría capturar metadatos sobre el contexto de la publicación de datos. Una herramienta como esta permitiría a los usuarios rastrear datos hasta su origen. ¿Existen posibles aplicaciones civiles del trabajo de identificación de contenido de iniciativas tales como DataCite, ¿qué está apoyando a la comunidad de investigación para localizar, identificar y citar datos de investigación? Como lo demuestran las recientes elecciones en los Estados Unidos, poder proporcionar y verificar fuentes es crítico para el compromiso político informado.

 
Open Government Partnership