Preservación digital
GESTIÓN DE BIBLIOTECAS Y DOCUMENTOS DIGITALES, MODULO 6 UNLA, 2008 Prof. Ana M. Sanllorenti
Preservación digital
En la actualidad la creación, utilización y distribución de información se realiza en formato digital
Las instituciones invierten en digitalizar, adquirir, recopilar y crear objetos digitales
Una copia digital de un documento en papel amplía enormemente su posibilidad de consulta y preserva al original de la manipulación. Esto alienta la digitalización
Un creciente porcentaje del conocimiento, la cultura, la economía se encuentra registrado sólo en formato digital
Preservación digital ¿Cómo leer hoy…?
Archivos que se almacenaron en un diskette de 5 ´¼
Documentos que fueron creados con Word Perfect
Miremos cómo se ve ahora un texto producido en 1992 con una versión de Word para DOS:
Preservación digital 1¾«ä,`kkmnnNORMAL.STYEPSONLXo+Ð[1] lkmµFACULTAD DE HUMANIDADES - UNLP PANEL: INFORMACION, INFORMATICA Y HUMANIDADES HOY ENFOQUE DOCUMENTAL Voy a contar un cuento, hacer un poco de historia, ya que en la historia hay momentos en que se producen cambios cualitativos en los que se modifica la manera de ver y comprender las cosas. Creo que estamos viviendo uno de esos momentos. Pero no voy a referirme al posmodernismo sino m s modestamente a las formas de acceder al conocimiento a trav‚s de la informaci¢n, y a las maneras en que se trata y organiza la informaci¢n producida. Cuesti¢n que nos toca muy especialmente a los bibliotecarios y documentalistas. Para hablar de estos cambios voy a seguir tres aspectos o l¡neas diferentes en la evoluci¢n de la mirada del documento como soporte de informaci¢n: a) Relaci¢n continente/contenido b) El documento como registro y acumulaci¢n del conocimiento c) El concepto de unidad documental ÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜÜ€º ÿÿk xé ÿÿ#u)ÿÿbr£ÿÿ¼o,ÿÿ>lEÿÿƒiá cÜÜÜ[1][1][1][1][1][1][1][1] Ð ÿÿÛ
ÿÿê
fù
ÿÿ
Preservación digital “El patrimonio digital consiste en recursos únicos que son fruto
del saber o la expresión de los seres humanos. Comprende recursos de carácter cultural, educativo, científico o administrativo e información técnica, jurídica, médica y de otras clases, que se generan directamente en formato digital o se convierten a éste a partir de material analógico ya existente. Los productos “de origen digital” no existen en otro formato que el electrónico. Los objetos digitales pueden ser textos, bases de datos, imágenes fijas o en movimiento, grabaciones sonoras, material gráfico, programas informáticos o páginas Web, entre otros muchos formatos posibles dentro de un vasto repertorio de diversidad creciente. A menudo son efímeros, y su conservación requiere un trabajo específico en este sentido en los procesos de producción, mantenimiento y gestión. Muchos de esos recursos revisten valor e importancia duraderos, y constituyen por ello un patrimonio digno de protección y conservación en beneficio de las generaciones actuales y futuras”…
Preservación digital “…El patrimonio digital del mundo corre el peligro de perderse para la posteridad. Contribuyen a ello, entre otros factores, la rápida obsolescencia de los equipos y programas informáticos que le dan vida, las incertidumbres existentes en torno a los recursos, la responsabilidad y los métodos para su mantenimiento y conservación y la falta de legislación que ampare estos procesos. Los cambios en las conductas han ido a la zaga del progreso tecnológico. La evolución de la tecnología digital ha sido tan rápida y onerosa que los gobiernos e instituciones no han podido elaborar estrategias de conservación oportunas y bien fundamentadas. No se ha comprendido en toda su magnitud la amenaza que pesa sobre el potencial económico, social, intelectual y cultural que encierra el patrimonio, sobre el cual se edifica el porvenir.” “Carta para la preservación del patrimonio digital” (2003), UNESCO
Preservación digital
Conway, Paul (1996). La Preservación en el mundo digital. Santiago de Chile, DIBAM
Preservación digital:
La unidad física del documento analógico ESTRUCTUR A CONTEXT O
CONTENID O
Preservación digital:
Las “capas” del documento digital (textual)
OBJETOS INCRUSTADOS HIPERVINCULOS INTERNOS Y EXTERNOS
¿Cuáles son sus límites?
La visualización e interpretación depende de varios elementos de software y hardware
Estos elementos se vuelven rápidamente obsoletos
MARCAS: XML, HTML ASCII, UNICODE 0010 1001 0011
Preservación digital:
El mundo analógico y el mundo digital La preservación del soporte físico (papel / microfilm) preserva el contenido
✜
Los soportes físicos de información digital tienen menor durabilidad y su sola preservación es insuficiente
Impedir el acceso, con guarda en apropiadas condiciones ambientales, no afecta la condición de “legibilidad”
✜
Impedir el acceso no preserva el contenido ni la futura accesibilidad
El contenido es directamente accesible a los ojos (+ anteojos o lupa)
✜
Depende de múltiples capas de software y de dispositivos de hardware que se vuelven obsoletos
La secuencia de estos conceptos fue extraída de las clases del curso “Preservación digital en instituciones de la memoria”, Fernando Boro, 2007
Preservación digital:
El mundo analógico y el mundo digital Se puede esperar muchos años entre la creación o adquisición y las acciones de preservación Deacidificación, condiciones de almacenamiento: normas conocidas y estables para la preservación
✜
Comenzar ya, desde el momento de creación o incorporación de los objetos digitales
✜
Se encuentra en investigación y desarrollo
La secuencia de estos conceptos fue extraída de las clases del curso “Preservación digital en instituciones de la memoria”, Fernando Boro, 2007
Las estrategias de preservación digital De corto plazo Preservar los soportes (chequeos, refresco) Preservar integridad de la cadena de bits (chequeos) Usar formatos de archivo universales, no propietarios (TIFF, XML, etc.) Redundancia de copias de los objetos digitales
Si todo falla ----> Arqueología digital = muy caro, no siempre funciona
La secuencia de estos conceptos fue extraída de las clases del curso “Preservación digital en instituciones de la memoria”, Fernando Boro, 2007
Las estrategias de preservación digital De largo plazo Preservación de la tecnología Emulación Migración Metadatos estandarizados de preservación
Las estrategias de preservación digital De largo plazo
Preservación de la tecnología
Conservación y mantenimiento de todo el hardware y software necesario para preservar y visualizar los objetos Digitales. Museos tecnológicos
Las estrategias de preservación digital De largo plazo
Emulación
Software denominado emulador capaz de reproducir el comportamiento de una determinada plataforma de hardware y software Apto para objetos digitales dinámicos e interactivos
Las estrategias de preservación digital De largo plazo Migración Transferencia periódica de material digital de una determinada configuración de hardware y software a otra. De soporte De versiones de software De formatos / Normalización
- Migración a pedido (siempre desde el objeto original) - Migración distribuida (servicios de conversión vía Internet) Lister Hill National Center for Biomedical Communications, Servicio Web que convierte archivos de 50 formatos distintos a PDF ➨ ➨
Riesgo de pérdida de información Monitoreo regular
Las estrategias de preservación digital De largo plazo
Metadatos de preservación
Información que describe y documenta procesos y actividades relacionadas con la preservación digital Junto al objeto digital, se reúne información sobre: Procedencia: historia anterior (formatos originales, guardas, conversiones) Autenticidad: chequeos de cadenas de bits Actividades de preservación: prescriptas y realizadas (migraciones, copias) Ambiente tecnológico: Formato del archivo; Tamaño; Software de creación; Software de lectura; Velocidad de lectura Derechos de acceso y condicionamientos legales ¿Para qué tanta información?
Las estrategias de preservación digital Metadatos de preservación Prevenir antes que reparar Si hay daño ---> reparación costosa, a veces imposible - ---> pérdida
Se busca producir objetos digitales “autodocumentados” a lo largo del tiempo, favoreciendo la preservación y acceso de largo plazo.
Las estrategias de preservación digital Metadatos de preservación
■ ■ ■
–
Metadatos Metadatos Metadatos
descriptivos. estructurales. administrativos.
Metadatos de preservación: no tanto una categoría
separada de metadatos sino la suma de varios tipos. Pueden incluir elementos de carácter único y/o con mayor nivel de detalle que los metadatos empleados para otras funciones.
Los metadatos de preservación digital: Iniciativas y esquemas PREMIS (PREservation Metadata: Implementation Strategies) OCLC / RLG Dublin Core Initiative Preservation Working Group Cedars Project, Programa eLib, UK National Library of New Zealand Library of Congress
Comparación de los principales elementos de los esquemas de metadatos de preservación
Candás Romero, Jorge. El papel de los metadatos en la preservación digital El profesional de la Información, v.15, n.2, 2006
Premis
Cedars
"format" (identificación del formato informático del DLO)
Library of Congress "associated_file_type" (formato del archivo informático)
"creatingApplication" (aplicación con la que se creó el DLO) "preservationLevel" (identificación de las tareas de preservación que han de aplicarse)
"preservation description information" (la información necesaria para una correcta preservación)
"reformatting_guidelines" (políticas e instrucciones para el cambio de formato)
"objectIdentifier" (la designación que identifica unívocamente al DLO)
"reference information" (los identificadores del recurso)
"archive_ID" (identificador de la localización del DLO)
"relationship" (relaciones existentes entre el DLO y otro u otros DLO)
"context nformation" (relación del DLO con su contexto)
"fixity" (información sobre si el DLO ha sido alterado de forma no autorizada o no registrada)
"provenance information" (la historia del DLO)
"archive_history" (historia de hechos referentes al archivo del DLO)
"objectCharacteristics" (características técnicas del DLO)
"custody history" (datos de las organizaciones que han sido depositarias)
"reformatted_original_information" (información sobre las condiciones del documento original)
"management history" (modificaciones realizadas en el DLO para su preservación)
"archive_date_time" (fecha y hora de creación, copia de seguridad, etc.)
"rights management" (información sobre los derechos de propiedad intelectual relativos al DLO)
Software para acciones de preservación digital Reconocimiento y validación de formatos / Extracción de metadatos • JHOVE, Harvard Library y JSTOR (valida y extrae metadatos) • XENA (www.sourceforge.net), de la Biblioteca Nacional Australia, también normaliza a XML • DROID (UK National Archives) • NLNZ Metadata Extractor (National Library Nueva Zelanda): extrae metadatos de archivos digitales para crear los metadatos de preservación. Emulación •
Dioscuri (National Library and National Archiev de Holanda) Chequeos de integridad
(correrlos al recibir o crear un nuevo archivo, y conservar la clave que se produce para cada archivo. Contra esa clave se comprueba en el futuro que no haya habido corrupción de los bytes del archivo) • •
MD5 Hash
Proyecto Preservación Digital en Bibliotecas Argentinas Contexto: En Argentina hay escasa o nula conciencia en relación con la preservación digital ◆ No hay políticas, estándares o acciones ◆ Es un problema crítico para cualquier institución que genere, adquiera o utilice información digital ◆
Marco institucional: Dirección Técnica: Biblioteca Central de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires ◆ Subsidio del Programa TICs de la SECYT ◆ 18 Instituciones participantes ◆
Proyecto Preservación Digital en Bibliotecas Argentinas
Objetivos generales: Explorar los problemas, situaciones y estrategias referidas a la preservación del conocimiento en formato digital Promover el registro, acceso y preservación de la producción científica, técnica y cultural en código digital en instituciones argentinas
Proyecto Preservación Digital en Bibliotecas Argentinas Objetivos específicos: Evaluar el estado de la digitalización y de la organización de colecciones digitales en bibliotecas de instituciones científicas, técnicas y culturales, con énfasis en las estrategias y procedimientos de preservación de los objetos digitales Sensibilizar, transmitir conceptos y delinear estrategias y procedimientos para la preservación a largo plazo de objetos digitales en instituciones científicas, técnicas y culturales Realizar una experiencia piloto en la definición de estándares y pautas de digitalización en una colección de documentos referidos a la Historia de la Facultad de Ciencias Exactas y Naturales de la Universidad de Buenos Aires, con establecimiento de estrategias y procedimientos para la preservación digital a largo plazo
Proyecto Preservación Digital en Bibliotecas Argentinas: Estado de avance
ETAPA
ESTADO
Bibliografía comentada sobre preservación digital
Finalizada
Curso sobre preservación digital para 48 instituciones
Finalizada
Diagnóstico de 18 instituciones sobre el estado de Finalizada sus colecciones digitales. Taller de puesta en común Finalizada Trazado de estrategias institucionales para
la pres. digital. Taller de puesta en común Experiencia piloto en la Biblioteca Central de Finalizada la FCEYN-UBA
Diagnóstico sobre Preservación Digital:
Datos de la Encuesta ■
Información de la colección Finalidad / Criterios de selección Tipo de objeto digital Formato de los archivos por tipo de objeto digital Archivos únicos / múltiples Nro. de documentos, nro. de objetos Crecimiento estimado Modos de acceso Software de gestión de las colecciones digitales Objetivo: Conocer las características de las colecciones de objetos digitales agrupados según el tipo de documento (contenidos), para las que se hayan establecido procedimientos de registro, descripción, preservación y acceso
Diagnóstico sobre Preservación Digital:
Datos de la Encuesta ■
Información de la captura para documentos digitalizados
Estrategia imágenes máster / otros formatos de menor calidad Parámetros de captura Dispositivos de captura Software de captura Método de evaluación de calidad Métodos de edición o mejora de los objetos digitalizados
Objetivo: Conocer las formas de digitalización de las colecciones con miras a su futura preservación
Diagnóstico sobre Preservación Digital:
Datos de la Encuesta ■
Edición de los objetos digitales
Conversión inicial de formatos Evaluación de calidad de los formatos Métodos de recuperación del texto (OCR / Tipeado) Marca de agua Métodos de compresión utilizados Software de edición
Objetivo: Conocer las formas de tratamiento de los objetos digitales con miras a su futura preservación
Diagnóstico sobre Preservación Digital:
Datos de la Encuesta ■
Nombramiento de los archivos Esquemas de nombramiento Métodos de aplicación y control de los esquemas de nombramiento Objetivo: Conocer los modos de nombrar los archivos correspondientes a los objetos digitales con miras a facilitar su identificación rápida y consistente
■
Metadatos Metadatos totales y metadatos de preservación digital Uso de esquemas de metadatos Software para el registro y gestión de metadatos Objetivo: Conocer los datos a través de los cuales se describen los documentos digitales en forma general, y en particular los datos que son útiles para la preservación a largo plazo
Diagnóstico sobre Preservación Digital:
Datos de la Encuesta ■
Almacenamiento de las colecciones digitales
Formas de almacenamiento Redundancia de copias Identificación de los dispositivos removibles de almacenamiento Chequeos de integridad de dispositivos y de archivos Previsión para copias de refresco Otras medidas de seguridad
Objetivo: Conocer los medios y características del almacenamiento con miras a la preservación de los objetos digitales
Diagnóstico sobre Preservación Digital:
Datos de la Encuesta ■
Estrategias específicas de preservación digital
Previsiones para la migración de formatos Emulación Otras estrategias
Objetivo: Conocer las previsiones de migración de formatos como prevención a la obsolescencia de los mismos y de las aplicaciones con las que se producen
Diagnóstico sobre Preservación Digital:
Datos de la Encuesta ■
Grado de apoyo informático o recursos de personal informático Objetivo: Conocer la asistencia en personal informático a las actividades de gestión de colecciones digitales, por parte de las instituciones, con miras a analizar la factibilidad de las actividades de preservación
■
Colaboración entre instituciones Objetivo: Conocer la existencia de actividades de colaboración interinstitucional referidas a estrategias de preservación como el “guarda compartida”
■
Tipo de financiación para las iniciativas digitales Objetivo: Conocer las fuentes de financiamiento en las que se sustentan estas iniciativas
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Finalidad de las colecciones Criterios de Digitalización y selección de originales 12 Digitalizados Nacidos Digitales
Nº de respuestas
10 8 6 4 2 0
Reducir manipulación (D)
Ahorrar espacio (D)
Difundir la produccion (ND)
Mejorar acceso
Importancia academica
Valor histocultural
Otros
Generar ingresos
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Cantidad de objetos digitales
Rango de items digitalizados y Nacidos Digitales 10 9
Nº de Proyectos
8 7
de 1 a 999 1.000 a 10.000
6 5 4 3 2 1 0
Digitalizados
Nacidos Digital
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Tipo y cantidad de objetos digitalizados
Tipo y Cantidad de originales digitalizados
10000
20000
30000
Textos e imag. Microfilm Audio Video Peliculas Otros
0 0
Nº de objetos digitalizados
35000
78
150
0
0
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Tipo y cantidad de objetos digitalizados ■
Digitalizados
■
Nacidos digitales
Modo de acceso
Modo de acceso
Uso interno; 3
Uso interno; 3
Acceso Web;6
CD; 3
Acceso Web;6
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Tipo de metadatos Metadatos Registrados Información del item físico Nombre del archivo digital Extensión del archivo Parámetros Técnicos (resolución, peso, etc.) Nombre del master Nombre de la copia de acceso Datos de dispositivo de captura (D) Software de creación Software de lectura Productor de digitalización Fecha de creación Derechos de acceso y uso Datos de almacenamiento Otros 0
2
4
6
8
Nº de Instituciones
10
12
14
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Esquemas noramlizados de metadatos
Metadatos: ¿esquema normalizado?
Esquemas normalizados metadatos
si; 3 si no no; 6
Cant idad proyectos
7 6 5 4 3 2 1 0 MODS ( en uso)
DC ( a pr ueba)
MIX (a prueba)
Ninguno
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Nombramiento de los archivos Digitalizados
Nacidos Digitales
¿Esquema de nombre de archivo normalizado?
¿Esquema de nombre de archivos normalizados? SI; 6
SI; 9 NO; 2
NO; 1 ¿Verifican exactitud de nombres de archivos generados? ¿Revisan aplicación de nombres?
SI; 6
SI; 7 NO; 2
NO; 3
Generación de nombres de archivo
Manual; 7
Automatico;1
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Software de gestión
Sotware de gestión 2,5
Nº de instituciones
2
1,5
1
0,5
0 Greenstone
Isis
Software propio
FAO/Webagris
Otros
Ninguno
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Medios de almacenamiento Almacenamiento 8
6 5 4 3 2 1 0 C de un servidor local
CD
C de un servidor general de la institución
C de una computadora común de trabajo
DVD
Re dunda nci a decl arada 4 Cant. Institucione s
Nº de Instituciones
7
4
4 3
3 2 1 0 Só lo una c opia
Hasta 2 copias Cant idad copias
Más de 2 copias
Otros dispositivos (disco WORM, ZIPdrive, etc.)
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Obsolescencia de formatos y uso de imágenes master Digitalizados
■
¿Previó futuras migraciones de formato?
Nacidos Digitales Previsión de obsolescencia de formatos
SI; 4
Si; 4 Si
SI
NO
NO
NO; 4
NO; 6
¿Crea master de archivo y copias de acceso?
Si; 5 Si No No; 4
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Chequeo de archivos y de medios de almacenamiento Cant. instituciones
¿Chequea int egridad ar chivos? 10 8
5 3
0 0 No
Si
No se
Opcione s
¿Cheque an m edios al ma ce namie nto?
Cant. instituciones
6 5 5 4 3
3
Si
No sé
3 2 1 0 No
Opcione s
Proyecto Preservación Digital en Bibliotecas Argentinas:
Diagnóstico: Copias de refresco ¿Planean copias de refresco?
Sí; 7
No; 4
Frecuencia planeada - copias refresco 3
Cant. instituciones
3
2 2
1
1
1
0 0 1 Año
2 años
5 años Opciones
10 años
Sin decidi r
Proyecto PDBA: Impactos en la Biblioteca Central Leloir: Metadatos de preservación para las fotografías Hardware de captura
Información sobre escáneres o cámaras digitales utilizadas
Software de creación
Programas con los que se crearon los archivos (incluidos en el hardware de captura)
Software de lectura
Programas que permiten ver las fotos. Ej. Office Picture Manager
Software de edición
Programas con que se ha modificado o comprimido la foto, o agregado marca de agua
Acciones de preservación
Acciones prescritas o realizadas para la preservación. Ej. migración
Procedencia e historia del objeto original
Condiciones del objeto originar. Ej. formatos
Formato digital (extracción automática
Nombre, extensión, formato, peso del archivo
Proyecto PDBA: Impactos en la Biblioteca Central Leloir: Archivo de fotografías
En la captura de imágenes: La imágenes blanco y negro de fotografías antiguas van a ser escaneadas a color Captura de imágenes a 600 dpi Generación de imágenes Master
En el almacenamiento: Estrategia de copias múltiples soportes múltiples (magnéticos y ópticos)
Proyecto Preservación Digital en Bibliotecas Argentinas
Grupo de discusión sobre Preservación Digital
http://espanol.groups.yahoo.com/group/PRESERVACION-DIGITAL
/