FAQ

¿Cómo se materializa la presencia de un archivo digital en la red aprovechando al máximo las posibilidades que ofrece la web semántica?

Con la implantación de un repositorio que albergue los documentos digitales de nuestra colección, en el que se recopilarán, gestionarán, preservarán y difundirán de forma organizada, interoperable, normalizada, y de acceso abierto y participado. Ello requiere considerar a la web como una estructura que aspira a convertirse en una plataforma universal para el intercambio de información para lo que emplea un metalenguaje específico: XML (del que se derivan vocabularios como RDF -con el que se describen metadatos de los recursos web soportados por el buscador Google, por ejemplo). Este lenguaje posibilita el etiquetado semántico de los recursos representados de un modo inteligible tanto para los humanos como para los agentes software inteligentes, que así pueden procesarlos empleando unas herramientas denominadas ontologías.

 

Si la web 2.0 considera al usuario como productor de contenidos en un modelo de comunicación multidireccional, la web 3.0 conlleva una navegación extremadamente rápida y personalizada (con la interoperabilidad de bases de datos y websites, geolocalización, gestión de datos en la nube y ejecución en cualquier dispositivo) y una distribución viral de la información (correo electrónico, redes sociales). Esto supone una revolución en la gestión de contenidos en Internet y posibilita que los de nuestro archivo digital puedan introducirse literalmente en los bolsillos del usuario/a de forma totalmente adaptada a sus necesidades siempre que seamos capaces de emplear las herramientas propias de este contexto: blogs, wikis, chat y foros, redes sociales (Facebook, Twenti, LinkedIn), servicios para compartir (Youtube), realidad aumentada...

 

 

—————

¿Qué es una ontología? ¿Tiene algo que ver con la archivística?

Una ontología se define como la suma de una serie de conceptos relevantes que representan el conocimiento compartido por los miembros de un dominio concreto. Son la clave de la web semántica -3.0- por cuanto son el canal de comunicación entre personas y computadoras, el puente entre el lenguaje natural y la manera en que se comunican entre sí las máquinas. Se compone de unos elementos estructurales:

  • Conceptos e ideas (y sus agrupaciones) a representar
  • Instancias o individuos que se pueden englobar en un concepto
  • Asertos (pieza de conocimiento en la que aparecen interralacionados conceptos)

Se representan en la web con lenguajes como el OWL -Web Ontology Language-, que emplea la sintaxis XML y el vocabulario RDF -Resource Description Framework-, describiendo con él conceptos interrelacionados de modo que pueden ser procesados por programas capaces de realizar razonamientos a partir de esas relaciones. La realidad pretendida representar es plasmada mediante entidades, una serie de propiedades y una clase (y puede editarse con herramientas software como PROTEGÉ).

Estas ontologías -procedentes del ámbito de la inteligencia artificial- permiten representar conocimiento considerando que toda entidad está caracterizada por el contexto en el que se define. Y este es un punto de coincidencia esencial con el ámbito propio de la archivística, donde se considera clave la preservación del contexto de producción de la documentación generada por una institución para la descripción, organización y gestión de los fondos. Así, una ontología normalizada específica para el ámbito archivístico bajo las premisas referidas sería la EAD -Encoded Archival Description-.

—————

Los documentos electrónicos de nuestra colección archivística... ¿cuál es su naturaleza y cómo han de gestionarse?

Constituyen el principal activo de un repositorio implementado en el marco de la web semántica. Se trata de documentos que están parametrizados sobre la base de una codificación binaria y precisan de un ordenador o dispositivo similar para leerlos. Tienen dos propiedades singulares:

  • Copia: capacidad de hacer copias idénticas, indistinguibles del original
  • Modificación: de estructura, contenido, contexto del documento, sin dejar rastro y sin posibilidad de reconstrucción de lo inicial

Como entidades intelectuales se pueden representar en pantalla con diferentes configuraciones tecnológicas o representaciones. Cada una de éstas puede estar compuesta de uno o varios ficheros informáticos -PDF, HTML, JPEG...-, o bien de una o varias cadenas de bits dentro de distintos sistemas de información -valores de campo de una base de datos, por ejemplo, o una imagen incrustada en otro fichero.

Y como no se trata únicamente de imágenes, una apariencia, sino que albergan una serie de funcionalidades que permiten interactuar con ellos, su conservación ha de ocuparse de ambas dimensiones, implicando que deben ser preservados en formato electrónico y en una forma y contexto igual o equivalente a aquel en que fueron creados -sus parámetros significativos.

 

Su gestión considerará su naturaleza global, como activos tecnológicos así como documentales, evitando en lo posible que sean almacenados:

  • Sin un criterio específico y normalizado de descripción (a ser posible con aplicación de la EAD)
  • Sin habilitar un repositorio con finalidades de archivo, siendo sustituido por el simple proceso de copia de seguridad
  • Sin sistematizar los procedimientos para describir los documentos con metadatos (DublinCore, METS, PREMIS..)
  • Sin establecerse políticas de selección y expurgo

—————

¿Qué modalidad web deberá adoptar nuestro archivo digital?

Podemos optar por implementar alguno de los siguientes tipos de web-sites de archivos existentes en la actualidad:

  • Web-folleto: folleto de la institución en formato electrónico
  • Web de primera aproximación: ofrece al usuario un instrumento para discernir la oportunidad de su visita a la sala de consulta
  • Web-instrumento de descripción: posibilita el acceso en línea al instrumento de descripción/catálogo, sin necesidad de desplazarse a la sala de consulta (ejemplo: Catálogo Virtual de Edad de Plata de la Residencia de Estudiantes)
  • Web-site con servicios extra: además de información confieren un valor añadido en el acceso a ciertos documentos en línea de una exposición virtual de carácter divulgativo, con acceso a bibliografía, etc., favoreciendo el feedback con el usuario/a (ejemplo: Arxiu municipal de Barcelona)
  • Web-archivo virtual: en el que se posibilita la consulta en línea de una serie documental a nivel de unidad. Suelen hacerlo a una o pocas series documentales que destacan por su especial valor (ejemplos: PARES, Arxiu Municipal de Tarragona)
  • Portal archivístico: ofrece aún más servicios añadidos que el simple web-site con servicios extra, facilitando acceso directo a recursos de información relevantes, ofreciendo herramientas de búsqueda y posibilitando la personalización al usuario/a con estos servicios (ejemplos: UNESCO, ARMA Internacional)

En cualquier caso, deberemos tener en cuenta que en España los web sites de archivos están evolucionando hacia el modelo de compartir recursos, información e incluso la producción de la misma web, pero aún puede constatarse la existencia de un trecho para acercarse al nivel de los web sites del ámbito anglosajón (USA, UK, Australia, Canadá...). Y es que en este ámbito se ha realizado una fuerte apuesta por:

  • Inversión técnica y apoyo económico (para ofrecer calidad y utilidad al usuario/a)
  • Estandarización en la descripción (ISAD-G, EAD): Internet es visto como medio de intercambio informacional dentro de la comunidad archivística
  • Empleo de SGML/XML para la normalización, interoperabilidad, almacenamiento, consulta, búsqueda y recuperación de descripciones y documentos. 

(La aplicación de XML mejora la distribución normalizada de fuentes documentales primarias vía Internet y facilita su acceso a un mayor número de usuarios -del mundo entero. (Ej.: COAX -Contemporary Culture Virtual Archives in XML, impulsado por la Unión Europea))

—————

¿Cuál es el principal desafío para implantar un repositorio de archivo en la web semántica?

El principal desafío consiste en abordar con éxito una transformación de la cultura en el seno de la propia organización impulsora del archivo digital que implica:

  • Brindar al público los contenidos de nuestra colección con la máxima eficacia incorporando prácticas plurales, participativas y abiertas que las nuevas tecnologías y entornos digitales ofrecen.
  • Asumir que esta nueva cultura de comunicación en la que participan agentes internos y externos puede generar tensiones
  • Emplear un gestor de contenidos como la plataforma adecuada para la difusión tanto a nivel interno como a través de la web
  • Abrirse a la gestión del conocimiento propio y externo, colaborativo, abandonando el tradicional modelo undireccional de comunicación

 

Se trata de una tarea amplia y compleja que pone en crisis las habituales dinámicas de la entidad en su forma de trabajar, suponiendo frecuentemente un cambio radical que obliga a replantearse las estrategias y procesos de trabajo interno tras un análisis previo y sistematización adecuada.

—————

¿Qué características principales debería tener cualquier documento incluido en un repositorio de archivo digital?

Las derivadas de optar por una estrategia orientada a la gestión de documentos -modelo 'docucéntrico'- por la que el sistema informático -base de datos- sea considerado exclusivamente como un generador de dichos documentos. Este modelo evita así considerar que nuestra colección es  un único documento en su conjunto, en el que únicamente se automatizan procesos -modelo 'tecnocéntrico'-. Esta estrategia exige un esfuerzo para incluir el contexto de creación en los documentos , con el objetivo de crear objetos digitales independientes de un software concreto, y autosuficientes, que podrán visualizarse por distintos programas a lo largo de su ciclo de vida, favoreciendo así su preservación. Dicho contexto (cuya expresión en la práctica son los metadatos) incluye:

  • Contexto documental: metadatos descriptivos para la identificación de cada unidad documental, orientados básicamente a su recuperación y uso (Ej.: DublinCore)
  • Contexto de utilización: metadatos administratios, generados por el uso y vida del documento
  • Contexto tecnológico: metadatos sobre las características tecnológicas de los documentos -esenciales para evaluar posible obsolescencia y paliarla-. (Los más habituales son los PREMIS -de preservación-, complementados con METS -tipo de contenedor basado en XML)

 

Un repositorio implantado bajo esta premisa considera que un documento archivístico digital debe ser:

  • Autodocumentado: la información descriptiva debe estar incluida en el mismo documento en forma de metadatos
  • Autocontenido: todos los componentes del documento -ficheros y cadenas de bits- deben mantenerse unidos, junto con los metadatos, mediante el uso de un contenedor común
  • Extensible: dicho contenedor debe posibilitar la inclusión de nueva información una vez depositado el documento en el repositorio

Todo ello requiere que asumamos -para nuestra colección digital- las dos obligaciones principales de un archivo: conservar la información a largo plazo y proporcionar acceso de una forma coherente con las necesidades de los usuarios. Nuestro repositorio debería desarrollarse en consecuencia a partir de un modelo OAIS empleando para los documentos un modelo de contenedor METS.

—————

¿Cuáles son los pasos a dar para disponer de un repositorio de archivo digital en la web?

Los pasos a dar serían los siguientes:

1. Diagnóstico y estrategia que incluya una reflexión sobre:

  • Objetivos, recursos, dimensiones del repositorio, formatos y usos que aceptará
  • Priorización y selección de materiales a digitalizar/incluir
  • Directrices que normalizan el proceso de digitalización -estándares de metadatos...-, que posibilitan una mejor preservación digital y la posibilidad de intercambio de registros con otras instituciones
  • Opción por un repositorio institucional propio o colaborativo

2. Obtención de cobertura legal (uso de licencias CreativeCommons...)

3. Recursos:

  • Hardware: un servidor que soportará el repositorio teniendo en cuenta factores como volumen de documentos a depositar y nivel de consultas de usuarios potenciales, además de estaciones de trabajo -equipos informáticos, escáneres, cámaras- para la edición de los documentos electrónicos. Todo ello con un sistema que garantice la alimentación ininterrumpida y un dispositivo de backup.
  • Software: la tendencia mundial es la utilización de software libre. La ventaja es su adaptabilidad, coste e independencia del proveedor. La elección se realiza en base al tipo de documentación (existen más de 70 a nivel internacional: DSpace, Eprints, Fedora, Greenstone, ContentDM, Archivist Toolkit, ICA-ATOM...). Se construyen sobre un sistema de base de datos -Oracle, MySQL..- con éstos en formato estándar XML para su traslado de un repositorio a otro.
  • Metadatos: EAD (ámbito archivístico), DublinCore, conformidad con protocolo de interoperabilidad OAI-PMH, PREMIS (de preservación, en lo posible) y METS (codificación en XML).
  • Personal: con capacidades para desarrollo de contenidos; coordinación; introducción de metadatos; mantenimiento de hardware, sofrware, estadísticas, preservación y gestión de los objetos; derechos de autor, publicaciones y promoción.

4. Implementación:

-Planificación de tareas:

  • Estrategia de la institución
  • Plan operativo: implementar un repositorio digital al servicio de la institución
  • Actuaciones previas: identificación y digitalización de la colección según políticas y parámetros establecidos, consideración de aspectos legales, elección de sistema de metadatos, implementación de hardware y software, selección de servicios a ofrecer, asignación de recursos
  • Actuación 1: ordenación de la colección digital -captura en un sistema SGDE (Sistema de Gestión de Documentos Electrónicos) de fácil acceso técnico
  • Actuación 2: configuración de detalles de la colección en el repositorio y de los perfiles de usuario (Administrador)
  • Actuación 3: carga de objetos digitales y asignación de metadatos (Técnico)
  • Actuación 4: validación de la carga y publicación en abierto (Administrador)
  • Actuación 5: promoción del repositorio (Coordinador)
  • Actuación 6: evaluación del repositorio (Coordinador)

-Carga de objetos y metadatos: previamente el Administrador define las propiedades de la colección, así como los campos de metadatos y las propiedades de esos campos. También el aspecto de la interfaz de consulta. Luego el Técnico carga el archivo de cada documento -más el fichero de transcripción, en su caso- (algunos de ellos informados por defecto a través de plantillas predefinidas, que pueden incluir lenguajes controlados, o a través de la importación de registros de otras bases de datos o catálogos), y lo carga en el servidor. El sistema del repositorio indexará el documento y los metadatos,  y se producirá la publicación del nuevo registro en el repositorio.

-Publicación y evaluación de visibilidad, de políticas, aspectos legales, metadatos e interoperabilidad, estadísticas, seguridad, etc.

-Preservación y seguridad del repositorio (digitalizar y depositar no es sinónimo de preservación, es sólo el primer paso. Es el gran reto)

-Promoción y comunicación

—————

Si los documentos del repositorio de archivo digital son la reproducción de documentos originales... ¿qué aspectos tendremos en cuenta para su digitalización?

La digitalización consiste en un proceso por el que se transforma algo analógico -físico, real- en algo digital -conjunto finito de unidades binarias-, tomar una imagen (de documento en papel) y convertirla en un formato tratable informáticamente. Este proceso de captación de imagen se realiza con un escáner dispuesto con sensores CCD -dispositivo acoplado de carga eléctrica-, y funciona del siguiente modo: se ilumina la imagen con un foco de luz, se conduce mediante espejos la luz reflejada hacia los sensores que transforman la luz en señales eléctricas y éstas a un formato digital mediante un CAD -conversor analógico digital-, y el caudal resultante de bits se transmite al ordenador.

 

Todo ello se procesa en el SGDE -Sistema de Gestión de Documentos Electrónicos- del repositorio. El SGDE cuenta con:

  • Periféricos de digitalización (escáneres): digitalizan los documentos y convierten en imagen digital en un formato tratable por el sistema informático. Pueden ser de tipo plano -para libros, revistas-, de rodillo -hojas sueltas-, mixto -el más utilizado en un SGDE-, aéreo -todo tipo, incluso 3D, pero de funcionamiento lento-, de film y diapositivas, de tambor, de gran formato, radiológico... Los parámetros a tener en cuenta en relación a sus prestaciones son: resolución (óptica, interpolada, de escaneado), velocidad de exploración (tiempo requerido para digitalizar la imagen), y formatos de archivo que proporcionan (JPEG, TIFF...). Cuentan con un interfaz escáner/ordenador compuesto de conector SCSI o puerto USB conjuntamente con los protocolos a nivel lógico -software- que permiten dialogar con el usuario (de forma estándar con el interfaz TWAIN, por ejemplo).
  • Almacenamiento: dispositivos magnéticos/ópticos capaces de contener y permitir acceso a imágenes digitales y sus metadatos.
  • Unidad de proceso: encargada de la ejecución y control del software y periféricos. Incluye la aplicación de gestión electrónica de documentos -captura, clasificación y visualización-, el sistema de worflow -si existe-, y la base de datos de tipo documental o relacional.
  • Comunicaciones para transferir imágenes y metadatos entre elementos locales y/o remotos del sistema.
  • Impresoras, monitores/dispositivos capaces de reproducir imágenes digitalizadas.

 

Internamente este proceso supone que se realiza  una muestra de cada imagen y se confecciona un mapa en forma de cuadrícula de puntos elementales -píxeles-. A cada píxel se le asigna un valor tonal -negro, blanco, gris, color- el cual está representado por un código binario -ceros y unos-. Estos dígitos binarios -bits- para cada pixel son almacenados en una secuencia y con frecuencia reducidos a una representación matemática -compresión-. Luego, el ordenador interpreta esta secuencia de bits para reproducir una versión analógica para su visualización o impresión.

Para realizar con éxito dicho proceso es imprescindible el conocimiento de los parámetros de una imagen digital:

  • Resolución: frecuencia espacial a la cual se realiza la muestra de una imagen digital (se determina por el número de píxeles leídos en una distancia lineal de una pulgada -2'54 cm.-). Las unidades más empleadas son los 'puntos por pulgada' -ppp=dpi (dots per inch) o bien los 'píxeles por pulgada' (ppi) -200, 300, 400 ppp para documento b/n, 1.000, 2.400 ppp para documentos a color.
  • Dimensiones: medidas horizontales/verticales de la imagen, expresadas en píxeles.
  • Profundidad de bits: cantidad de bits utilizados para definir cada píxel -a mayor profundidad, mayor cantidad de tonos que pueden ser representados-.
  • Rango dinámico: reango de diferencia tonal entre la parte más clara y la más oscura de una imagen -cuanto más alto el rango, mayor potencialidad de representar matices-.
  • Tamaño de archivo: se calcula multiplicando el área de superficie (ancho x alto) del documento a ser digitalizado -en pulgadas-, por la profundidad en bits y por el cuadrado de la resolución.
  • Compresión: se utiliza para reducir el tamaño del archivo de imagen para su almacenamiento, procesamiento y transmisión. Todas las técnicas de compresión abrevian la cadena de código binario mediante complejos algoritmos matemáticos (pueden ser con pérdida o sin ella).
  • Formatos del archivo: consisten tanto en la configuración de bits que comprende la imagen, como en la información del encabezamiento acerca del cómo leer e interpretar el archivo. Los formatos varían en términos de resolución, profundidad de bits, soporte para la compresión y metadatos. Los principales formatos gráficos son: .bmp/ .tiff/ .jpeg/ .gif/ .pdc/ .png/ .pdf

—————

¿Cuáles son las principales recomendaciones para preservar nuestra colección archivística digital?

En primer lugar, ser conscientes de los objetivos esenciales de la preservación digital, que son:

  • Los datos depositados no se perderán, dañarán o alterarán (gracias a la realización de periódicos chequeos y backups)
  • Los usuarios podrán buscar y acceder a los datos (los documentos digitales contarán con identificadores permanentes)
  • Los datos serán interpretados y comprensibles por los usuarios finales, superando retos actuales y futuros (con el empleo de técnicas tales como la migración de formatos, refreshing de soportes, emulación y de hardware y software)

 

Independientemente del método concreto que se emplee y como recomendaciones generales:

  • Utilizar preferentemente los formatos de fichero de uso más extendido, aunque sean formatos propietarios: PDF/A, ODF, Office Open XML (para documentos básicamente textuales)
  • Evitar en lo posible la utilización de estrategias de compresión, y cuando sea necesario utilizar los formatos de compresión estándar (no emplear los que impliquen una pérdida notable de información, pues en el futuro podría ser necesario recuperarla)
  • Garantizar la trazabilidad de todas las modificaciones que se realicen sobre el documento
  • En el momento de crear un documento, y durante su utilización, recoger el máximo posible de metadatos, especialmente tecnológicos o de preservación (es la clave para preservar el contexto y mantener la unidad del fondo documental digital)

 

Una institución responsable de memoria colectiva (ejemplo: archivo histórico) debería mantener una política de preservación digital que contemple en la implementación de su repositorio la ISO 14721 -Space Data and Information Transfer Systems/ Open Archival Information System OAIS. Ello le permitiría establecer un marco conceptual homogénero para el desarrollo e interoperabilidad de soluciones, formatos y servicios. Un OAIS tiene tres componentes:

-Entorno externo: agentes humanos/automáticos que intervienen en el proceso de preservación.

-Componentes funcionales: procesos de archivo (ingreso-ingest/ conservación-storage/ planificación de preservación/ acceso o difusión-access/ gestión de información-data management/ administración).

-Objetos de información: es el núcleo de negocio del OAIS, con tres tipos de objetos:

  • SIP (Submission Information Package), que el productor crea.
  • AIP (Archival Information Package), convertido en un objeto conservable -descrito con metadatos.
  • DIP (Dissemination Information Package), en formato accesible para un público externo.

Los metadatos esenciales para informar el contexto tecnológico son los PREMIS, complementados con los de contenedor tipo METS. La estructura de un contenedor de este tipo persigue visualizar descriptivamente la estructura jerárquica de los objetos digitales y los nombres y ubicación de los ficheros que los componen. Es la siguiente:

  • Cabecera
  • Metadatos descriptivos
  • Metadatos administrativos
  • Ficheros
  • Mapa estructural
  • Enlaces estructurales
  • Comportamientos

—————

La descripción archivística de los documentos de nuestra colección digital... ¿debería ser interoperable? ¿Cómo?

Sí, si deseamos potenciar el intercambio y el acceso a nuestra documentación, codificándola en XML. Pero además, y en lo concerniente al ámbito propiamente archivístico, la web semántica es un marco propicio para el empleo de la EAD (Encoded Archival Description), una estructura de datos normalizada que reproduce en formato digital los instrumentos de descripción archivística -con sintáxis XML, que garantiza su interoperabilidad en la red. Se basa en las ISAD-G, un conjunto de reglas con un concepto básico, la unidad de descripción (cualquier documento o conjunto de ellos tratados como una entidad a efectos de descripción normalizada -fondo, sección, serie..-), y 4 reglas fundamentales:

  • Descripción de lo general a lo específico (la descripción debe presentarse de forma jerárquica y relacionada -desde fondo a documento)
  • Información pertinente al nivel de descripción
  • Vínculos entre descripciones
  • No repetición de información

La estructura EAD  es representada en un esquema jerarquizado -DTD (Document Type Definition)- que actúa como libro de instrucciones, ya que expresa el significado y el alcance de cada elemento (etiqueta) que puede aparecer en un documento EAD, habiendo sido diseñada para reflejar la jerarquía natural que presenta la organización de los fondos en conjunción con la jerarquía intelectual establecida por criterios descriptivo-archivísticos. Dicha estructura pretende facilitar y normalizar la distribucion de instrumentos de descripción por Internet y ofrecer un entorno de almacenamiento de dichos datos estable y sin marca registrada, de forma que se puedan transferir o migrar de un sistema a otro sin ninguna dificultad. Un documento EAD es un documento XML, con lo que se pueden aprovechar todas las posibilidades de acceso y recuperación de información de la tecnología de redes, siempre teniendo en cuenta que, para ello, habrá de proporcionarse 'estilo' a ese documento -enlazándolo a una hoja de estilo XSL o CSS-, y con la ventaja de que permite enlazar -una vez codificados los recursos- las descripciones sobre registros ISAD-G en bases de datos distribuidas.

La estructura se compone de 145 elementos (8 esenciales y 40 recomendables) - a los que se asigna un nombre completo y un identificador genérico (ej.: 'title of the unit'/'unititle')- y determina los atributos que éstos pueden tener asociados y el contenido que aquellos pueden incluir, aclarando si es de uso obligatorio u opcional, si es repetible, etc. Dichos elementos son de varios tipos: 

  • Descriptivos (título, fecha, productor..),
  • Utilizados para el acceso (nombre de entidad, de persona..),
  • Genéricos (codificadores de características)

 

 

 

—————