Universidad Carlos III de Madrid Recuperación y acceso a la Información Curso 2006/2007
Metadatos y Documentos XML/RDF para Recuperación
Ayllón Bonet, Julio César 100033467
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
ÍNDICE 1.
INTRODUCCIÓN ........................................................................................................................................3
2.
¿QUÉ SON LOS METADATOS? ..................................................................................................................4 2.1.
Uso de los Metadatos ...............................................................................................................4
2.2.
Clasificación de los Metadatos .................................................................................................5
2.3.
Estructura de los Metadatos .....................................................................................................6 2.3.1.
Metainformacion en HTML .................................................................................... 6
Especificación de Metadatos HTML....................................................................................... 6 2.4.
Evolución de los Metadatos ......................................................................................................7 2.4.1.
Metadatos Dublin Core.......................................................................................... 7
Motivación y Objetivos ........................................................................................................... 7 Descripción de Dublin Core ................................................................................................... 7 3.
4.
5.
¿QUÉ ES XML?.......................................................................................................................................9 3.1.
¿Por qué surgió XML? ..............................................................................................................9
3.2.
Objetivos de XML......................................................................................................................9
3.3.
Funciones de XML ..................................................................................................................10
3.4.
Ventajas de XML.....................................................................................................................10
3.5.
Estructura de un documento XML ..........................................................................................11
3.6.
Aplicaciones de XML ..............................................................................................................11
¿QUÉ ES Y PARA QUÉ SE USA RDF? ......................................................................................................12 4.1.
¿Como está diseñado RDF? ..................................................................................................12
4.2.
Estructura de un documento RDF ..........................................................................................13
4.3.
Diferencias entre XML y RDF .................................................................................................14
¿QUÉ ES RSS? .....................................................................................................................................15 5.1.
¿Para qué sirve RSS ? ...........................................................................................................15
5.2.
Otros formatos ........................................................................................................................16
2 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
1. INTRODUCCIÓN Desde hace ya varios años y a raíz de la popularización de Internet, y sobre todo de su colección distribuida de recursos multimedia (World-Wide Web), la cantidad de información disponible en la red creció desmesuradamente. Esto hizo que la gestión, mantenimiento y, lo que aquí se trata, la recuperación de información se convirtiese en un problema difícil de resolver para los gestores de la información y para el usuario de información electrónica. La relevancia en la recuperación resultaba cada vez más difícil desde que el conocimiento humano no estaba sólo determinado por unidades físicas de información, sino que se había convertido en un acervo distribuido de textos, imágenes, sonidos, publicaciones electrónicas, etc., con formatos heterogéneos y heteróclitos, que conforman nuevas representaciones de conocimiento. Para evitar tal problema se impulsaron diferentes soluciones para mejorar la recuperación de información en Internet. Una de esas soluciones fue el desarrollo de modelos de metadatos, estructuras de base para describir distintos objetos de información distribuidos en la web, de tal forma que la búsqueda basada en esos metadatos disminuyese el problema de la recuperación de información. En este contexto, surge lo que algunos denominan la Segunda Generación del Web propiciada por el desarrollo del XML (eXtensible Markup Language). Sobre la base de XML, se han definido distintos lenguajes de marca para los diferentes tipos de documentos. Uno de estos lenguajes de marcado semántico es el Resource Description Framework (RDF). En esta comunicación se contempla el RDF como una alternativa para la descripción o "catalogación" de recursos web y por ende, como un modelo de metadatos para mejorar la recuperación de información. Asimismo se tratarán de dilucidar algunos mitos sobre el concepto de metadatos, de XML y de algún otro formato de este último como el RSS.
3 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
2. ¿QUÉ SON LOS METADATOS? Son datos que describen otros datos, es decir, información relativa a los propios datos que facilitan su catalogación y además proporcionan información semántica asociada. En general, un grupo de metadatos se refiere a un grupo de datos, llamado recurso. El concepto de metadatos es análogo al uso de índices para localizar objetos en vez de datos. Por ejemplo, en una biblioteca se usan fichas que especifican autores, títulos, casas editoriales y lugares para buscar libros. Así, los metadatos ayudan a ubicar datos. Para varios campos de la informática como la recuperación de información o la web semántica, los metadatos son un enfoque importante para construir un puente sobre el intervalo semántico [1]. Debido a que los metadatos son datos en sí mismos, es posible crear metadatos sobre metadatos. Aunque, a primera vista, parece absurdo, los metadatos sobre metadatos pueden ser muy útiles. Por ejemplo, fusionando dos imágenes y sus metadatos distintos puede ser muy importante deducir cual es el origen de un grupo de metadatos.
[1]
- La diversidad de significado de dos descripciones de la misma cosa por causa de usar
lenguajes de expresividad distintos.
2.1.
Uso de los Metadatos
Los metadatos se utilizan en ámbitos muy diversos: bases de datos relacionales, aplicaciones data warehouse, sistemas de ficheros, etc. La posibilidad de definir cómo es la información contenida en un lugar, hace de los metadatos una herramienta de amplio espectro. Este documento se va a centrar sobre el uso de los metadatos mencionado más frecuentemente, la recuperación de información. Usando informaciones adicionales los resultados son más precisos, y el usuario se ahorra filtraciones manuales complementarias. Los metadatos añaden semántica al código de las páginas, lo cual puede ayudar a los motores de búsqueda, indexadores, etc. a encontrar aquello que estamos buscando. En una primera aproximación, el código HTML con el que se definían las páginas, no tenía ningún tipo de información semántica, debido a que HTML es un lenguaje de marcado, únicamente se define la forma de la página, no el contenido de la misma. La aplicación de los metadatos en el diseño de páginas web aporta a la descripción de la forma de las páginas, información sobre su contenido. Incluso se pueden llegar a definir estructuras de datos y las interrelaciones entre los mismos (véanse las secciones XML y RDF). 4 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
El uso de lenguajes para la definición de metadatos estandarizados, tales como XML ó RDF permiten el intercambio de información entre diferentes máquinas, con diferentes sistemas operativos, favoreciendo así la recuperación. Nacen con este propósito diferentes estándares como Dublin Core Metadata Initiative que pretenden definir una serie de vocabularios de metadatos para describir recursos. De esta forma se puede crear un lenguaje estandarizado que defina recursos de forma internacional. Esto facilita el acceso y la recuperación de información.
2.2.
Clasificación de los Metadatos
Según la función que proporcionan, se pueden clasificar en:
TIPO
OBJETIVO
Descriptivos
Describen e identifican recursos de información. Permite a los usuarios la búsqueda y recuperación de la información.
EJEMPLOS
Dublin Core o Etiquetas META de HTML
Estructurales
Facilitan la navegación y la presentación de los recursos. Proporcionan información sobre la estructura interna de los documentos, así como la relación entre ellos.
XML y RDF o SGML
Administrativos
Facilitan la gestión de conjuntos de recursos. Incluye la gestión de derechos y sobre control de acceso y uso.
MOA2
Descriptivos
Describen e identifican recursos de información. Permite a los usuarios la búsqueda y recuperación de la información.
Dublin Core o Etiquetas META de HTML
Estructurales
Facilitan la navegación y la presentación de los recursos. Proporcionan información sobre la estructura interna de los documentos, así como la relación entre ellos.
5 de 16
XML y RDF o SGML
Metadatos y documentos XML/RDF para Recuperación
2.3.
Julio César Ayllón Bonet
Estructura de los Metadatos
Los metadatos están estructurados por un mínimo de elementos tales como por ejemplo: título, autor, fecha de creación, etc. Típicamente, los elementos que conforman un metadato están definidos por algún estándar o perfil, donde los usuarios que deseen compartir metadatos están de acuerdo con el significado preciso de cada elemento. A continuación se muestran los metadatos utilizados en HTML para categorizar, describir y poder así distinguir los documentos.
2.3.1. METAINFORMACION EN HTML La forma de asignar metainformación a los documentos HTML es mediante las etiquetas <META>. Existen diversos tipos de etiquetas <META>, pero las más utilizadas son: description, que muestra información general sobre la página como su temática o su responsable, keywords, que contiene las palabras claves significativas, junto con las definidas en el estándar Dublin Core.
Especificación de Metadatos HTML Cada elemento <META> especifica una tupla de propiedad junto con su valor. Los principales atributos que tiene son name, content, scheme y http-equiv. El atributo name identifica unívocamente a la propiedad y content le asigna un valor. Se puede de esta forma, por ejemplo, asignar en un mismo documento metadatos en función del idioma: <META name="keywords" lang="en" content="Information Retrieval"> <META name="keywords" lang="es" content="Recuperacion Informacion">
El significado de una propiedad y sus valores asignados están asociados a un diccionario llamado perfil. El estándar Dublin Core es un ejemplo de perfil. Por ejemplo, el documento HTML http://metadatos-xml-rdf.awardspace.com/index.html contiene los siguientes metadatos: <META name="Author" content="Julio César Ayllón Bonet"/> <META name="title" content="Recuperacion y acceso a la informacion - Metadatos y documentos XML/RDF para recuperacion - Metadatos"/> <META name="Keywords" content="metadatos, recuperacion,xml,rdf,acceso,informacion"/> <META name="Description" content="Recuperacion y acceso a la informacion Metadatos y documentos XML/RDF para recuperacion - Metadatos"/> <META name="robots" content="all,index,follow,archive"/> <META name="revisit" content="2 days"/> <META name="revisit-after" content="2 days"/> <META http-equiv="Content-Type" content="text/html; charset=iso-8859-1"/> <META name="verify-v1" content="A1vebOcHu8F7l46CVCDVKl5FboBeC7ET6 ... /U0="/> 6 de 16
Metadatos y documentos XML/RDF para Recuperación
2.4.
Julio César Ayllón Bonet
Evolución de los Metadatos
Los metadatos en lenguaje HTML usando <META> tiene muchas limitaciones debido principalmente a su ambigüedad y a la cantidad de alternativas existentes. Por ello, en la especificación de HTML 4.01 del W3C, se introdujo el concepto de RDF (Resource Description Framework) para definir metadatos siguiendo la sintaxis de XML.
2.4.1. METADATOS DUBLIN CORE Motivación y Objetivos La iniciativa de Metadatos de Dublin Core (DCMI), llamada también Dublin Core, es una organización dedicada a fomentar la adopción extensa de los estándares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir recursos que permitan sistemas más inteligentes del descubrimiento del recurso. Se creó en 1995 con el propósito de crear estándares que facilitaran la descripción y recuperación de recursos de información. Se creó un conjunto de descriptores que hoy en día es el más extendido en la Web. Estos metadatos intentan establecer en la red los datos necesarios para describir, identificar y encontrar un documento. Si este estándar se usara mundialmente, se conseguiría que todas las aplicaciones automáticas que intentan indexar la información de Internet, como los buscadores, tendrían toda la información necesaria para manipular los documentos en su propia cabecera, facilitando su indización y provocando una mejora de eficiencia de los motores de búsqueda.
Descripción de Dublin Core Dublin Core es un sistema de 15 definiciones semánticas descriptivas que pretenden transmitir un significado semántico a las mismas. Cada definición es opcional, puede repetirse y aparecer en cualquier orden. Este sistema de definiciones fue diseñado específicamente para proporcionar un vocabulario de características "base", capaces de proporcionar la información descriptiva básica sobre cualquier recurso, sin que importe el formato de origen, el área de especialización o el origen cultural.
7 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
Los elementos de Dublin Core puede clasificarse en tres categorías según el tipo de información que contengan: ♦
Sobre el contenido del recurso
ETIQUETA DC DC.Title
DESCRIPCIÓN Título. El nombre dado al recurso.
DC.Subject DC.Description
Materias y palabras clave. El tema del contenido del recurso. Descripción del contenido del recurso. Puede incluir un resumen, una tabla de contenidos, etc. Fuente. Referencia al recurso del que deriva el documento actual.
DC.Source DC.Languaje
Lengua. El idioma del contenido del recurso.
DC.Relation
Relación. Una referencia a un recurso relacionado con el contenido.
DC.Coverage
♦
Cobertura. Ámbito del contenido del recurso. Puede tratarse de un especificación geográfica, temporal o legal.
Sobre la propiedad intelectual del recurso
ETIQUETA DC
DESCRIPCIÓN
DC.Creator
Autor. Responsable de la creación del contenido. Puede ser una entidad, una persona o un servicio
DC.Publisher DC.Contributor
Colaborador. Responsable de hacer colaboraciones al contenido del recurso Derechos. Información sobre los derechos de la propiedad intelectual del recuso, como por ejemplo el copyright
DC.Rights
♦
Editor. Responsable de que el recurso se encuentre disponible
Sobre la instancia del recurso
ETIQUETA DC
DESCRIPCIÓN
DC.Date
Fecha. Fecha asociada a la creación o modificación del recurso. Se suele seguir la notación AAAA-MM-DD
DC.Type
El tipo o categoría del contenido. Palabras clave de un vocabulario que describen la naturaleza del recurso
DC.Format
Formato. Descripción física del recurso, como su tamaño, duración, dimensiones, etc. si son aplicables. Se suelen usar tipos MIME
DC.Identifier
Identificación. Referencia unívoca para el contenido del recurso. Por ejemplo una URL o un ISBN
8 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
3. ¿QUÉ ES XML? XML, siglas en inglés de eXtensible Markup Language («lenguaje de marcas extensible»), es un metalenguaje extensible de etiquetas desarrollado por el World Wide Web Consortium (W3C). Es una simplificación y adaptación del SGML y permite definir la gramática de lenguajes específicos (de la misma manera que HTML es a su vez un lenguaje definido por SGML). Por lo tanto XML no es realmente un lenguaje en particular, sino una manera de definir lenguajes para diferentes necesidades.
3.1.
¿Por qué surgió XML?
A medida que el número de materiales disponible en soporte digital aumentaba, también se hacían mayores las dificultades para acceder a los mismos. Para solucionar este problema, se comenzó a trabajar a favor de la normalización de formatos. Tal normalización llevó a, XML. Representación de datos “etiquetados” (las etiquetas dan estructura a los datos) sin preocuparnos de la visualización de los mismos.
3.2.
Objetivos de XML
Cuando se creo XML, se hizo con el propósito de diseñar un lenguaje de marcas optimizado para el WWW uniendo la simplicidad de HTML con la capacidad expresiva de SGML. Con todo esto los objetivos que persigue XML son: ♦ Distinguir el contenido y la estructura de los documentos de su presentación en papel o en pantalla. ♦ Hacer explícita su estructura y sus contenidos informativos.
9 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
♦ Crear documentos portables, que puedan intercambiarse y procesarse con facilidad en sistemas informáticos heterogéneos. Para lograr estos objetivos XML propone: ♦ Un formato de documentos en texto plano (evitando las complejidades de los documentos binarios). ♦ Intercalar marcas con el objetivo de distinguir las distintas partes o elementos estructurales que conforman cada tipo de documento. ♦ Las marcas que se intercalan en un documetno XML no contienen ninguna instrucción a partir de la cual se pueda deducir como imprimir o mostrar en pantalla el documento.
3.3.
Funciones de XML
Una vez definidos los objetivos de XML y las reglas a seguir para conseguirlo se muestra cual es la funcionalidad real de XML: ♦ Representar y distribuir tanto documentos como información textual. ♦ Intercambio de datos e información estructurada a través de Internet y WWW. ♦ Integración de datos procedentes de fuentes heterogéneas. ♦ Eliminar la barrera entre información estructurada e información textual.
3.4.
Ventajas de XML ♦ Es extensible, lo que quiere decir que una vez diseñado un lenguaje y puesto en producción, igual es posible extenderlo con la adición de nuevas etiquetas de manera de que los antiguos consumidores de la vieja versión todavía puedan entender el nuevo formato. ♦ El analizador es un componente estándar, no es necesario crear un analizador específico para cada lenguaje. Esto posibilita el empleo de uno de los tantos disponibles. De esta manera se evitan bugs y se acelera el desarrollo de la aplicación. ♦ Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarlo. Mejora la compatibilidad entre aplicaciones.
10 de 16
Metadatos y documentos XML/RDF para Recuperación
3.5.
Julio César Ayllón Bonet
Estructura de un documento XML
La tecnología XML busca dar solución al problema de expresar información estructurada de la manera más abstracta y reutilizable posible. Que la información sea estructurada quiere decir que se compone de partes bien definidas, y que esas partes se componen a su vez de otras partes. Entonces se tiene un árbol de pedazos de información. Ejemplos son un tema musical, que se compone de compases, que están formados a su vez con notas. Estas partes se llaman elementos, y se las señala mediante etiquetas. Una etiqueta consiste en una marca hecha en el documento, que señala una porción de este como un elemento, un pedazo de información con un sentido claro y definido. Las etiquetas tienen la forma <nombre>, donde nombre es el nombre del elemento que se está señalando. A continuación se muestra un ejemplo para entender la estructura de un documento XML: <mensaje>
<nombre>Alfredo Reino <mail>[email protected] <destinatario> <nombre>Bill Clinton <mail>
[email protected] Hola Bill <parrafo>¿Hola que tal? Hace <enfasis> mucho que no escribes. A ver si llamas y quedamos para tomar algo.
3.6.
Aplicaciones de XML
Estas son algunas de la aplicaciones de XML: ♦ RDF – Resource Description FrameWork – Catalogación de recursos de Internet. ♦ CDF – Channel Description Format - Envío de información a través de push. ♦ OSD – Open Software Description – Descripción de packs de actualización de software. Aunque existen muchas más aplicaciones de XML.
11 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
4. ¿QUÉ ES Y PARA QUÉ SE USA RDF? El Marco de Descripción de Recursos (del inglés Resource Description Framework, RDF), es un framework para metadatos en la World Wide Web (WWW), desarrollado por el World Wide Web Consortium (W3C). y basado en XML, siendo un estándar flexible para la estructuración de la información en Internet. RDF es una especificación del W3C para la definición mediante metadatos, generalmente en XML, de los recursos que se pueden encontrar en un sitio. El lenguaje RDF es muy útil en situaciones en las que la información necesita ser procesada por aplicaciones que intercambian información legible por máquina, más que por humanos. RDF también provee una sintaxis basada en XML, llamada RDF/XML, para guardar e intercambiar la información Está construido en base a las siguientes reglas: ♦ Un recurso es cualquier cosa que puede tener un URI, esto incluye todas las páginas web, todos los elementos individuales de cada documento XML y mucho más. ♦ Una propiedad es un recurso que tienen un nombre y que puede usarse como una propiedad, por ejemplo autor o título. En muchos casos todo lo que nos importa en realidad es el nombre, pero una propiedad necesita ser un recurso de forma tal que pueda tener sus propias propiedades. ♦ Una sentencia consiste en la combinación de un recurso, una propiedad y un valor. Estas partes son conocidas como el sujeto, predicado y el objeto de la sentencia. Una sentencia es por ejemplo "El autor de http://metadatos-xml-rdf.awardspace.com/rdf.html es Julio César Ayllón Bonet". El valor puede ser un string por ejemplo "Julio César Ayllón Bonet" o puede ser
otro
recurso
por
ejemplo
"El
home
page
de
http://metadatos-xml-
rdf.awardspace.com/rdf.html es http://metadatos-xml-rdf.awardspace.com".
4.1.
¿Como está diseñado RDF?
RDF esta cuidadosamente diseñado para tener las siguientes características: ♦ Independencia - Dado que una propiedad es un recurso, toda organización independiente o incluso cada persona puede inventarlas. ♦ Intercambio - Ya que las sentencias RDF se escriben en XML pueden ser fácilmente usadas para intercambiar información.
12 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
♦ Escalabilidad - Las sentencias RDF son simples, registros con tres campos (Recurso, propiedad, valor) por lo que son fáciles de manejar y de usar para buscar objetos incluso en volúmenes realmente grandes. La web ya es lo suficientemente grande y continúa creciendo. Es probable que tengamos en algún momento miles de millones de RDFs flotando a nuestro alrededor algún día. Por eso la escalabilidad es importante. ♦ Las propiedades son recursos - Las propiedades pueden tener sus propias propiedades y pueden ser encontradas y manipuladas como cualquier otro recurso. Esto es importante porque tendremos muchísimos recursos que manejar. Demasiados como para buscarlos uno por uno. ♦ Los valores pueden ser recursos - Por ejemplo, la mayoría de las páginas web podrían tener una propiedad llamada "home" que apunte al home del sitio. Por lo tanto los valores de sus propiedades que podrían incluir el titulo y autor de la pagina también tienen que incluir recursos. ♦ Las sentencias pueden ser recursos - Las sentencias también tienen propiedades. Dado que no hay un estándar para todos los recursos posibles y dado que la web es demasiado grande como para que cada uno provea el suyo tendremos que realizar búsquedas basadas en los metadatos de otras personas. Esto significa que querremos, dada una sentencia como "El tema de esta pagina es monos" poder preguntar "¿Quien lo dice?", "¿Cuando?". Una forma útil de hace esto es mediante metadatos y por ello las sentencias deben poder tener sus propias propiedades.
4.2. Estructura de un documento RDF RDF toma un tanto de terminología abstracta y otro tanto de sintaxis XML para definir los documentos, de manera que se puedan escribir programas para procesarlos. Un ejemplo muy sencillo sería la definición de un contenido de la Wikipedia:
Tony Wikipedia
En este ejemplo definimos un recurso cuya descripción se encuentra en el enlace http://en.wikipedia.org/Tony, cuyo título es Tony y que ha sido publicado por la Wikipedia.
13 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
Esta forma de codificar como metadatos los recursos se utiliza principalmente para favorecer la recuperación de información por parte de los sistemas informáticos. Si esto no se hiciese así un sistema informático no sería capaz de diferenciar ni saber qué es Tony, un título o qué información referente se puede encontrar en el enlace.
4.3.
Diferencias entre XML y RDF
Mientras que XML es un lenguaje para modelar datos, RDF es un lenguaje para especificar metadatos. XML falla en la escalabilidad de los datos puesto que el orden de los elementos es antinatural y su mantenimiento es muy difícil y costoso, por el contrario, RDF permite la interoperabilidad entre aplicaciones que intercambian información comprensible por la página web, para proporcionar una infraestructura que soporte actividades de metadatos.
14 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
5. ¿QUÉ ES RSS? El RSS es un formato basado en XML que permite encontrar aquella información que mejor se adapta a lo que el usuario desea, pero también ofrecerla de forma rápida y actualizada.
Figura 1. Imagen que indica la presencia de feeds RSS
Existen tres tipos de formato RSS y sus siglas adquieren un significado diferente según la especificación usada: ♦ Rich Site Summary (RSS 0.91) ♦ RDF Site Summary (RSS 0.9 y 1.0) ♦ Really Simple Syndication (RSS 2.0) La versión RSS 1.0 incluye RDF. En esta versión RSS significa RDF Site Summary (Resumen de sitios RDF). Asimismo, RSS 1.0 incorpora el módulo Dublin Core, un conjunto de metadatos estándar que se usa para describir el agregador y los elementos individuales. Los archivos RSS son un nuevo método para obtener y ofrecer información gracias a que contienen metadatos sobre las fuentes de información. Este formato es de gran utilidad para sitios Web que actualicen sus contenidos con frecuencia, ya que permite compartir la información y verla en otros sitios de forma inmediata. A este intercambio de información se le denomina "sindicación". Sin embargo, para poder compartir esta información se necesitan unos software determinados, llamados "agregadores", es decir, programas capaces de leer e interpretar las fuentes RSS o "feeds". El término anglosajón "feed" se utiliza para denominar a los documentos con formato RSS legibles por los agregadores o lectores de feeds.
5.1.
¿Para qué sirve RSS ?
El formato RSS sirve para facilitar el acceso a la información Web que se actualiza con regularidad, logrando que el usuario recupere al momento las novedades producidas en la información de su interés. Cualquier usuario puede suscribirse a un feed y obtener las últimas noticias enviadas a su agregador o lector RSS, el cual le alertará cuando haya nueva información para leer.
15 de 16
Metadatos y documentos XML/RDF para Recuperación
Julio César Ayllón Bonet
Esto le permite obtener los datos que necesita de forma rápida y precisa, pues no tiene que comprobar los múltiples sitios que ofrecen los contenidos que le interesan sin saber si se ha producido algún cambio en ellos o no. Utilizando feeds y agregadores podemos decidir, tras la alerta del lector RSS, si queremos visitar el sitio en el que se ha originado la información para ampliarla o no. Pero el RSS no sólo le sirve al usuario para recibir la información que otros le ofrecen, sino que también le es de utilidad para mostrar los contenidos novedosos de su Web a otros internautas. Para ello se necesita que el usuario cree su propio feed y lo actualice frecuentemente con noticias novedosas sobre el tema que haya elegido. De este modo creará contenidos interesantes para otros usuarios que recibirán la información que les ofrece mediante un agregador o lector RSS. El proceso de sindicación de contenidos se convierte de este modo en un circuito de doble sentido en el que todos acceden y crean información con mayor facilidad y de forma más rápida.
5.2.
Otros formatos
En relación con RSS, también hay que destacar una especificación similar llamada Atom que ha sido desarrollada por IBM, Google y otras empresas de hosting y que ha sido muy promocionada por Blogger, empresa que pertenece a Google. Atom también es un sublenguaje XML. No se corresponde ni se basa en ninguna versión de RSS, pero es un formato muy similar a éste y que sobre todo tiene el mismo objetivo: permitir la distribución de contenidos y noticias de sitios web. Un documento Atom puede contener más información (y más compleja) y es más consistente que un documento RSS. El proyecto FOAF (Friend Of A Friend) trata de crear un estándar para documentos que describan a la gente, los enlaces entre ellos y las cosas que hacen. Todo ello usando XML para que sea fácilmente interpretado por software. Técnicamente es vocabulario semántico en RDF/XML. Existe mucha más información y documentos relacionados sobre FOAF en The FOAF Project. SKOS (Simple Knowledge Organization System) es un modelo para sistemas organizados de conocimiento en formato digital. Proporciona las estructuras básicas para representar tesauros, esquemas de clasificación, taxonomías, terminologías, glosarios y otros tipos de vocabularios controlados. El estándar se encuentra en el W3C.
16 de 16