OAI-PMH
- Elena Sancho
- hace 5 días
- 2 Min. de lectura

A veces es difícil comprender cómo funciona el protocolo OAI-PMH para recolectar metadatos desde servidores PMH. Por si tenéis curiosidad, os dejo aquí algunas sencillas instrucciones que podéis probar directamente desde vuestro navegador para interactuar con algunos servidores. Las siguientes son las URL base de los servidores PMH de algunas bibliotecas digitales españolas
BNE | |
Universidade A Coruña | |
Biblioteca Virtual de Defensa | |
Biblioteca digital Galiciana |
Las peticiones PMH se construyen en HTTP y las respuestas se obtienen en XML (a veces, se envía también un código para que el navegador coloque los datos de una forma más visual y legible, con un estilo que a menudo permite la interactividad. Es el caso de la Universidade de A Coruña).
Para hacer una petición de identificación a un servidor, hay que añadir “?verb=identify”, sin las comillas a la URL base. Lo que obtenemos son una serie de datos como el nombre del servidor, la versión del protocolo, etc.
Por ejemplo en el caso de la BNE, sería:
Para acceder a los conjuntos de datos que se pueden recolectar, hay que añadir “?verb=ListSets”. Por ejemplo:
Recibimos la lista de los distintos conjuntos de datos recolectables de la BNE virtual.
Para recolectar los metadatos de uno de los conjuntos recolectables, hay que añadir “?verb=ListRecords&metadataPrefix=oai_dc&set=nombre del conjunto”. Por ejemplo, en la BNE uno de los conjuntos de datos que nos muestra con la URL anterior es “cartografia_oai_dc”. Entonces la URL completa sería:
Lo que obtenemos es el máximo número de registros que permite descargar el servidor de una vez. Es decir, es posible que no descargue todos. Esto lo sabemos porque al final de la respuesta en XML, obtenemos algo como esto:
<resumptionToken>all@all@cartografia_oai_dc@oai_dc@24523816610008606</resumptionToken>
Como vemos nos da un “Token” 24523816610008606. Para poder seguir descargando registros a partir del último usaríamos la URL base y una instrucción para reanudar la descarga usando el Token.
Así procederíamos hasta que no aparezca un número de token al final.
Obviamente, en el “mundo real”, no hay una persona lanzando URLs a los servidores. Lo que hay son scripts que funcionan de forma automática y programada en los recolectores (como Europeana o Hispana, por ejemplo). Hay más instrucciones que admite el protocolo para acceder a registros concretos, por ejemplo. Estos programas pueden detectar registros nuevos en los servidores y recolectarlos para añadirlos a las bases de datos.
Un saludo y espero que os haya ayudado un poco




Comentarios