Buenas prácticas y directrices para datos de investigación en Digital.CSIC


   - Consideraciones en la preparación, gestión y difusión de datos
   - Políticas de datos de investigación de Digital.CSIC
      - Datos aceptados y almacenamiento
      - Aceptación y conversión de formatos
      - Descripción de los conjuntos de datos. Plantilla de Digital.CSIC
      - Denominación de archivos
      - Versiones de los conjuntos de datos
      - Copyright, licencias y reutilización de datos
      - Cómo citar los conjuntos de datos
      - Recursos de interés

Consideraciones en la preparación y gestión de datos y su difusión en Digital.CSIC   subir

Los conjuntos de datos constituyen una tipología muy específica de recursos de información científica y es muy importante tener en cuenta varias consideraciones antes de darles difusión pública.

La descripción sistemática y la difusión de los datos generados durante los proyectos de investigación mediante el depósito en un repositorio de acceso abierto son beneficiosas porque:

  • Aumentan el impacto de los proyectos de investigación.
  • Permiten citar y descubrir los conjuntos de datos generados.
  • Minimizan los riesgos de pérdidas de datos, con vistas a garantizar una futura usabilidad.
  • Cumplen con un número creciente de políticas de acceso abierto de agencias financiadoras de investigación.
  • Garantizan que los datos científicos se preserven.

La difusión de datos puros de investigación puede ser de interés para muchos segmentos de la sociedad:

  • Equipos de investigación.
  • Agencias públicas de investigación.
  • Universidades y centros científicos.
  • Centros de datos científicos.
  • Bibliotecas, archivos y museos.
  • Estudiantes y ciudadanos curiosos de la ciencia

Los autores de datos deben tener en cuenta los siguientes aspectos para gestionarlos y difundirlos adecuadamente:

¿Qué tipos de datos se van a difundir en acceso abierto: resultados de encuestas, de observaciones, entrevistas, simulaciones, datos recogidos automáticamente, muestras, modelos..?

Es importante asegurarse de que los datos científicos que se desea difundir no están sujetos a ningún tipo de restricción por cuestiones de confidencialidad, privacidad o de copyright.

¿En qué formatos se encuentran los datos?

La calidad y la resolución de los datos son fundamentales para su accesibilidad y reutilización a corto y a largo plazo.

¿Qué estructura y qué dimensión tienen los datos: número y tamaño de los ficheros y del total del conjunto, un solo conjunto de datos/ítem o múltiples conjuntos de datos/ítems? ¿Qué organización y qué nivel de detalle tienen los datos? ¿Existen ficheros secundarios?

La Oficina Técnica de Digital.CSIC ofrece diversas soluciones según las exigencias de visualización y organización de los datos científicos. Algunas veces los datos estarán organizados en multitud de ficheros dentro de un solo conjunto de datos y en otras será necesario organizar los datos en varios conjuntos diferentes. La documentación adjunta en estos casos debe dejar claro el sistema de relaciones entre los distintos componentes del conjunto de datos.

Si el conjunto de datos tiene una identidad específica muy concreta y su estructura se organiza en una multiplicidad de registros, la Oficina Técnica del repositorio puede ofrecer la apertura de una colección ad hoc.

¿Los datos se han estructurado y se han etiquetado de modo consistente para que su difusión y su reutilización sean posibles?

Es muy importante que los ficheros se nombren del modo más consistente posible para facilitar su acceso. Es también recomendable que no dependan de software propietario, para asegurar su accesibilidad en el futuro, por lo que Digital.CSIC sugiere usar formatos como por ejemplo, csv. .txt, xml, tiff, mp4.

¿Qué formato(s) elegir para facilitar la mayor accesibilidad posible por otros usuarios ahora y en el futuro?

El formato y el software en que se crean los datos de investigación dependen en general del modo en que los investigadores deciden recoger y analizar los datos.

Esta elección a menudo está determinada por las normas específicas de la disciplina y sus hábitos de investigación. Existen disciplinas que recomiendan formatos específicos para los datos, como por ejemplo:
http://library.uoregon.edu/datamanagement/fileformats.html
http://www.digitalpreservation.gov/formats/fdd/browse_list.shtml
http://www.ddialliance.org/resources/tools?lvl1=product&lvl2=dext?

Si los autores de los datos desean depositarlos en Digital.CSIC, es también importante comprobar si el repositorio institucional soporta estos formatos específicos. DSpace Format Reference Collection

Una vez se haya completado el análisis de datos y los datos están preparados para el almacenamiento, los autores deben considerar la conversión de sus datos a formatos estándar, intercambiables y de mayor duración.

Los formatos estándar deben ser considerados también para las copias de seguridad.

¿Los datos han sido creados, editados o comprimidos con un software específico?

Si los datos han sufrido algún proceso de transformación, es importante indicar la versión del software con el que se han creado los datos resultantes, incluyendo a ser posible, detalles sobre la compresión, codificación y bit rate.

¿Los ficheros incluyen documentación sobre los datos?

Es conveniente empezar a preparar la documentación de los datos al inicio del proyecto de investigación, incluso antes de iniciar la recogida de datos.

En la preparación de la documentación es muy importante incluir información sobre la metodología utilizada y otra información relevante, sobre los acrónimos usados y sobre las etiquetas de las variables y de los valores de los datos.

Digital.CSIC recomienda el depósito de un fichero readme.txt con toda la documentación junto con los conjuntos de datos.

Gestión de derechos de autor de los datos y licencias de uso

Es muy importante que los autores de los datos comprueben si son titulares de todos los derechos de autor para poder difundirlos legalmente. Si no es así, es necesario recibir el permiso de reutilización de los propios titulares. Por otra parte, los autores de los datos deben preparar las citas bibliográficas de las posibles fuentes utilizadas para generar los datos.

Otra cuestión relevante se refiere a la anonimización de los datos, si fuera necesario por cuestiones de privacidad. Si los datos no estuvieran suficientemente anonimizados, los autores deben obtener el consentimiento explícito de las personas cuya identidad quedaría revelada con la difusión de los mismos.

Otro aspecto importante aborda las licencias de uso. ¿Bajo qué licencia se quieren publicar los datos de investigación? ¿Estarán todos los datos sujetos a la misma licencia? ¿Necesitan un embargo antes de difundirse en acceso abierto?

Es importante tener en cuenta que dependiendo del proyecto de investigación y del acuerdo con la agencia financiadora del proyecto podría ser necesario aplicar un periodo de embargo en el cual los datos no puedan ser accesibles durante el tiempo requerido. O por el contrario, que la agencia indique explícitamente los plazos obligatorios para su difusión pública y bajo qué términos.

Integración de datos

Por integración de datos se entiende la recuperación y la incorporación de un conjunto de datos a otros conjuntos de datos para crear uno mayor. La web semántica permite tales integraciones y para ello es necesario tratar el conjunto de datos de la siguiente manera:

  1. Marcar los datos en XML o en un formato similar.
  2. Estructurar los elementos de los datos según el modelo Resource Description Framework (RDF).
  3. Identificar y hacer accesibles los datos a través de URIs.
  4. Usar ontologías específicas para etiquetar los elementos del conjunto de datos.
Compatibilidad con la política de conjuntos de datos de Digital.CSIC

Digital.CSIC acepta datos científicos como tipología desde 2010. Los investigadores CSIC que estén considerando la posibilidad de alojar y de dar difusión a sus datos a través del repositorio institucional deben conocer sus políticas de contenidos y colecciones, datos y metadatos y de preservación de registros.


Datos aceptados y almacenamiento   subir

Se entienden como datos susceptibles de ser depositados y difundidos a través de Digital.CSIC las siguientes categorías, según la definición de la Universidad de Melbourne:

Los datos de la investigación son hechos, observaciones o experiencias en que se basa el argumento, la teoría o la prueba. Los datos pueden ser numéricos, descriptivos o visuales. Los datos pueden ser en estado bruto o analizado, pueden ser experimentales u observacionales. Los datos incluyen: cuadernos de laboratorio, cuadernos de campo, datos de investigación primaria (incluidos los datos en papel o en soporte informático), cuestionarios, cintas de audio, videos, desarrollo de modelos, fotografías, películas, y las comprobaciones y las respuestas de la prueba. Las colecciones de datos para la investigación pueden incluir diapositivas; diseños y muestras. En la información sobre la procedencia de los datos también se podría incluir: el cómo, cuándo, dónde se recogió y con qué (por ejemplo, instrumentos). El código de software utilizado para generar, comentar o analizar los datos también pueden ser considerados datos.

Digital.CSIC acepta el depósito de datos de investigación en las siguientes condiciones:
  • Los datos deben ser producidos por la comunidad científica CSIC.
  • Tienen que estar completos y preparados para su distribución pública (es decir, su difusión pública no supondría una violación legal).
  • Los autores de los datos han de querer y estar en condiciones de conceder al CSIC el derecho a preservar y distribuir los datos a través de su repositorio institucional. La política de conservación, retención y eliminación de registros para los conjuntos de datos refleja la general para todos los contenidos de Digital.CSIC
  • Cada conjunto de datos debe incluir un fichero “readme” con el listado de los contenidos del conjunto de datos (nombre, formato y tamaño de cada fichero), una lista del software utilizado para producir, representar y comprimir los datos (cuando sea aplicable), la categoría de datos (crudos, procesados, visualizados…).
  • Los conjuntos de datos pueden contener múltiples ficheros. Los ficheros individuales (incluidos los comprimidos) no pueden exceder los 512 MB. Es necesario contactar con la Oficina Técnica de Digital.CSIC si se desea depositar un conjunto de datos de tamaño superior, para considerar la conveniencia/posibilidad del depósito.
  • Se desaconsejan los archivos comprimidos, con la única excepción de los casos en que el conjunto de datos sea demasiado grande o contenga muchos ficheros que deban distribuirse juntos (contactar con la Oficina Técnica de Digital.CSIC en estos casos).

Aceptación y conversión de formatos   subir

Formatos recomendados

La opción más segura para garantizar el acceso a los conjuntos de datos a largo plazo es convertirlos a formatos estándar que la mayoría de los softwares sean capaces de interpretar y que sean adecuados para el intercambio y la transformación de datos. Digital.CSIC recomienda el depósito de los conjuntos de datos en su formato específico según la disciplina y también su versión en un formato estándar, preferiblemente abierto. Además, la ausencia de barreras legales en el acceso a los conjuntos de datos que caracteriza a los formatos abiertos facilita la gestión y las posibles manipulaciones de los datos (migraciones, emulaciones, reutilización de datos).

Se recomienda el uso de formatos abiertos o estándar, documentados, sin cifrar ni comprimir. Entre ellos, destacan Open Document Format (ODF), ASCII, CSV, formato delimitado por tabuladores, XML. Algunos formatos propietarios, muy populares como Microsoft.doc, xls. y ppt, SPSS se utilizan ampliamente y es probable que sean accesibles durante un periodo de tiempo razonable, pero no ilimitado.

Ejemplos de opciones de formatos generales preferidos:

  • PDF/A mejor que Word.
  • ASCII mejor que Excel.
  • MPEG-4 mejor que QuickTime.
  • TIFF o JPEG2000, mejor que GIF o JPG.
  • XML o RDF, mejor que RDBMS.

No obstante, hay que tener en cuenta que hay disciplinas con formatos preferidos para la gestión, difusión y reutilización de datos, por ejemplo:

Formatos recomendados para datos geoespaciales:

  • GeoTIFF/TIFF.
  • ASCII Grid.
  • Binary image files.
  • NetCDF.
  • HDF or HDF-EOS.

Formatos usuales para datos visuales (en estos casos, se tratan principalmente de formatos propietarios, por lo que hay que documentar el software, su versión, el propietario y la plataforma nativa etc).

  • ARCVIEW.
  • ENVI.
  • ESRI Arc/Info export file.

Cualquier formato puede ser enviado a Digital.CSIC. Sin embargo, es importante saber que podría haber limitaciones en la preservación a largo plazo si se trata de un formato no soportado completamente por DSpace, el software de Digital.CSIC. DSpace clasifica los formatos en 3 categorías:

  • Soportado: el formato es soportado completamente para uso futuro.
  • Conocido: el formato es reconocido pero un soporte completo no es garantizado.
  • No soportado: DSpace no puede reconocer el formato.

Listado de formatos según la clasificación de DSpace: http://digital.csic.es/dc/politicas/#politica9

Como recurso de interés, UK Data Archive mantiene un listado de formatos recomendados para los datos científicos: http://data-archive.ac.uk/create-manage/format/formats-table

Conversión de formatos

Es recomendable que los propios autores de los datos hagan la conversión de formatos, para asegurar su integridad durante el proceso. Ello es así porque cuando los datos se convierten de un formato a otro – a través de exportaciones o mediante un conversor- pueden ocurrir pequeñas variaciones, por ejemplo, en los datos organizados en paquetes estadísticos, spreadsheets o bases de datos, pueden perderse total o parcialmente datos relativos a definición de valores, decimales, fórmulas o etiquetas variables.Para los datos textuales, pueden perderse aspectos de edición como negrita, encabezamiento y pie de páginas, destacados.

Digital.CSIC recomienda estas herramientas para la conversión de formatos:

Si fuera necesario, pueden depositarse en Digital.CSIC los mismos datos en distintos formatos, como ocurre con SPEIbase: http://digital.csic.es/handle/10261/23051, http://digital.csic.es/handle/10261/22449, http://digital.csic.es/handle/10261/23139


Descripción de los conjuntos de datos. Plantilla de Digital.CSIC   subir

Los productores de datos son responsables de la calidad de la descripción de su obra y es importante describir tanto la estructura y las características del conjunto de datos como sus contenidos. La Oficina Técnica de Digital.CSIC recomienda el uso de esta plantilla para una descripción básica. La carga de la descripción y el depósito del conjunto de datos pueden delegarse en la Oficina Técnica y/o en la biblioteca del instituto en cuestión a través del Servicio de Archivo Delegado.

La plantilla de descripción de Digital.CSIC incluye una referencia bibliográfica completa, información sobre el contenido del conjunto de datos, el contexto y la fuente, información sobre su metodología, instrumentos y técnicas empleadas en la creación o recolección de datos, así como referencias a publicaciones y/o sitios web relativos.

Es muy importante que los autores del conjunto de datos preparen documentación que describa los datos con más detalle que en el registro bibliográfico de Digital.CSIC, y que esta documentación se deposite como información suplementaria en formato readme.txt en inglés. Especialmente relevante es la descripción de la metodología en que se ha basado la generación de los datos ya que sin ella la reutilización del conjunto de datos podría quedar muy limitada.

Información que puede facilitar la reutilización del conjunto de datos por parte de los usuarios:

  • Títulos de las columnas y encabezamientos de datos tabulares.
  • Ajustes y calibración de los instrumentos empleados en la generación de datos.
  • Información sobre otros usuarios que han reutilizado los datos.
  • Información sobre el sistema de medida empleado.
  • Información sobre cualquier restricción de reutilización en alguna parte o la totalidad del conjunto de datos.
  • Información sobre el software (versión y sistema operativo) necesario para leer y trabajar con las partes integrantes del conjunto de datos.
  • Información sobre el procedimiento de generación y tratamiento de datos.

Denominación de archivos   subir

  Nombres de los ficheros

Los nombres de los ficheros deben reflejar los contenidos de los mismos e incluir suficiente información para hacerlos unívocos.

La mejor práctica es:

  • Mantener una coherencia interna y seguir siempre el mismo criterio de denominación para cada fichero.
  • Crear nombres significativos pero cortos.
  • Conservar las extensiones de 3 letras específicas a códigos de aplicaciones como wrl, .mov, o .tif.
  • Evitar espacios y caracteres especiales.
  • Identificar la actividad o proyecto en el nombre del archivo.
  • Enumerar las versiones de los archivos es útil para indicar las revisiones o la edición de archivos, especialmente en los proyectos de colaboraciones.

Los ficheros también pueden contener el acrónimo del proyecto, el nombre de los investigadores, el tipo de datos y el lugar de estudio.

Ver las recomendaciones de Digital.CSIC para cualquier tipo de fichero y disciplina: https://digital.csic.es/faqs/#faq26

Muchas disciplinas tienen recomendaciones específicas, por ejemplo:
DOE's Atmospheric Radiation Measurement (ARM) program
DDI Data Documentation Initiative. A metadata specification for the social and behavioral sciences

Redenominación de ficheros

Existen herramientas que ayudan a redenominar grupos de ficheros. Se recomienda hacerlo ANTES de su depósito en Digital.CSIC, para no modificar sus nombres una vez que entren en la base de datos del repositorio.


Versiones de los conjuntos de datos   subir

A la hora de versionar conjuntos de datos, es recomendable definir lo que constituye una nueva versión de la obra (por ejemplo, nuevos algoritmos en los procesos de captura de datos, añadidos o eliminación de valores, nuevos parámetros y/o formatos, cambios en la cobertura espacial/cronológica).

Se recomienda que cada versión constituya un registro en sí, debidamente referenciado y documentado y que se respete el criterio utilizado en la denominación de archivos.

Ejemplos: http://digital.csic.es/handle/10261/48169, http://digital.csic.es/handle/10261/72264


Copyright, licencias y reutilización de datos   subir

  Las bases de datos en la legislación española

¿Son objeto de propiedad intelectual los conjuntos de datos? La propiedad intelectual se aplica sobre las manifestaciones de las ideas, no sobre las ideas, los procedimientos, métodos de operación o conceptos matemáticos y los hechos en sí. En el caso de las bases de datos y datasets, la legislación española de propiedad intelectual protege la manifestación concreta de ideas y la información contenida en una base de datos específica.

Según la Ley 5/1998 de 6 de marzo, de incorporación al Derecho español de la Directiva 96/9/CE, del Parlamento Europeo y del Consejo, de 11 de marzo de 1996, sobre la protección jurídica de las bases de datos (BOE n.º 57, de 7 de marzo de 1998):

Art. 12 Colecciones. Bases de datos

1. También son objeto de propiedad intelectual, en los términos del Libro I de la presente Ley, las colecciones de obras ajenas, de datos o de otros elementos independientes como las antologías y las bases de datos que por la selección o disposición de sus contenidos constituyan creaciones intelectuales, sin perjuicio, en su caso, de los derechos que pudieran subsistir sobre dichos contenidos. La protección reconocida en el presente artículo a estas colecciones se refiere únicamente a su estructura en cuanto forma de expresión de la selección o disposición de sus contenidos, no siendo extensiva a éstos.

2. A efectos de la presente Ley, y sin perjuicio de lo dispuesto en el apartado anterior, se consideran bases de datos las colecciones de obras, de datos, o de otros elementos independientes dispuestos de manera sistemática o metódica y accesibles individualmente por medios electrónicos o de otra forma.

3. La protección reconocida a las bases de datos en virtud del presente artículo no se aplicará a los programas de ordenador utilizados en la fabricación o en el funcionamiento de bases de datos accesibles por medios electrónicos.

Por otra parte, la ley 5/1998 introduce en la legislación española el concepto de derecho “sui generis” sobre las bases de datos en la siguiente medida:

Título VIII Derecho “sui generis” sobre las bases de datos

Art. 133 Objeto de protección

1. El derecho “sui generis” sobre una base de datos protege la inversión sustancial, evaluada cualitativa o cuantitativamente, que realiza su fabricante ya sea de medios financieros, empleo de tiempo, esfuerzo, energía u otros de similar naturaleza, para la obtención, verificación o presentación de su contenido.

El plazo de protección de las bases de datos asciende a 15 años a partir de su finalización o su puesta a disposición pública y es susceptible de renovación si se suceden modificaciones sustanciales.

Art. 136 Plazo de protección

1. El derecho contemplado en el artículo 133 nacerá en el mismo momento en que se dé por finalizado el proceso de fabricación de la base de datos, y expirará quince años después del 1 de enero del año siguiente a la fecha en que haya terminado dicho proceso.

2. En los casos de bases de datos puestas a disposición del público antes de la expiración del período previsto en el apartado anterior, el plazo de protección expirará a los quince años, contados desde el 1 de enero siguiente a la fecha en que la base de datos hubiese sido puesta a disposición del público por primera vez.

3. Cualquier modificación sustancial, evaluada de forma cuantitativa o cualitativa del contenido de una base de datos y, en particular, cualquier modificación sustancial que resulte de la acumulación de adiciones, supresiones o cambios sucesivos que conduzcan a considerar que se trata de una nueva inversión sustancial, evaluada desde un punto de vista cuantitativo o cualitativo, permitirá atribuir a la base resultante de dicha inversión un plazo de protección propio. Actualmente en el marco de la Agenda Digital europea y en otros grupos de interés existen varias iniciativas para reformar la Directiva europea de bases de datos y la Directiva de la Información del Sector Público, orientadas a mejorar el acceso a la información y a reconsiderar las condiciones de reutilización de datos con fines de investigación y educación en el medio digital.

  Licencias para la reutilización de datos

A la hora de sujetar un conjunto de datos a una licencia de uso los autores de los datos deben considerar:

  • La identificación del material que debe cubrir la licencia.
  • La identificación de material que haya sido usado como fuente en la elaboración de los datos.
  • La identificación de cualquier tipo de restricción de uso que pudiera existir en el material original a partir del cual se han originado los datos.

Existen diferentes opciones de licencia y han de ser los propios autores de los datos quienes decidan en qué términos de uso desean poner a disposición pública su conjunto de datos. La Oficina Técnica de Digital.CSIC ofrece asistencia en la elección y asignación de licencias.

Las licencias más frecuentes son las siguientes:

  • Licencias Creative Commons

Existen 6 licencias posibles. Todas permiten amplios usos de los objetos digitales a las que van sujetas, pero presentan matices de acuerdo con los tipos de actividades permitidas:

Atribución. Está permitida la reutilización del conjunto de datos, sin necesidad de pedir permiso expreso a los autores, para estos usos: reproducción, distribución, difusión, y transformación (obras derivadas) siempre y cuando se reconozca la autoría y se cite el conjunto de datos tal y como se indica en la licencia.

No comercial. Está permitida la reutilización del conjunto de datos, sin necesidad de pedir permiso expreso a los autores, para estos usos: reproducción, distribución, difusión, y transformación siempre y cuando no sea para fines no comerciales. El reconocimiento de autoría y la citación del conjunto de datos es también obligatoria.

Sin obras derivadas. Está permitida la reutilización del conjunto de datos, sin necesidad de pedir permiso expreso a los autores, para estos usos: reproducción, distribución, difusión de la obra en sí, no de obras derivadas. El reconocimiento de autoría y la citación del conjunto de datos es también obligatoria.

La Oficina Técnica de Digital.CSIC recomienda el uso de las licencias CC España, que han sido adaptadas a la legislación de propiedad intelectual nacional. Las licencias CC Internacional (Unported) son recomendadas para los países en que las licencias no han sido portadas a la jurisdicción nacional, quedando sujetas, por tanto, al marco mínimo de la legislación internacional.

No se recomienda el uso de las licencias CC para los programas informáticos. En estos casos es preferible el uso de las licencias ofrecidas por la Free Software Foundation y la Open Source Initiative.

  • Licencias OpenData Commons

Existen 2 tipos de licencias que pueden utilizarse dentro del marco de la legislación de propiedad intelectual española:

  • 1.- Open Data Commons Open Database License (ODbL)

Esta licencia permite a cualquier usuario de Internet reproducir, distribuir y usar el conjunto de datos, y adaptar y transformar el conjunto de datos siempre y cuando:

  • Se haga reconocimiento explícito a la autoría del conjunto de datos originales y a sus términos de uso expresados en la licencia;
  • Si se realizan obras derivadas, ofrecerlas bajo la misma licencia de uso (oDbL);
  • Si se realizan versiones o adaptaciones con restricciones de acceso, seguir garantizando la disponibilidad de una copia en acceso abierto.

  • 2.- Open Data Commons Attribution License

Esta licencia permite a cualquier usuario de Internet reproducir, distribuir y usar el conjunto de datos, y adaptar y transformar el conjunto de datos siempre y cuando:

  • Se haga reconocimiento explícito a la autoría del conjunto de datos originales y a sus términos de uso.

Entre estas 2 posibles opciones, la Oficina Técnica de Digital.CSIC recomienda la primera.

  • Licencias restrictivas

Por motivos de confidencialidad o de tratamiento especial de datos, los autores de los conjuntos de datos pueden limitar la reutilización de su trabajo. El código ético CSIC en materia de gestión y tratamiento de datos científicos y normativas pueden ser consultados en: http://www.csic.es/web/guest/etica-en-la-investigacion.

Se muestra un ejemplo de licencias restrictivas para datos científicos con información personal o confidencial:

http://ukdataservice.ac.uk/get-data/how-to-access/conditions.aspx#/tab-end-user-licence

Interuniversity Consortium for Political and Social Research (ICPSR) proporciona una herramienta para la creación de licencias restrictivas: http://www.icpsr.umich.edu/icpsrweb/DSDR/rduc/


Cómo citar los conjuntos de datos   subir

Hasta hace poco, los datos puros se citaban sin seguir ninguna pauta clara y sin una referencia bibliográfica ni reconocimientos. Sin embargo, es muy importante citarlos correctamente, para su fácil identificación, recuperación e inclusión en indicadores de impacto. Como norma general, los requisitos mínimos para citar datos puros son una referencia bibliográfica completa comprensible a las personas, además del identificador unívoco y permanente en que está accesible (por ejemplo, su handle o DOI).

La fuente que aloja los datos (por ejemplo, el repositorio) es tan importante como los autores de los datos y su referencia debe ser unívoca (a través del handle del registro). El sistema handle es un sistema de identificadores persistentes ampliamente utilizado por los repositorios de acceso abierto para identificar los recursos electrónicos. Los identificadores persistentes tienen la ventaja de seguir funcionando, de modo invariable, incluso cuando un objeto digital cambia de localización.

Ejemplo de citación bibliográfica:

Mazarrasa, Inés; Marbá, Nuria; Hendriks, Iris E.; Losada, I.J.; Duarte, Carlos, M. 2013. Sediment accretion and soil elevation rates of vegetated coastal sediments [Dataset] https://digital.csic.es/handle/10261/77396

Igualmente, es posible incluir en la cita de un conjunto de datos su licencia de uso y la versión del trabajo.


Recursos de interés   subir

Planes de gestión y difusión de datos. Buenas prácticas
DCC
Australian Nacional Data Service
DataONE
MIT

Metadatos
DCMI Science and Metadata (DC-SAM)
Research Data Alliance (RDA) Metadata Directory
Nesstar Publisher

Softwares para gestión y análisis de datos
Listado DataONE
DMP Tool

Citación de datos
Dataverse Network
Modelos de citación en repositorios temáticos

Iniciativas de interés
Research Data Alliance
Open Data Institute
Datos.gob.es
Science as an Open Enterprise, Royal Society (2012)
10 recommendations for libraries to support re-search data management, LIBER Europe (2012)
La conservación y reutilización de los datos científicos en España. Informe del grupo de trabajo de buenas prácticas, FECYT (2012)
European Landscape Study of Research Data Management, SIM4RDM (2013)

Datos científicos en abierto
DATABIB
BioSharing
CODATA
DataCite
Digital Curation Centre
FigShare
OAD Data repositories
Science Commons
UK Data Archive
Wellcome Trust Data Sharing
DataHub
DataSEA