Ir al contenido principal

Datos de investigación. Español

Documentación

Documentar los datos, explicando cómo se generaron, describiendo sus características, cómo se pueden usar, si requieren un software específico, etc... para estas tareas, además de con el DMP, contamos con ficheros de texto readme.txt, los codebook o los cuadernos de laboratorio. La información que contienen es un pilar fundamental para poder reutilizar los datos:

  • Readme.txt, cuenta con una serie de definiciones y explicaciones básicas para comprender un dataset, saber cómo usarlo, qué software es necesario para reproducir el estudio, metodología aplicada y códigos. Hay diversos modelos para ayudarnos a redactarlo de la manera más completa posible. Tenemos dos ejemplos: uno para datos que se van a publicar (Readme.txt ) y otro para enviar a los revisores de una revista (readme.txt ) que cuenta con el proceso de revisión de pares de doble ciego, con el fin de validar los resultados y cálculos realizados en el artículo que vamos a enviar. También puede haber ficheros readme.md relacionados con la descripción de software que se suelen escribir con programas como StackEdit ou Readme.so.
  • Codebook, también contiene una descripción de los datos pero relacionados con la información estadística y en su contenido debemos reflejar la siguiente información:
    • Describir el estudio: quién lo hace, por qué y cómo.
    • Información sobre el método de muestreo: cuál es la población estudiada, cómo se extrajo la muestre y cuál fue la tasa de respuesta.
    • Información técnica sobre los ficheros: número de observaciones, longitud de los registros, número de registros por observación, etc.
    • Estructura de los datos dentro do fichero: jerárquica, tarjetas múltiples, etc.
    • Detalles sobre os datos: número y tipo de variables que se usaron, si son datos numéricos, de texto, el formato, etc.
    • Texto de las preguntas y respuestas.
  • Cuadernos de laboratorio. Se utilizan para registrar datos experimentales, observaciones, medidas, resultados, controles, diagramas de flujo, materiales utilizados, resultados negativos, equipos utilizados, etc. Pueden ser cuadernos en papel o digitales, estos últimos nos facilitan la comunicación y el intercambio de datos entre los participantes de un proyecto. Hay una amplia variedad en el mercado en parte debido a que son necesarias utilidades y configuraciones adaptadas a los tipos de datos con los que trabaja cada área, un ejemplo sería LabInform.

 

Metadatos

Además de la documentación explicativa es preciso describir los datos para poder identificarlos y organizarlos . Esta descripción de los datos se hace a través de los metadatos. En particular, los datos deben tener un identificador único y persistente, información sobre cómo citarlos, una licencia que indique cómo pueden usarse o reutilizarse, información sobre el formato de archivo, una descripción del conjunto, materia y palabras clave que lo describan, una lista de autores e información sobre la financiación. Cuanto más relevantes sea los metadatos, más fáci será para otros investigadores encontrar y reutilizar los datos.

En la actualidad existen varios estándares de metadatos para describir los datos. Cada área de conocimiento tiene su estándar propio y sus herramientas. En la página del Data Curation Center (DCC)  hay una selección por disciplinas , así como un listado de herramientas que han sido desarrolladas para capturar o almacenar metadatos conforme a un estándar específico. También se puede consultar Fairsharing.org

Limpieza de los datos

Debemos tener en cuenta aspectos como: el control de duplicados, fusionar o unir datos de uno o varios datasets, eliminar incongruencias, validar, identificar campos campos vacíos... Debemos establecer también qué datos se van a conservar y los que eliminaremos, y la posible conversión de formatos propietarios a no propietarios.

Una de las herramientas más utilizadas para la limpieza de datos es OpenRefine. Es software libre y podemos apreciar algunas de sus funciones con el siguiente vídeo:

Universidade da Coruña. Servizo de Biblioteca Universitaria. Campus de Elviña, Edificio Xoana Capdevielle, 15071, A Coruña. infoguías.biblioteca@udc.es     Licenza de Creative Commons