Documentar los datos, explicando cómo se generaron, describiendo sus características, cómo se pueden usar, si requieren un software específico, etc... para estas tareas, además de con el DMP, contamos con ficheros de texto readme.txt, los codebook o los cuadernos de laboratorio. La información que contienen es un pilar fundamental para poder reutilizar los datos:
Además de la documentación explicativa es preciso describir los datos para poder identificarlos y organizarlos . Esta descripción de los datos se hace a través de los metadatos. En particular, los datos deben tener un identificador único y persistente, información sobre cómo citarlos, una licencia que indique cómo pueden usarse o reutilizarse, información sobre el formato de archivo, una descripción del conjunto, materia y palabras clave que lo describan, una lista de autores e información sobre la financiación. Cuanto más relevantes sea los metadatos, más fáci será para otros investigadores encontrar y reutilizar los datos.
En la actualidad existen varios estándares de metadatos para describir los datos. Cada área de conocimiento tiene su estándar propio y sus herramientas. En la página del Data Curation Center (DCC) hay una selección por disciplinas , así como un listado de herramientas que han sido desarrolladas para capturar o almacenar metadatos conforme a un estándar específico. También se puede consultar Fairsharing.org
Debemos tener en cuenta aspectos como: el control de duplicados, fusionar o unir datos de uno o varios datasets, eliminar incongruencias, validar, identificar campos campos vacíos... Debemos establecer también qué datos se van a conservar y los que eliminaremos, y la posible conversión de formatos propietarios a no propietarios.
Una de las herramientas más utilizadas para la limpieza de datos es OpenRefine. Es software libre y podemos apreciar algunas de sus funciones con el siguiente vídeo:
Universidade da Coruña. Servizo de Biblioteca Universitaria. Campus de Elviña, Edificio Xoana Capdevielle, 15071, A Coruña. infoguías.biblioteca@udc.es