RDM kalauz

Mi a kutatási adat?

A kutatási adatok a tudományos közösség által létrehozott, rögzített, elfogadott és megőrzött tényadatok, amelyek a kutatási eredmények hitelességét támasztják alá. Létrejöhetnek megfigyelések, kísérletek, szimulációk eredményeképpen – ekkor beszélhetünk nyers kutatási adatokról – vagy korábban gyűjtött adatok összegyűjtésével, válogatásával, feldolgozásával. 

A Research Data Management (RDM) összefoglaló kifejezést használjuk a kutatási adatokkal kapcsolatos tevékenységek leírására, magyarul pedig a kutatási adatok kezelése (ill. kutatási adatkezelés, kutatási adatmenedzsment) kifejezéseket használják a terület megnevezésére.

A kutatási adatok típusairól bővebben a https://openscience.hu/kutatasi-adatok oldalon olvashat.

A kutatási adatok életciklusa (Research Data Lifecycle)

A kutatási adatok életciklusának leírására többféle modell létezik, melyek között általában nagy az átfedés, részletességükben viszont eltérőek lehetnek. Egyiknek sem az a célja, hogy előírja, a kutatási adatoknak milyen fázisokon kell átesniük, hanem az, hogy minél átfogóbban, valósághűen leírják, hogyan viselkednek, milyen lépések történnek az adatokkal a kutatás során. Azért érdemes ismerni ezeket a modelleket, hogy a kutatási adatokat minél jobban ki- és fel tudjuk használni, illetve megértsük, hogyan lenne legcélszerűbb saját kutatási adatainkat kezelni.

Az alábbiakban két példát mutatunk be a kutatási adatok életciklusának leírására: az egyik ciklikusan (Data One Data Lifecycle), a másik egymásra épülő rétegekként (Digital Curation Centre Curation Lifecycle Model) illusztrálja ezt a folyamatot.

Data One Data Lifecycle:
https://old.dataone.org/data-life-cycle 

  • Tervezés: az összegyűjteni vagy létrehozni kívánt adatok leírása, kezelésüknek és elérhetővé tételüknek meghatározása = adatkezelési terv készítése
  • Adatgyűjtés: a tervezés során meghatározott adatok begyűjtése (különböző eszközökkel) és rögzítése valamilyen formában (lehetőleg digitálisan)
  • Minőségbiztosítás: a rögzített adatok minőségének ellenőrzése
  • Leírás: az adatok pontos és alapos leírása a megfelelő metaadat-szabványok segítségével
  • Megőrzés: az adatok elhelyezése egy számukra megfelelő, megbízható, hosszútávú archiválást biztosító tárhelyre (pl. adatrepozitórium)
  • Feltérképezés: potenciálisan hasznosítható adatok keresése és megszerzése, a leíró információkkal (meta-adatokkal) együtt
  • Integráció: a különböző forrásokból származó adatok összefűzése egyetlen, egységes adathalmazzá, amely már alkalmas az elemzésre
  • Elemzés: az összegyűjtött és rendszerezett adatok elemzése, vizsgálata

Fontos megjegyezni, hogy a kutatási adatok életciklusának egyes fázisai nem feltétlen ebben a meghatározott sorrendben követik egymást. Az is gyakran előfordul, hogy a kutatási folyamat során egy-egy lépés hiányzik, míg mások akár többször is megismétlődnek.

Digital Curation Centre Curation Lifecycle Model:
https://www.dcc.ac.uk/sites/default/files/documents/publications/DCCLifecycle.pdf

A DCC Curation Lifecycle modell középpontjában a nyers és már strukturált kutatási adatok, illetve ezek metaadatai állnak. Ezekre épülnek olyan elsődleges, az adatok életciklusának egészét meghatározó alapvető tevékenységek, mint 

  • a leíró metaadatok megadása
  • az adatok tárolásának és adminisztrációjának megtervezése
  • a kutatóközösség normáinak való megfeleltetése
  • végül a hosszú távú megőrzés biztosítása.

Az ábrán látható piros kör illusztrálja azokat az egymást követő lépéseket, amik a kutatási adatokkal kapcsolatban fontosak lehetnek, úgymint

  • az adatgyűjtés és -tárolás módjának megtervezése
  • adatok létrehozása vagy begyűjtése
  • adminisztratív, leíró és technikai jellegű metaadatok létrehozása
  • a megőrzendő adatok kiválasztása az adathalmazból, és ezek elhelyezése a választott tárhelyen
  • a hosszú távú megőrzés és adatminőség biztosítása (adattisztítás, fájlformátumok, adatszerkezet ellenőrzése)
  • az adatok biztonságos archiválása
  • az adatokhoz való hozzáférés biztosítása és szükség szerinti szabályozása
  • új adathalmazok létrehozása a meglévő adatok transzformációjával.

Az eddigiekhez kapcsolódik még néhány, alkalomszerűen végzett tevékenység, például

  • ha a kutatás során keletkezett olyan adat, ami végül nem lett felhasználva, gondoskodni kell annak archiválásáról is
  • ha maradt olyan adat, amit a jövőben sem lehet majd felhasználni, akkor gondoskodni kell annak biztonságos megsemmisítéséről
  • ha nem értékelhető, vagy nem megfelelő adat keletkezett, azt újra meg kell vizsgálni
  • amennyiben szükséges, migrálni kell az adatokat (pl. másik tárhelyre vagy fájlformátumba).

Gyakorlati tudnivalók

A kutatási adatok kezelésének számos jó gyakorlata van, melyek követésével rengeteg idő és energia takarítható meg. Igyekeztünk összegyűjteni a legalapvetőbb praktikákat, melyek segítségével egyszerűen és hatékonyan menedzselhetjük kutatási adatainkat.

Fájlnevek és verziózás

A fájlok könnyű visszakereshetősége és rendszerezhetősége érdekében ajánlott egyezményes, informatív és egyértelmű fájlneveket alkalmazni. Ha csak egy ember foglalkozik az adott fájlokkal, akkor sem biztos, hogy 1-2 év elteltével emlékezni fog, milyen adatot tartalmaz egy fájl – ez a probléma a kutatásban résztvevők számával egyenes arányban nő. Csoportos kutatások esetén különösen fontos a következetesség, és hogy minden résztvevő ugyanazt a fájl-elnevezési gyakorlatot kövesse. 

A következő jó gyakorlatokkal rengeteg idő és kellemetlenség spórolható meg:

  • a fájlnév maximum 32 karakter hosszú legyen
  • ne tartalmazzon speciális karaktereket (pl.: . , -) és szóközt, elválasztásra a _ karaktert alkalmazzuk
  • minden, az azonosításhoz szükséges információt tartalmaznia kell, pl.: melyik kutatáshoz kapcsolódik, a kutatás melyik részéhez kapcsolódik, ki készítette, mikor jött létre a fájl, nyelvi információ, stb.
  • a fájlnév végén jelöljük a verziót, pl. name_date_v02.png
  • sorszámozás esetén használjunk azonos helyiértékeket, pl. 001, 034, 215
  • ne használjunk túl általános fájlneveket (pl. grafikon), mert a fájl esetleges áthelyezésekor könnyen előfordulhat, hogy ütközni fog más, ugyanilyen nevű fájlokkal

Fájlformátumok

Amennyiben lehetőség van rá, törekedjünk a szoftver-független formátumok használatára, így biztosíthatjuk a fájlok mobilitását és egyszerűbb megosztását. Egyes esetekben hasznos lehet ugyanazt a fájlt többféle formátumban is tárolni, illetve ismerni az adott fájlformátum konvertálási lehetőségeit.

Forrás: https://openscience.hu/f-a-i-r-kutatasi-adatkezeles 

Az adatok rendszerezése

Az adatok gyors és egyszerű megtalálhatóságának kulcsa a hatékony rendszerezés. Egy megfelelően felépített mappa-struktúra alapja lehet, ha feltesszük magunknak a kérdést: hol keresnénk először egy adott fájlt? Meg kell határozni azt a rendezési elvet, amely leginkább illik ehhez a logikához. A mappák elnevezésére ugyanazok a tanácsok érvényesek, mint a fájlokra, a rendszerezésükre pedig a következő jó gyakorlatok léteznek:

  • minden kutatásnak érdemes saját könyvtárat létrehozni
  • nem tanácsos túl nagy, sok különböző fájlt tartalmazó mappákat létrehozni – ha van valamilyen rendezőelv (pl. dátum, vagy adatforrás), amely mentén további almappák hozhatók létre, akkor tegyük azt
  • a túl mély struktúra is kerülendő – nem célszerű több, egymásba ágyazott mappát létrehozni, mint ahány fájlt ténylegesen elhelyezünk bennük (a sok kattintás nem csak sok idő, de el is veszhetünk az alkönyvtárak dzsungelében)
  • ha megosztott mappákban dolgozunk, érdemes a hozzáférési jogosultságokra is nagyobb figyelmet fordítani – ha teljes mappát osztunk meg, akkor általában minden benne lévő fájl is megosztódik

A következő ábra egy minta könyvtárat mutat be, melynek mappastruktúrája és az abban lévő fájlok elnevezése követendő példa lehet.

Forrás: https://www.wur.nl/en/Value-Creation-Cooperation/Collaborating-with-WUR-1/Organising-files-and-folders.htm 

Dokumentáció és metaadatolás (readme/olvassel fájl)

A kutatási adatok kezelését nagyban megkönnyíti a pontos és részletes dokumentáció. Ezt többféle módon meg lehet valósítani, de a legegyszerűbben elkészíthető és használható módszer a readme (olvassel) fájl írása. Ez egy egyszerű, általában .txt formátumú szövegfájl, amely ideális esetben minden információt tartalmaz ahhoz, hogy a kutatási adatok reprodukálhatók legyenek. 

A kutatás volumenétől függően lehet egyetlen átfogó readme fájlt írni akár az egész kutatáshoz, vagy több kisebbet az egyes adathalmazokhoz – vagy a két módszert ötvözni. Minden esetben ki kell derüljön, pontosan mire vonatkozik az adott readme (legegyszerűbb ezt a fájlnévben jelezni). Ajánlott minden, vagy legalább az ugyanahhoz a kutatáshoz tartozó readme fájlt ugyanolyan formában elkészíteni – legjobb, ha sablont alkalmazunk. 

Egy jó readme fájlból a következő információk derülnek ki:

  • fájlok elnevezésének magyarázata
  • mappa-struktúra felépítésének elve
  • munkafolyamat leírása: hogyan készült a nyers adatból kész, publikálható anyag?
  • az adatokra vonatkozó információk aprólékos leírása: mik a mértékegységek, milyen rövidítések használatosak, melyik mezőben/cellában/sorban milyen adatok vannak, mik a változók, stb.
  • fel kell tüntetni, ha van ismert hiba, következetlenség az adathalmazban, vagy valamilyen korlátozó tényező gátolja a használatát
  • tartalmaz-e szenzitív információt
  • a kész adathalmaz használatára vonatkozó információk: eredeti archiválási hely, hozzáférési jogosultságok, licenszek, újrahasznosítási módok és feltételek, stb.
  • hogyan kell idézni
  • kontakt személy elérhetősége, akihez fordulni lehet az adatokkal kapcsolatban

Az adattárolás eszközei

Fontos kiemelni, hogy a kutatási adatok elhelyezésének kérdése nem akkor lesz aktuális, amikor lezajlott a kutatás, és archiválni kellene a keletkezett adathalmazt, hanem már az első pillanattól fogva: amikor létrejön a nyers adat, érdemes megtervezni, hol és hogyan lenne célszerű azt tárolni a kutatás során. Az adattárolás módjának kiválasztásakor több szempontot is figyelembe kell venni. 

A következő tényezők határozzák meg, mik lesznek a legoptimálisabb eszközök az egyes kutatási adathalmazok tárolására: 

  • mennyi ideig kell megőrizni az adatokat
  • mekkora mennyiségű adatról van szó
  • áll-e rendelkezésre anyagi erőforrás erre a célra
  • hány ember dolgozik egyszerre ugyanazokkal a kutatási adatokkal
  • a kutatásban résztvevők fizikailag ugyanott dolgoznak-e
  • mennyire szenzitív adatokról van szó

Biztonsági mentés

Az adatvesztés elkerülése érdekében erősen ajánlott rendszeres biztonsági mentést végezni, lehetőleg több különböző helyen. Jó gyakorlat erre a “here+near+far” elv követése, különösen akkor, ha nagy mennyiségű, nehezen reprodukálható, értékes adattal dolgozunk. Ilyenkor három példányban mentjük az adatokat: az egyiket szerkesztjük, egy másikat valamilyen lokális adathordozóra (pl. külső merevlemez) mentjük, a harmadikat pedig valamilyen távoli szerveren vagy felhőben helyezzük el.

Források és hasznos linkek a témában: