Beszámoló a kutatási adatok tárolásáról és másodfelhasználásáról szóló konferenciáról

Adatbázis-hálózatok, meta-archívumok, adatszerzőség

Az MTA TK KDK, az MTA Könyvtár és Információs Központ és az MTA SZTAKI konferenciát szervezett az MTA-n folyó kutatások adatkezelését érő kihívásokról

A kutatási adatok kezelése és másodfelhasználása egyre jelentősebb részét képezi a kutatói gyakorlatnak. Egyrészt kényszerként jelentkezik, hogy lépést kell tartani az adatmegőrzés és –kezelés technológiai fejlődése nyújtotta legújabb lehetőségekkel, másrészt az ellenőrzött adatfelvétel költségei a kutatásfinanszírozás korlátait figyelembe véve tetemesek. Az a paradox helyzet állt elő, hogy csak az MTA keretein belül működő kutatóintézetek több tucat archívumot, kereshető adatbázist hoztak létre, amelyek a legritkább esetben „tudnak egymásról”, működésük nem szabályozott, gyűjtési körük esetleges és hiányos. A diszciplináris különbségeken túl eltérő adatmegőrzési és –kezelés elvek és gyakorlatok mentén működnek, a kutatási adatok, illetve a kutatási projektekről informáló metaadatok nem kezelhetők (pl. kereshetők) integráltan. Míg az MTA síkra száll a kutatási eredmények rendszerezett ismertetése (MTMT), illetve nyílt hozzáférésének biztosítása (open acces) mellett, a kutatások során keletkező adatok felhasználásával kapcsolatban egyelőre nincsen intézményi iránymutatás.

A 2015. május 14-én megrendezett kutatási adatkezelési műhelykonferencia azzal a céllal szerveződött, hogy kapcsolatot teremtsen az MTA kutatóintézeteiben a kutatási adatok, dokumentumok, gyűjtemények gondozásával és archiválásával foglalkozó szakemberek között. A szervezők, az MTA Könyvtár és Információs Központ, az MTA Társadalomtudományi Kutatóközpont Kutatási Dokumentációs Központja és az MTA Számítástechnikai és Automatizálási Kutatóintézet, a kurrens adatkezelési trendek felvetette kérdéseken kívül arra is hangsúlyt fektettek, hogy fórumot biztosítsanak az MTA kutatóintézményeiben folyó adatarchiválási folyamatok megismerésére.

A műhelykonferencia első felében a témába bevezető előadások hangzottak el. Előadásában Gárdos Judit (MTA TK KDK) a publikált tanulmány és a kutatási folyamat során keletkező adatok különbözőségére, valamint a kutatási adatok módszeres és jól dokumentált létrehozásának, tárolásának és metaadatolásának fontosságára hívta fel a figyelmet. Ezen kívül ismertette az MTA intézetei körében lekérdezett, az adatkezelési eljárásokra vonatkozó kérdőíves felmérés eredményeit. A kérdésekre válaszoló nyolc kutatóközpont közül csupán kettőben kezelik intézményi szinten a keletkező kutatási adatokat, az esetek többségében ad hoc, a kutatók habitusától függő adattárolás folyik.

Holl András (MTA KIK) felhívta a figyelmet az adatkezelés technikai nehézségeire: számos, korábban megőrzött adat hozzáférhetetlenné válik a felhasználói szoftverek elavulása miatt. Ismertette az adatkezeléssel és –megosztással kapcsolatos jelenlegi nemzetközi ajánlásokat és szabályozásokat (Európai Bizottság, H2020), illetve jelentősebb fejleményeket. Utóbbiak közül kiemelendő a kutatási adatok azonosításának problémája, amely akár idézhetővé is teszi azokat, a tárolás elhelyezkedésétől függetlenül; az MTMT jelenleg is képes arra, hogy rögzítsen tudományos adatbázisokat és az azokra érkező hivatkozásokat. Publikációk és kutatási adatok idézhetőségére szolgál az egyre népszerűbb DOI (Digital Object Identifier), amelyet MTA-s kutatók ingyenesen igényelhetnek az MTA Könyvtárán keresztül, de ilyen jellegű fejlesztés a Thomson Reuters Data Citation Indexe is. Az MTA online felületéről elérhető a tudományos adatábizoskról tájékoztató oldal, a compass.mtak.hu.

Micsik András (MTA SZTAKI) előadásából kiderült, hogy az adatarchiválási gyakorlatok megszaporodásának, illetve elaprózódásának fent említett paradoxonára az archívum-hálózatok építésével válaszol a nemzetközi gyakorlat (akár archívumok, akár a kutatási adatok keresését biztosító szolgáltatásként). Bár e hálózatokból is számos működik, az adott csoportosuláson belül valamilyen szinten megvalósul az integrált adatkezelés és –szolgáltatás. Az előadó az integrált adatszolgáltatás egyik jellemző új trendjeként mutatta be azt a megoldást, amikor nem csak az adatokat tároló szervereket kapcsolják össze, hanem magukat az adatokat is.

Kovács László (MTA SZTAKI) azokkal a kérdésekkel foglalkozott, amelyekkel a modern keretek között intézményesült tudomány a 21. században szembesül. Az adatok előállítása és hozzáférhetősége szempontjából kiemelkedő jelentőségű ezek közül a közszférában és az iparban zajló kutatás ellentmondásossága: míg előbbiben a források szűkössége párosul az adatmegosztás és a nyílt hozzáférés igényeivel, utóbbi jelentős forrásokat biztosít kutatás-fejlesztésre és privatizálja az adatokat. A számítógépes adatkezelés kutatómunkában betöltött szerepére hozta példaként, hogy – mivel az egyes tudományterületeken előállított kutatási információk (eredmények, adatok) mennyisége az egyes kutatók számára követhetetlen –, ezek előszűrése, akár a hipotézisalkotás is, szoftverek feladatává válik. Az előadás több olyan informatikai megoldást ismertetett, amelyek egy tudományos publikációban nem csak a szerzők által szelektált adatokat tekinthetik meg, hanem a kutatás összes nyers adatához hozzáférhetnek. Arra is felhívta a figyelmet, hogy a jelenleg működő modellekben az adat-előállítással és kezeléssel foglalkozók munkája nem részesül megfelelő mértékben az adathasznosításból származó előnyökből.

Molnár István (Innovaid) előadása rámutatott, hogy az MTA jelenlegi (jogi) adatkezelési szabályozása milyen messze van még attól, hogy adekvát választ tudjon adni a fenti kihívásokra. A Szellemitulajdon-kezelési szabályzatok az iparjogvédelmi megoldásokon kívül elsősorban a publikációként közreadott alkotásokkal, azaz szerzői jogi termékekkel foglalkoznak. Nem tisztázott, hogy az adatok előállítása mennyiben szerzői és mennyiben kutatóintézeti illetőség. Az előadó felhívta a figyelmet, hogy a sok tekintetben még mindig a 19. századi tudománymodellt képviselő akadémiai adatszabályozásnak választ kell találnia a 21. századi adatkezelési gyakorlatok támasztotta kihívásokra.

A konferencia második részében az MTA intézetei ismertették, milyen adatmegőrzési és kezelési gyakorlatok folynak náluk.A szervezők egy olyan MTA-s szakmai hálózat létrehozását szorgalmazzák, ahol kutatási adatok gondozásával, tárolásával, újrafelhasználásával kapcsolatos szakmai fejleményekről, nemzetközi trendekről, és az adatmenedzsmentben felmerülő kérdésekről lehet eszmét cserélni. Megfogalmazódott egy olyan szakértői biztosság létrehozása is, amely az MTA kutatói számára nyújt szolgáltatást a digitális adat- és tartalomkezeléssel, szabályozással és minőségbiztosítással kapcsolatban. A konferencia szervezői és résztvevői egy közös memorandum megfogalmazásába fogtak.

A workshop anyagai:

Előadások:

Gárdos Judit, MTA TK KDK - Kutatások archiválása

Holl András, MTA KIK - Kutatási adatok

Micsik András, MTA SZTAKI - Adatarchiválás

Kovács László, MTA SZTAKI - Kérdések … avagy tudomány a 21. században

Molnár István, Innovaid - Kutatási adatok tulajdonosának, copyrightjának, megosztásának jogi helyzete az MTA-n belül

Az Intézményi bemutatkozások:

Szentpéteri József, Naár Róber MTA BTK - Bemutatkozik az MTA BTK Adatbankja

Oravecz Csaba, MTA NYTI - Kutatási adatok az MTA Nyelvtudományi Intézetében