Open Science II v kontextu EOSC CZ a Národní datové infrastruktury
Úvod konference patřil širšímu rámci projektu Open Science II a budované NDI, který představili Martin Nečaský, Matej Antol, Luděk Matyska a Jan Tuček. Vedle technologického rozvoje zazníval důraz také na dlouhodobou správu dat a jejich sdílení napříč obory, rozvoj odborné podpory v oblasti FAIR principů a data managementu. Řečníci zároveň připomněli, že budovaná NDI není izolovanou národní aktivitou, ale součástí širšího evropského prostředí EOSC Federation, které má do budoucna umožnit lepší propojení služeb, repozitářů i samotných výzkumných komunit napříč Evropou.
„Pro vědce a akademické pracovníky musí komplex národní datové infrastruktury poskytovat pevné zázemí, které je bude schopné provázet od počátku produkce dat až k jejich konečnému využívání v repozitářích,“ zmínil během úvodního bloku konference hlavní projektový manažer IPs EOSC-CZ Matej Antol.
Věda v éře AI
K nejvýraznějším částem prvního dne patřila panelová diskuse Open Science bez hranic. Pod vedením moderátora Mateje Antola v ní diskutovali Jana Klánová, Jan Hajič a Jiří Vondrášek o tom, jak v době umělé inteligence a rostoucího významu výzkumných dat tvořit kvalitní vědu a zda současné systémy hodnocení a financování výzkumu dokážou na tyto změny reagovat.
Diskuse se zároveň dotkla skutečnosti, že práce s rozsáhlými datasety není novým fenoménem posledních let, ale dlouhodobou součástí výzkumu v mnoha vědních oborech. Zaznívala zároveň kritika stále složitější grantové administrativy, stejně jako úvaha, zda současný systém dostatečně oceňuje práci spojenou s tvorbou a správou kvalitních dat, kódu nebo dokumentace.
Jak velkou roli mohou v budoucnu hrát automatizované nástroje v prostředí, kde se často rozhoduje mezi desítkami velmi kvalitních projektů, kde i malé rozdíly mohou mít zásadní dopad na financování nebo další směřování výzkumu? Právě širší dopady automatizace na fungování vědy patřily k dalším diskutovaným tématům. „Jestliže AI začne přebírat část práce, na které dnes vyrůstají juniorní vědci, vyvstává otázka, kde budou seniorní odborníci získávat zkušenosti, které jsou pro jejich profesní růst nezbytné,“ upozornil lingvista a informatik Jan Hajič.
Hledání rovnováhy mezi sdílením a ochranou dat
Odpolední program prvního dne se zaměřil na správu citlivých výzkumných dat, governance repozitářů nebo využití AI při práci s daty. Lucie Houdová představila první analýzu potřeb a současné praxe v oblasti kolaborativního výzkumu, zatímco Věra Franková se věnovala správě citlivých dat v prostředí NDI a vznikajícím politikám repozitářů. Významná část prezentace se soustředila na to, jak je nastavit tak, aby umožňovaly další výzkumné využití a zároveň chránily soukromí účastníků výzkumu i důvěryhodnost institucí.
„Governance budovaných repozitářů s citlivými daty by měla být založena na principu proporcionality, tedy vyvážení přínosů a rizik, ponechávat výhradní správu dat na jejich producentovi a prostřednictvím Data Access Committee zajistit transparentnost a servis producentovi,“ uvedla během svého příspěvku docentka bioetiky na Univerzitě Karlově Věra Franková.
Na téma bezpečné práce s citlivými daty navázali Vojtěch Bystrý a Michal Růžička prezentací federativní analýzy dat založené na principu „poslat otázku místo dat“, zatímco například Martin Žádník a další představili využití AI v prostředí Národní repozitářové platformy (NRP), správě provenance nebo anonymizaci sociologických šetření. Jan Martinovič zároveň představil vývoj doplňující AI aplikace propojené s repozitářem skupiny Data management pro umělou inteligenci a strojové učení (DM4AI), která má do budoucna podporovat práci s daty i v dalších repozitářových prostředích NDI.
Repozitáře od archeologie po biologická data
Druhý den konference patřil především vznikajícím repozitářům v rámci projektů Open Science II a NRP pro výzkumná data. Prezentace vznikajících repozitářů NRP ukázaly široké spektrum oborů, a to od archeologie a sociálních věd přes biologická zobrazovací data až po herbářové sbírky nebo repozitáře zaměřené na strojové učení. Vedle samotných repozitářů se prezentace soustředily také na praktické zkušenosti s návrhem datových struktur, nomenklaturou, uživatelskými rozhraními nebo jednotlivými kroky při vývoji repozitářových služeb.
Významnou část úterního programu tvořily také odpolední semináře zaměřené na praktické aspekty otevřené vědy. Blok pro tvůrce repozitářů se věnoval především sdílení zkušeností z návrhu a vývoje repozitářů, konkrétním úskalím implementace nebo praktickým otázkám ukládání dat, nomenklatury či návrhu uživatelských rozhraní. Paralelní seminář Petry Černohlávkové a Ilony Trtíkové pro kurátory dat se následně zaměřil na FAIRifikaci datasetů, časté problémy při správě výzkumných dat nebo praktickou podporu datových stewardů a kurátorů.
Dvoudenní program ukázal, že budování Národní datové infrastruktury už není jen otázkou strategií a plánů. Vedle nových repozitářů a technických řešení se stále více dostávají do popředí i praktické zkušenosti výzkumných týmů, data stewardů a kurátorů dat, kteří budou budoucí podobu práce s výzkumnými daty formovat v každodenní praxi.