Co jsou ty další starosti? Mít pořádek v datech zní jako něco, co si srovnám do šuplíku a vím, kde to mám, ale s daty je to asi složitější, že?
Ta analogie se šuplíkem vlastně docela sedí, jen musíme do šuplíku přidat pořadače. Problém je, že šuplíky musí být popsané a musí se do nich vkládat správné věci. Vědec není knihovník nebo archivář, který ví přesně, kde co je, protože jeho hlavním úkolem je být kreativní. To je i můj případ. Pořádek ve věcech není moje silná stránka, ale hledám nová řešení. Nejvíce se věnuji automatizaci.
Můžete své řešení automatizace blíže popsat?
Myslím tím automatizaci sběru dat i sběru informací o datech samotných. Nechci tvrdit, že všechno funguje dokonale, to je ještě daleko, ale většina lidí zažila, že musí neustále dokola vyplňovat svoje jméno, afiliaci, emailovou adresu a podobně, a to i v dokumentech EOSC Asociace. Neustále vyplňujeme to samé, přičemž systém by dávno měl vědět, kdo jsme. To, čemu se věnuji, je zlepšit to tak, aby například systém rozpoznal pomocí telefonu, že jsem to já, a rovnou vyplnil moji afiliaci, místo toho, aby mi nabízel celý seznam institucí v Česku. Pomocí laboratorních deníků se to dá řešit ještě jednodušeji, protože mohu mít připravené „templates“ a struktury práce se všemi informacemi o daném experimentu. Často se experiment liší od předchozího jenom ve dvou nebo třech parametrech. Díky tomu, že jsem už nějaký protokol napsal, není problém vytvořit v elektronickém deníku kopii, kde jen změním drobnosti. Automatizační systémy rozpoznávají různé experimenty a každý má svůj vlastní identifikátor. To nás vrací zpět k archivářům, ale trik je v tom, že vědec nemusí vědět, že tyto procesy běží na pozadí, a nemusí sám přiřazovat identifikátory ke svým experimentům.
Jak se tyto možnosti správy dat dostanou k ostatním vědcům a vědkyním?
Jednak vedu jednu pracovní skupinu EOSC CZ. Sice jsem biochemik, ale vedu pracovní skupinu zaměřenou na materiálové vědy a technologie. Tato role vznikla díky tomu, že se na Heyrovském ústavu, kde je zaměření na materiály a technologie velmi silné, zabývám data management plány a celkově Open Science a správou vědeckých dat. Osobní setkávání, to je jedna cesta. Tyto informace se pak šíří především virálně.
Můžete to přiblížit?
Před dvěma lety jsme na Heyrovském ústavu zavedli povinné data management plány pro každý projekt, který u nás vzniká. Ukazuje se, že nám to pomáhá zvyšovat povědomí o potřebě kvalitního řízení dat. Náš model pro plány správy dat jsme vytvořili v kontrastu s tím, jak je používá EU, a to proto, že jsme se zaměřili výhradně na data. Nejzajímavější otázka, kterou v těchto plánech máme, se týká znovuvyužití dat, kde je odpověď v 99 procentech případů chybná. Lidé si neuvědomují, že i data z jejich deset let starého výzkumu mohou být stále relevantní, že žádný výzkum nevzniká na zelené louce. Ale i tyto data by měla být k dispozici, pokud chceme dělat reprodukovatelnou vědu. Tato otázka v data management plánech na to upozorňuje a vychovává.
Využíváte v týmu Data Stewardy?
Na Ústavu Heyrovského jsem založil „Heyrovský Open Science Team“, který se před dvěma lety začal formovat s Evou Pluhařovou a Stefanem Swiftem. Tým se postupně rozrůstá a dá se říct, že se jedná o Data Stewardy, protože intenzivně diskutujeme veškeré otázky spojené s data managementem. Máme také kolegy, kteří jsou technicky orientovaní, jako Michal Tarana a Jakub Chalupský, kteří jsou vynikající vývojáři a znalci IT prostředí. Důležité je, že máme komplexní přehled o celém systému, zahrnující politiky, vědecký i vývojářský pohled.