Otevřená věda a automatizace: Marek Cebecauer mění přístup ke správě výzkumných dat

Marek Cebecauer, je biochemik a průkopník v oblasti zobrazovacích technik, který se věnuje nejen imunologickému výzkumu, ale také správě vědeckých dat. V rozhovoru přibližuje, jak ho náhodná setkání s předními odborníky přivedla k mikroskopii a jaké výzvy přináší práce se složitými daty. Sdílí, jak otevřená věda a automatizace mohou zjednodušit a zpřehlednit správu dat. Od zavedení povinných data management plánů (DMP) na Ústavu fyzikální chemie J. Heyrovského AV ČR (ÚFCH JH) až po vyvíjení nástrojů pro Národní repozitářovou platformu (NRP), vysvětluje, proč je otevřená věda klíčová pro budoucnost vědeckého výzkumu.

22. 8. 2024 Vladimíra Coufalová

Bez popisku

Můžete přiblížit svůj výzkum, čemu se věnujete a proč děláte vědu?

Mám tu výhodu, že i můj otec je vědec. Dovedl mě do laboratoře už jako dítě, mně se to líbilo, a tak jsem u toho zůstal. Už je to čtyřicet let. Vystudoval jsem biochemii, kterou ve svém výzkumu aplikuji na imunologické otázky. Okolo roku 2000 jsem se přesunul do oblasti zobrazovacích technik a mikroskopie, protože do té doby jsem převážně využíval biochemické nástroje. Měl jsem štěstí, když jsem v Londýně narazil na lidi, kteří se podíleli na vývoji nejnovějších technologií mikroskopie, a získal jsem možnost využívat tyto technologie dávno předtím, než byly komerčně dostupné. Tím jsem se dostal do Ústavu fyzikální chemie J. Heyrovského AV ČR, kde dlouhodobě působí skupina Martina Hofa (nynější ředitel ÚFCH JH), který se zabývá fluorescencí. Jedná se o jev, který se v biologické mikroskopii využívá, a přišlo mi vhodné být v blízkosti někoho, kdo tomuto jevu rozumí a umí složité zobrazovací techniky správně využívat. To je obrovská výhoda, kterou v Ústavu Heyrovského mám, i když je samozřejmě složitější věnovat se biologii v chemickém kampusu. Momentálně ale úzce spolupracujeme s nemocnicí v Motole v rámci klinické mikrobiologie a ukazuje se, že není tak těžké dělat biologicky orientovanou vědu v chemických nebo fyzikálních ústavech.

Jak jste se dostal k otázkám správy výzkumných dat?

K práci s daty mě přivedlo to, že jsem začal používat zobrazovací techniky, které produkují nejen velké objemy dat, což většina lidí ví, ale především data velmi složitá.

Můžete blíže vysvětlit pojem složitá data?

Jeden obrázek, který vidíte v publikaci, vznikl poskládáním například deseti tisíc snímků. Tyto snímky byly pořízeny v různých časech a na různých místech, přičemž prostor v biologickém zobrazování je skutečně mnohorozměrný, rozhodně větší než 4D.

Správa dat tedy byla nutnost?

V naší skupině byl v datech takový nepořádek, že jsme se jejich správě museli začít věnovat, protože už by se v tom nikdo nevyznal. Zjistil jsem, že nejsme jediní, ale nebyl nikdo, kdo by mi s tím pomohl, takže jsem si musel pomoci sám. Postupně jsem zjistil, že se v kontextu otevřené vědy stávám expertem.

Jak dlouho jste expertem na otevřenou vědu?

Seriózně jsem se tomu začal věnovat před třemi lety. Do té doby jsem se otázkám správy dat věnoval jen s ohledem na vlastní výzkum. My vědci jsme zvyklí se učit rychle. V oblasti EOSC a Open Science však stále vidím relativně málo vědců, což je pochopitelné, protože raději věnují čas svým experimentům. Pořád mám svou laboratoř a imunologický výzkum, jen k tomu přibylo několik dalších starostí.

„Jeden obrázek, který vidíte v publikaci, vznikl poskládáním například deseti tisíc snímků.“


Co jsou ty další starosti? Mít pořádek v datech zní jako něco, co si srovnám do šuplíku a vím, kde to mám, ale s daty je to asi složitější, že?

Ta analogie se šuplíkem vlastně docela sedí, jen musíme do šuplíku přidat pořadače. Problém je, že šuplíky musí být popsané a musí se do nich vkládat správné věci. Vědec není knihovník nebo archivář, který ví přesně, kde co je, protože jeho hlavním úkolem je být kreativní. To je i můj případ. Pořádek ve věcech není moje silná stránka, ale hledám nová řešení. Nejvíce se věnuji automatizaci.

Můžete své řešení automatizace blíže popsat?

Myslím tím automatizaci sběru dat i sběru informací o datech samotných. Nechci tvrdit, že všechno funguje dokonale, to je ještě daleko, ale většina lidí zažila, že musí neustále dokola vyplňovat svoje jméno, afiliaci, emailovou adresu a podobně, a to i v dokumentech EOSC Asociace. Neustále vyplňujeme to samé, přičemž systém by dávno měl vědět, kdo jsme. To, čemu se věnuji, je zlepšit to tak, aby například systém rozpoznal pomocí telefonu, že jsem to já, a rovnou vyplnil moji afiliaci, místo toho, aby mi nabízel celý seznam institucí v Česku. Pomocí laboratorních deníků se to dá řešit ještě jednodušeji, protože mohu mít připravené „templates“ a struktury práce se všemi informacemi o daném experimentu. Často se experiment liší od předchozího jenom ve dvou nebo třech parametrech. Díky tomu, že jsem už nějaký protokol napsal, není problém vytvořit v elektronickém deníku kopii, kde jen změním drobnosti. Automatizační systémy rozpoznávají různé experimenty a každý má svůj vlastní identifikátor. To nás vrací zpět k archivářům, ale trik je v tom, že vědec nemusí vědět, že tyto procesy běží na pozadí, a nemusí sám přiřazovat identifikátory ke svým experimentům.

Jak se tyto možnosti správy dat dostanou k ostatním vědcům a vědkyním?

Jednak vedu jednu pracovní skupinu EOSC CZ. Sice jsem biochemik, ale vedu pracovní skupinu zaměřenou na materiálové vědy a technologie. Tato role vznikla díky tomu, že se na Heyrovském ústavu, kde je zaměření na materiály a technologie velmi silné, zabývám data management plány a celkově Open Science a správou vědeckých dat. Osobní setkávání, to je jedna cesta. Tyto informace se pak šíří především virálně.

Můžete to přiblížit?

Před dvěma lety jsme na Heyrovském ústavu zavedli povinné data management plány pro každý projekt, který u nás vzniká. Ukazuje se, že nám to pomáhá zvyšovat povědomí o potřebě kvalitního řízení dat. Náš model pro plány správy dat jsme vytvořili v kontrastu s tím, jak je používá EU, a to proto, že jsme se zaměřili výhradně na data. Nejzajímavější otázka, kterou v těchto plánech máme, se týká znovuvyužití dat, kde je odpověď v 99 procentech případů chybná. Lidé si neuvědomují, že i data z jejich deset let starého výzkumu mohou být stále relevantní, že žádný výzkum nevzniká na zelené louce. Ale i tyto data by měla být k dispozici, pokud chceme dělat reprodukovatelnou vědu. Tato otázka v data management plánech na to upozorňuje a vychovává.

Využíváte v týmu Data Stewardy?

Na Ústavu Heyrovského jsem založil „Heyrovský Open Science Team“, který se před dvěma lety začal formovat s Evou PluhařovouStefanem Swiftem. Tým se postupně rozrůstá a dá se říct, že se jedná o Data Stewardy, protože intenzivně diskutujeme veškeré otázky spojené s data managementem. Máme také kolegy, kteří jsou technicky orientovaní, jako Michal TaranaJakub Chalupský, kteří jsou vynikající vývojáři a znalci IT prostředí. Důležité je, že máme komplexní přehled o celém systému, zahrnující politiky, vědecký i vývojářský pohled.

„Před dvěma lety jsme na Heyrovském ústavu zavedli povinné data management plány pro každý projekt, který u nás vzniká. Ukazuje se, že nám to pomáhá zvyšovat povědomí o potřebě kvalitního řízení dat.“


Můžete popsat aktivitu projektu Národní repozitářové platformy, kterou vedete?

V tomto projektu se zaměřujeme automatizace systémů. Aktivita, kterou mám na starosti, zahrnuje přípravu nástrojů, které pomohou přenášet data přímo z přístrojů do platformy a zajistí, aby data byla správně popsaná, tedy měla FAIR metadata. Vyvíjíme vlastní systémy, ale také využíváme nástroje již vyvinuté v zahraničí, které adaptujeme pro české prostředí NRP. Klíčové je pro nás spolupracovat s pilotními repozitáři a zajišťovat FAIRifikaci dat a workflow (zpracování dat ve výpočetních infrastrukturách). Pokud máme data z přístroje, která je třeba zpracovat, měla by se tyto data okamžitě uložit do blízkosti výpočetních kapacit. Je to o tom, aby se vědec mohl plně soustředit na svůj experiment a nemusel přemýšlet, jak data přenést na místo, kde je kolega z Ostravy zpracovává. Systém se ho musí zeptat, zda data mají jít do repozitáře, nebo zda se budou dále zpracovávat a kde. Zajímavostí celého procesu je, že systém identifikuje své uživatele, funguje automaticky a data se nedostanou tam, kde být nemají. Kromě toho budou data stále chráněná.

Aby data někdo neukradl?

Ne, to vůbec nemusí být zlý úmysl. Ale nemělo by se stát, že se k datům dostane někdo, kdo si myslí, že s nimi má pracovat, i když to tak není. Nestane se ani to, že by někdo data neúmyslně vymazal, protože by je spletl s jinými. Když je systém dobře nastavený, může eliminovat celou řadu přirozeně vznikajících chyb, kde nemusí být zlý úmysl přítomný.

Kde berete nové nápady?

Moje skupina sama pracuje s daty, takže mnoho nápadů přichází přímo během naší práce. Velmi inspirující jsou například plenární zasedání Research Data Alliance, což je globální iniciativa zaměřená na Open Science a správu dat. Tam se setkáváme s velmi zajímavými příklady a přístupy.

Zmíníte nějaký konkrétní příklad?

Například existují environmentální analýzy v Amazonském pralese, kde jsou čidla navržena tak, aby nenarušovala ekosystém. Jedná se o věžovité konstrukce, ale džungle je džungle, a čidla často něco naruší, přičemž se nacházejí v oblastech, kam je vstup zakázán. Zajímavé je, jak se řeší dálkové ovládání a opravy čidel, aby všechno správně komunikovalo. Tyto příklady jsou fascinující, ale česká infrastruktura Czech-BioImaging, která generuje data po celé České republice, se od toho v zásadě příliš neliší. Problémy nezpůsobí džungle, ale třeba nový vědec, který s přístrojem ještě neumí pracovat.

Mohl byste na závěr shrnout, co je za vás v otevřené vědě to opravdu podstatné?

Otevřená věda je klíčová pro transparentnost a opakovatelnost vědeckého výzkumu. Vědci často sbírají data, kombinují je a vytvářejí publikace, které však představují subjektivní interpretaci těchto dat. To, co je opravdu podstatné, je, aby byla data, pokud je to možné, zveřejněna před publikací. To umožní ostatním vědcům přístup k originálním datům a podpoří otevřenou diskuzi o výsledcích.

Důležitou součástí otevřené vědy je, aby vědci měli k dispozici nástroje a dovednosti potřebné pro správu a sdílení dat. Tento proces není jednoduchý, protože zahrnuje řadu drobných problémů a omezené finanční prostředky.

„Je to o tom, aby se vědec mohl plně soustředit na svůj experiment a nemusel přemýšlet, jak data přenést na místo, kde je kolega z Ostravy zpracovává.“


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.