S tím se potýkám každý den a často se to podceňuje. Naše simulace generují rozsáhlé, vícerozměrné datové sady. Každá z nich je navázána na konkrétní fyzikální parametry, výpočetní nastavení a kritéria konvergence. První výzvou je jednoduše udržet přehled o tom, co už bylo spočítáno.
Bez odpovídající infrastruktury rychle vznikají duplicitní výpočty, chybějící metadata a výsledky, které už po šesti měsících nelze reprodukovat. Právě proto jsme vytvořili OSCARpes, strukturovanou databázi navrženou k indexaci, deduplikaci a poskytování výsledků one-step fotoemise s úplnou proveniencí. Může to znít spíš jako inženýrská práce než fyzika, ale bez této vrstvy nelze vědu škálovat.
Další výzvou je dlouhodobé ukládání. Akademické skupiny často spoléhají na lokální servery nebo institucionální clustery, kde není vždy zajištěna dlouhodobá dostupnost. Když doktorand odejde, důležitá data mohou prakticky zmizet.
Obor se postupně posouvá směrem k principům FAIR, avšak v praxi je jejich přijímání stále pomalé, mimo jiné proto, že vyžaduje práci navíc už na začátku a nevede vždy přímo k publikacím.
Sdílení je možná nejvíce kulturní výzvou. Fyzika kondenzovaných látek často stále funguje tak, že se data sdílejí až při publikaci článku, pokud vůbec. Pokud ale chceme, aby přístupy založené na AI skutečně fungovaly, potřebujeme velké, dobře kurátorované a dostupné datové sady. Simulace jedné skupiny může jiné skupině ušetřit měsíce výpočtů, ale jen tehdy, pokud jsou data strukturovaná a znovu použitelná.
Tyto problémy možná nezní příliš atraktivně, ale bez kvalitní datové infrastruktury nelze podobné přístupy dlouhodobě rozvíjet. Fyzika a algoritmy postupují rychle kupředu a práce s daty s nimi musí držet krok.
Vnímáte rozdíly v přístupu k výzkumným datům a otevřené vědě mezi různými zeměmi, například mezi Českou republikou, Evropou obecně a Tuniskem?
Ano, rozdíly jsou poměrně viditelné. Na evropské úrovni se EOSC stává klíčovým prostředím pro publikování, vyhledávání a opětovné využívání výzkumných dat napříč státy i obory. Pro náš obor jsou důležité také projekty jako PaNOSC, které do tohoto ekosystému zapojují velká synchrotronová a neutronová zařízení.
V materiálových vědách je velmi pokročilé Německo. FAIRmat, jedno z konsorcií NFDI, zastupuje komunitu fyziky kondenzovaných látek a chemické fyziky a staví na platformě NOMAD, jedné z největších datových infrastruktur pro výpočetní materiálové vědy. V mém výzkumném prostředí je to přesně typ infrastruktury, která dělá FAIR data prakticky využitelnými.
V České republice vnímám, že se věci začínají výrazně posouvat. EOSC CZ pomáhá budovat národní infrastrukturu pro FAIR data a v rámci Open Science II vzniká specializovaný repozitář DANTEc zaměřený na materiálové vědy a technologie. Právě podobná oborová řešení mohou výzkumníkům výrazně usnadnit praktické využívání FAIR principů.
V Tunisku se začíná posilovat napojení na globální výzkumnou infrastrukturu, například prostřednictvím persistentních identifikátorů a spolupráce s DataCite. V zemi je silná odborná komunita a její propojení s evropskými platformami, jako jsou NOMAD nebo EOSC, by mohlo další vývoj výrazně urychlit.
I tam, kde už infrastruktura existuje, je ale její adopce stále pomalá. Zavedené pracovní postupy se nemění ze dne na den. Platformy se budují, ale skutečná změna je kulturní — a ta vyžaduje čas v každé zemi.
Jste členem pracovní skupiny EOSC CZ zaměřené na metadata a fyzikální vědy. Jak důležitá jsou kvalitní metadata pro znovupoužitelnost dat a mezioborovou spolupráci?