Data jsou jako fotky, bez kontextu nedávají smysl

Jak připravit evropská výzkumná data na umělou inteligenci? Profesor Ignacio Blanquer, člen představenstva European Open Science Cloud (EOSC) a koordinátor španělské e-Science sítě, mluví o tom, proč Evropa potřebuje federované a bezpečné datové prostředí, které bude vycházet z principů FAIR, pokud chce držet krok s globální konkurencí. Vysvětluje, co obnáší příprava dat pro AI a jakou roli v tom hraje kvalita, dohledatelnost i respekt k právům. A také proč ho při hledání nových nápadů inspiruje svět fotografie.

3. 7. 2025 Lucie Skřičková

Bez popisku

Jako člen představenstva EOSC se podílíte na utváření evropské infrastruktury pro výzkumná data. Jak EOSC podporuje koncept „dat připravených pro AI“ a jak důležité jsou v tomto kontextu principy FAIR a reprodukovatelnost?

Strategická agenda výzkumu a inovací EOSC ve své nejnovější verzi zahrnuje téma „AI pro FAIR data a FAIR data pro AI“. Pokud chceme, aby systémy umělé inteligence přinášely výsledky, které jsou auditovatelné a v souladu se zásadami Aktu o umělé inteligenci, musíme zajistit, aby byly trénovány na dohledatelných, kvalitních a spolehlivých datech. Důležité je také vědět, zda modely respektovaly autorská práva a podmínky použití dat, na kterých byly vytvořeny.


Vaše práce propojuje vysokovýkonné výpočty, lékařské zobrazování a cloudovou infrastrukturu. Jaké vidíte největší výzvy a příležitosti při přípravě výzkumných dat pro aplikace umělé inteligence?

Používání citlivých dat v AI je bezpochyby velmi aktuální téma. Vývoj právního rámce Evropského prostoru pro zdravotní data (EHDS) pomůže zajistit právní základ pro využívání zdravotních dat i bez výslovného souhlasu subjektu. Zpřístupnění rozsáhlých souborů zdravotnických dat usnadní výzkum, ale stále narážíme na překážky při jejich sdílení a kombinování v mezinárodním prostředí. Důležitou roli v tomto směru mohou sehrát výzkumné infrastruktury, které už dnes pracují s kvalitními daty a umožňují jejich bezpečné sdílení v mezinárodních projektech. Právě díky nim může Evropa držet krok s konkurencí ze zemí, kde platí méně přísná pravidla a kde se rychleji vyvíjejí základní AI modely s potenciálem zásadně proměnit současné postupy. Aby Evropa v této oblasti uspěla, bude nezbytné vybudovat federované infrastruktury, které budou nejen bezpečné, ale i výkonné, spolehlivé a snadno použitelné.


Ve svých projektech pracujete s citlivými daty z oblasti lékařského zobrazování. Existují zavedené standardy a protokoly, které zajišťují bezpečné a efektivní využití těchto dat v AI?

Samozřejmě existují standardy pro získávání, kódování, formátování a přenos dat. A možná jich je dokonce až příliš. Méně standardizovaná je však oblast harmonizace nestrukturovaných dat, jako jsou právě medicínské snímky. I když jsou tato data technicky dobře strukturovaná, vznikají podle standardních protokolů a běžně se u nich používají osvědčené postupy pro práci s metadaty, mohou se mezi nimi vyskytovat rozdíly – například v typu přístroje, jeho výrobci, zdravotním stavu pacienta nebo v postupu konkrétního operátora. Tyto odchylky si člověk často ani nevšimne, ale pro modely umělé inteligence mohou znamenat zásadní problém. To je obzvlášť důležité ve federovaných systémech, kde není možné data analyzovat jako celek. Klíčové proto bude hodnotit kvalitu dat, umět kvantifikovat odlišnosti v nestrukturovaných údajích a přesně popsat, odkud data pocházejí a jak byla předzpracována. Jen tak zajistíme, že budou data reprodukovatelná a opakovaně použitelná.


„Aby Evropa v této oblasti uspěla, bude nezbytné vybudovat federované infrastruktury, které budou nejen bezpečné, ale i výkonné, spolehlivé a snadno použitelné.“

Jako koordinátor španělské e-Science sítě sledujete vývoj na národní i evropské úrovni. Jakou roli mohou hrát národní e-infrastruktury při budování evropských datových prostor a jak přispívají k širšímu výzkumnému ekosystému?

Většinu evropských datových prostorů dnes vede průmysl, výjimkou jsou jen ty, které jsou těsněji propojené s výzkumem. Podle mého názoru však stále chybí jednotný rámec, a to jak na mezinárodní, tak často i na národní úrovni. Inspirací může být Evropský prostor pro zdravotní data (EHSD), který zavádí právní rámec s aktivní účastí členských států a důrazem na mezinárodní spolupráci. Právě tímto směrem bychom se měli vydat. Státy by měly budovat vlastní infrastruktury, které mohou data do evropských prostorů poskytovat, a zároveň by měly vzniknout společné standardy a služby, které usnadní sdílení a spolupráci napříč hranicemi. Národní infrastruktury by neměly nahrazovat stávající mezinárodní aliance a infrastruktury, ale vhodně je doplňovat, zajišťovat soulad, podporovat mezioborovou spolupráci a také rozvoj vědeckých komunit, které nemají přístup k velkým výzkumným kapacitám.


Jak by podle vás měla vypadat ideální spolupráce mezi výzkumnými komunitami, poskytovateli infrastruktur a tvůrci politik, aby byla evropská výzkumná data skutečně připravena na využití v AI?

Posouzení původu dat a jejich kvality je zásadní. Lepší propojení výzkumných infrastruktur, e-infrastruktur a vědeckých zdrojů může výrazně zlepšit reprodukovatelnost výzkumu a umožnit složitější analýzy, které lépe podpoří rozhodování na úrovni politik. Zároveň je ale potřeba vyvažovat ochranu soukromí jednotlivců s přínosem pro veřejnost.

Vývoj modelů umělé inteligence v tzv. bezpečných prostředích (Secure Processing Environment – SPE), jak to vyžaduje Evropský prostor pro zdravotní data (EHDS), by přitom neměl omezit jejich praktické využití. Podle pravidel EHDS lze z těchto prostředí vyvést jen anonymizovaná data, ale přesto může AI model v některých případech stále obsahovat citlivé informace. I tak však mohou mít tyto modely obrovský společenský přínos – a právě ten je třeba při rozhodování zohlednit.


„Státy by měly budovat vlastní infrastruktury, které mohou data do evropských prostorů poskytovat, a zároveň by měly vzniknout společné standardy a služby, které usnadní sdílení a spolupráci napříč hranicemi.“

Existuje oblast mimo vědu a technologie, která vás inspiruje k přemýšlení o datech, spolupráci nebo inovacích?

Jsem nadšenec do fotografie, která podle mě skvěle propojuje všechny tři zmíněné principy. Za prvé, výstupem fotografie jsou data, často doplněná o metadata a uložená ve standardních formátech, což umožňuje ostatním fotografům zopakovat podmínky, techniky i výsledky. Za druhé, existuje mnoho platforem pro sdílení fotografických dat. Mou oblíbenou je Gurushots, kde se můžete účastnit výzev a soutěžit s ostatními uživateli. Je to skvělý způsob, jak se učit z nápadů, kompozice i provedení ostatních. A do třetice je to inovace, která je zásadní pro dosažení dokonalého nasvícení, expozice i výběru motivu.

Ignacio Blanquer


je profesorem počítačových systémů na Polytechnické univerzitě ve Valencii a od roku 2020 členem představenstva EOSC Association. Věnuje se oblasti e-Science a vede výzkumnou skupinu pro gridové a vysokovýkonné výpočty při Institutu pro molekulární zobrazování (I3M). Je koordinátorem španělské e-Science sítě, expertem ministerstva vědy a delegátem v e-IRG. Podílel se na řadě evropských projektů zaměřených na vědecká data, cloudové služby a lékařské zobrazování.


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.