Differential privacy nám umožňuje hodnotit kvalitu dat tak, aniž bychom k nim vůbec museli přistupovat

Rozhovor s Radovanem Tomášikem, vítězem soutěžní Poster Session na Long Live Research Data – Národní konferenci EOSC CZ 2025.

12. 12. 2025 Lucie Skřičková

Bez popisku

Vítězný poster z Národní konference EOSC CZ 2025 vznikl ve spolupráci trojice autorů z BBMRI-ERIC, Masarykova onkologického ústavu a Masarykovy univerzity –Radovana Tomášika, Ivana MahútaSimony Menšíkové. O tom, jak se rodil nápad oceněného projektu a proč je kvalita dat vždy otázkou kontextu, jsme hovořili sRadovanem Tomášikem. V rozhovoru vysvětluje, proč je kvalita dat vždy otázkou kontextu, jak funguje princip differential privacy* a proč by výzkumná data měla mít „dlouhý život“. 

Působíte v oblasti medicínské informatiky a zároveň děláte doktorát zaměřený na kvalitu dat ve federovaném prostředí. Co vás k tomuto oboru přivedlo a co vás na práci s daty v medicíně nejvíc baví?

K medicínské informatice jsem se dostal vlastně náhodou už během bakalářského studia, když jsem začal pracovat jako vývojář do nově vznikajícího IT týmu Zdenky Dudové pro biobanku Masarykova onkologického ústavu v Brně. Zpočátku to byla spíš programátorská brigáda, ale brzy jsem zjistil, že medicínská informatika není „jen IT“. Uvědomil jsem si, že dobře navržený software může zásadně ovlivnit kvalitu dat, na nichž stojí výzkum, a tím i kvalitu samotné vědy.

Ačkoliv pracuji s daty, nejvíc mě vždy zajímala softwarová architektura, to jak navrhnout systém, který je srozumitelný, udržitelný a zvládne fungovat i v situacích, které původní autoři netušili. A pokud si chcete jakýkoliv systém opravdu zkomplikovat, udělejte z něj federovaný. Ale právě ta složitost je na nich fascinující. Jsou technicky náročné, ale řeší velmi reálné problémy.

Na této práci mě baví kombinace intelektuální výzvy a praktického dopadu. V rámci doktorátu na FI MUNI mám kolem sebe skvělé lidi, kteří mě neustále posouvají. Často mám pocit, že jsem nejméně chytrý v místnosti, a to je pro mě nejlepší motivace. Místo bezduchého „kódování“ v korporátu řeším problémy, které mají smysl a reálný dopad na výzkum i zdravotní péči. A to mě naplňuje.


„Uvědomil jsem si, že dobře navržený software může zásadně ovlivnit kvalitu dat, na nichž stojí výzkum, a tím i kvalitu samotné vědy.“

Váš vítězný poster má název Privacy-Preserving Data Quality Assessment for Federated Health Data Networks. Jak byste hlavní myšlenku vysvětlil někomu, kdo se s tímto tématem nikdy nesetkal?

Historie nás opakovaně učí, že centralizovat data i moc je sice lákavé, ale riskantní. Všechno máte na jednom místě, ale také vytváříte jeden bod zranitelnosti – technický, organizační i společenský. V oblasti zdravotních dat to navíc naráží na zásadní otázku ochrany soukromí. Federovaný přístup nabízí alternativu: data zůstávají tam, kde vznikla, například v nemocnicích, a ty je mohou sdílet nebo sumarizovat pro výzkum. Je to realističtější a bezpečnější model, protože zachovává odpovědnost i kontrolu.

Problém ale je, jak hodnotit kvalitu dat, když je nemůžete vidět všechna pohromadě. A vůbec co znamená „kvalitní data“? Kvalita totiž není absolutní pojem, ale fitness for purpose – vhodnost pro daný účel. To, co je dostatečné pro jeden výzkum, může být pro jiný nepoužitelné.

Můj výzkum hledá způsob, jak tyto aspekty kvality vyhodnocovat i bez přímého přístupu k datům. Nemocnice nesdílejí samotná data, ale jen bezpečně zpracované charakteristiky, které umožňují posoudit jejich kvalitu, aniž by došlo k ohrožení soukromí pacientů.

Je to trochu jako hodnotit knihu podle anotace, nevidíte celý obsah, ale máte dost informací, abyste se sami rozhodli, jestli stojí za přečtení. Stejně tak výzkumník může posoudit, zda jsou data „dost dobrá“ pro jeho účel, aniž by je musel mít fyzicky k dispozici.


Na posteru jste spolupracoval s Ivanem Mahútem a Simonou Menšíkovou. Jak probíhala vaše spolupráce mezi Brnem a Grazem?

Všichni působíme v českém uzlu BBMRI-ERIC, který sídlí na Masarykově onkologickém ústavu v Brně. Já sám zároveň pracuji v centrále BBMRI-ERIC v Grazu, takže náš tým je přirozeně rozdělený mezi dvě města.

V Brně pracujeme pod vedením doc. Romana Hrstky, který přináší pohled biomedicínského výzkumníka a zkušenosti z práce s reálnými nemocničními daty. Z Grazu zase čerpáme strategický přesah a informatické vedení od docenta Petra Holuba, CIO BBMRI-ERIC a mého školitele.

Tento model funguje výborně, protože propojuje dva světy, které se často míjejí – každodenní realitu práce s daty a strategický rámec výzkumných infrastruktur. Bez takovéto spolupráce by náš výzkum buď postrádal reálný kontext, nebo naopak širší uplatnění.


„Je to trochu jako hodnotit knihu podle anotace, nevidíte celý obsah, ale máte dost informací, abyste se sami rozhodli, jestli stojí za přečtení. Stejně tak výzkumník může posoudit, zda jsou data „dost dobrá“ pro jeho účel, aniž by je musel mít fyzicky k dispozici.“

Pracujete s citlivými zdravotnickými daty. Jaké jsou podle vás největší výzvy při hodnocení jejich kvality a jakou roli v tom hraje princip differential privacy?

Největší výzva není technická, ale praktická. Každá nemocnice používá trochu jiné formáty, pojmy i datové struktury, a už jen definovat, co znamená „vzorek“, může mít tři různé odpovědi. Když se neshodneme na pojmech, těžko můžeme porovnávat kvalitu dat. Navíc v decentralizovaném prostředí nemůžeme jednoduše „nahlédnout“ do všech dat, abychom jejich kvalitu posoudili. Proto používáme jiný model, kdy data zůstávají na místě a sdílí se jen anonymizované charakteristiky, které říkají něco o jejich kvalitě, nikoli o pacientech.

A právě zde hraje zásadní roli differential privacy. Tato metoda přidává do sdílených čísel kontrolovaný šum. Data tak zůstávají použitelná pro hodnocení, ale nejsou zneužitelná k identifikaci jednotlivců. Zjednodušeně řečeno, differential privacy nám umožňuje ptát se na kvalitu dat, aniž bychom museli vidět samotná data. Chrání soukromí i v extrémních scénářích, nejen „za normálních okolností“.


Vaše řešení umožňuje hodnotit kvalitu dat napříč institucemi bez nutnosti sdílet samotná data. Jaký potenciál podle vás tato metoda má pro národní či evropské infrastruktury, jako jsou BBMRI-ERIC nebo EOSC?

Potenciál je obrovský. V infrastrukturách, které pracují s citlivými zdravotními daty, jako je právě BBMRI-ERIC nebo EOSC, není centralizace prakticky možná. Federovaný přístup je proto přirozenou volbou, ale přináší i komplikace. Naše metoda nabízí způsob, jak tyto problémy překonat. Umožňuje hodnotit kvalitu dat napříč institucemi bezpečně, decentralizovaně a s respektem k soukromí. Místo dat samotných se sdílí jen jejich chráněné charakteristiky.

V distribuovaném systému, jako je BBMRI-ERIC, může takový nástroj výrazně zvýšit důvěryhodnost a použitelnost celého ekosystému, protože dává výzkumníkům jistotu, že pracují s kvalitními daty, i když je nikdy fyzicky neviděli.


„Zjednodušeně řečeno, differential privacy nám umožňuje ptát se na kvalitu dat, aniž bychom museli vidět samotná data. Chrání soukromí i v extrémních scénářích, nejen „za normálních okolností“.“

Kde vidíte svůj výzkum v horizontu několika let?

Jsem spíš praktik než teoretik, takže mým cílem je, aby se výsledky výzkumu proměnily v nástroj, který bude skutečně fungovat v reálných podmínkách. První pilotní nasazení už běží v rámci Platformy federovaného vyhledávání BBMRI-ERIC. Rád bych, aby se naše řešení dál rozvíjelo například pro digitální patologii nebo sekvenační data. Tak bychom mohli hodnotit kvalitu širšího spektra biomedicínských informací a posunuli systém blíž ke každodenní praxi.


Národní konference EOSC CZ 2025 nesla podtitul Long Live Research Data. Co pro vás tento slogan znamená?

Pro mě je to přání, aby výzkumná data nezůstala jednorázovým produktem, který po publikaci zapadne, ale aby žila dál, třeba i za deset či dvacet let, v nových projektech a nových souvislostech. A právě otevřená věda je tím, co jim ten „dlouhý život“ umožňuje. Transparentnost, sdílení a společné standardy dávají datům šanci znovu ožít, v nových analýzách, nových otázkách, v rukou nových výzkumníků. Možná je to trochu idealistické, ale věřím, že právě tahle otevřenost a víra ve smysl sdílení posouvá vědu dopředu.


*Differential privacy (česky diferenciální soukromí) je moderní metoda ochrany dat, která umožňuje vyhodnocovat souhrnné informace, aniž by bylo možné identifikovat jednotlivé osoby. Funguje na principu přidání kontrolovaného šumu, který chrání soukromí, ale zachovává vědeckou hodnotu dat.

„Jsem spíš praktik než teoretik, takže mým cílem je, aby se výsledky výzkumu proměnily v nástroj, který bude skutečně fungovat v reálných podmínkách.“

Bez popisku

Ing. Radovan Tomášik


působí jako datový inženýr v mezinárodní výzkumné infrastruktuře BBMRI-ERIC a v Masarykově onkologickém ústavu v Brně. Současně je doktorandem na Fakultě informatiky Masarykovy univerzity, kde se věnuje výzkumu kvality dat ve federovaném prostředí a metodám pro bezpečné sdílení zdravotnických informací. Ve své práci propojuje informatiku, medicínu a datovou vědu – zaměřuje se na vývoj nástrojů, které zvyšují důvěryhodnost a využitelnost dat ve výzkumu. Dlouhodobě se zajímá o ochranu soukromí a principy otevřené vědy. Jeho přístup kombinuje technickou preciznost s praktickým pohledem na reálné potřeby biomedicínského výzkumu.


Více článků

Přehled všech článků

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.