Mohli bychom bez nadsázky říci, že současná biologie kráčí kupředu mílovými kroky. Onemocnění covid-19 jsme schopni potvrdit do několika minut. Ani přečíst celý lidský genom nám nedělá potíže. Byť to trvá o něco déle a také na to musíme vynaložit větší množství peněz. Řečeno jinak, množství dat neustále narůstá a spolu s tím i jejich informační hodnota. Abychom však mohli tento objem cenných údajů naplno využít, potřebujeme k tomu vhodné nástroje. Ty představují cloudové platformy tvořící infrastrukturu pro správu, sdílení a analýzu velkých datových objemů.
Nebýt pandemie, pravděpodobně byste o metodě PCR nikdy neslyšeli. Dnes bych řekl, že na světě nepotkáte člověka, který by se s ní nesetkal. Uvedenou metodu však známe již od osmdesátých let minulého století, a to díky americkému chemikovi (a surfaři) Karymu Mullisovi, který za její objev posléze získal Nobelovu cenu. Metoda se tehdy zařadila mezi objevy, jež odstartovaly novou éru biologie.
Revolučních objevů, které biologii posouvají kupředu, od té doby neustále přibývá. Stejně jako o PCR jste v posledních letech možná zaslechli i o CRISPR, tedy genetických ,nůžkách‘, díky nimž budou vědci možná do několika let schopni dle libosti doslova vystřihávat z našich genomů dědičné choroby a provádět řadu dalších genetických změn. Všechny zmíněné metody a přístupy mají jedno společné – generují obrovské množství dat, jejichž zpracováním mají odborníci možnost využít plně jejich potenciál pro účely moderní medicíny. Na základě těchto dat navrhnou léčbu rakoviny ,na míru‘, násobně rychleji vyvinou nová léčiva či najdou souvislosti mezi jednotlivými pacienty trpícími vzácnými onemocněními napříč světem.
Možná se ptáte, proč tyto představy nejsou při dnešní rychlosti výzkumu již běžnou realitou. Odpověď na danou otázku spočívá v několika důvodech. Prvním je stále nedostatečné množství dat, které je třeba shromáždit a analyzovat. Dosud známe význam pouhého zlomku sekvencí DNA – drtivá většina na odhalení své podstaty stále čeká. Důležitou roli v oblasti biologie navíc mohou sehrát i další faktory, typicky například to, jak jsou sekvence prostorově orientovány a jak navzájem interagují.
Druhou pomyslnou ,brzdou‘ je heterogenita získaných dat, kvůli které nahromaděné poznatky zjednodušeně řečeno ztrácejí jednotnou ,uniformu‘. Co to v praxi znamená? Představte si, že deset různých laboratoří po celém světě pátrá po důvodech vzniku rakoviny plic. Ačkoli každý tým bude dělat ve výzkumu pokroky, vlivem obtížné vzájemné spolupráce dojde k tomu, že získaná data budou zpracovávána odlišnými způsoby – například ukládána v nejednotných a nestandardizovaných formátech – či disponovat rozdílnou kvalitou. Stane se tak proto, že jednotlivé týmy k jejich zisku dospěly odlišně designovanými experimenty. K této heterogenitě přispívá třeba i jejich archivace a lokalizace.
Budoucností je bioinformatika
Způsob, jakým mohou vědci uvedené bariéry překonat, spočívá ve využití plného potenciálu oboru, který propojuje biologii s datovou analytikou – bioinformatiky. Ta modernímu výzkumu nabízí cloudová úložiště umožňující sdílení velkých objemů dat na jednom místě.
Co to může v praxi pro vědu, potenciálně medicínu znamenat? Vezměme si jako příklad výzkum nějaké vzácné choroby. Ty jsou obecně charakteristické svou neslučitelností se životem, přičemž vzhledem k tomu, že řada z nich je způsobena unikátní mutací v DNA, s níž se lékaři do té doby v souvislosti s danou chorobou nikdy nesetkali, budou správnou léčbu volit výrazně obtížněji.
Pokud by však tato data byla uložena na jediném cloudovém úložišti, mohou je sdílet jednotlivá pracoviště napříč světem a využívat pro léčbu genetické souvislosti, se kterými se již v minulosti setkaly jiné výzkumné týmy. Funkčnost uvedeného přístupu jsme si v DNAnexus ověřili například spoluprací se St. Jude Children's Research Hospital, jednoho z největších onkologických center a největší charitativní organizací ve Spojených státech, které jsme od roku 2018 pomohli sdílet více než 1,2 petabajtů dat. Díky jejich obrovskému množství a snadnému přístupu je nyní možné, aby lékaři detekovali klíčové genetické odchylky u jednotlivých pacientů a značně tak zefektivnili jejich léčbu.
Podobný model můžeme aplikovat třeba při vývoji nových léků. Dostupnost velkých objemů kvalitních dat může v tomto případě vést k včasnému odhalení ,slepých uliček‘ a soustředění úsilí a financí do vývoje, jehož šance na uvedení do klinické praxe jsou výrazně vyšší. Toto síto tak umožní, aby projekty, které by velmi pravděpodobně skončily nezdarem, skončily ještě dříve, než se prací na nich promrhají roky testování a miliony dolarů. Zmíněný přístup je o to cennější v pozdních fázích klinických studií, které jsou zpravidla při vývoji léků nejdražší.
Jinými slovy, s nárůstem objemu dat je zcela jednoznačné, že velkokapacitní cloudové platformy představují pro budoucnost vědy a medicíny klíčový pokrok. Propojením rozsáhlých datasetů z celého světa budeme jako lidstvo schopni efektivně komunikovat a využívat získané poznatky rychle a co nejlépe.