věda

Nový vyhledávač DNA přináší objednávku na Big Data Biology

Nový vyhledávač DNA přináší objednávku na Big Data Biology

Metagraph komprimuje rozsáhlé archivy dat do vyhledávače pro vědce a otevírá nové hranice biologického objevu

Internet má Google. Nyní má biologie metagraph. Podrobné dnes v PřírodaVyhledávač může rychle procházet ohromujícími objemy biologického Data umístěná ve veřejných úložištích.

„Je to obrovský úspěch,“ říká Rayan Chikhi, biokompující výzkumný pracovník na Pasteur Institute v Paříži. „Stanovili si nový standard“ pro analýzu surových biologických dat – včetně sekvencí DNA, RNA a proteinů – z databází, které mohou obsahovat miliony miliard písmen DNA, což představuje „petabase“ informací, více položek než všechny webové stránky v obrovském indexu Google.

Přestože je Metagraph označen jako „Google pro DNA“, Chikhi přirovnává nástroj k vyhledávači pro YouTube, protože úkoly jsou výpočetněji náročnější. Stejným způsobem, jakým vyhledávání YouTube mohou načíst každé video, které obsahuje, řekněme, červené balóny, i když se tato klíčová slova neobjevují v názvu, značkách nebo popisu, metagraph může odhalit genetické vzorce skryté hluboko v rozsáhlých sekvenčních datových sadách, aniž by se potřebovaly výslovně anotovat předem.


O podpoře vědecké žurnalistiky

Pokud se vám tento článek líbí, zvažte podporu naší oceněné žurnalistiky předplatné. Zakoupením předplatného pomáháte zajistit budoucnost působivých příběhů o objevech a myšlenkách, které dnes formují náš svět.


„To umožňuje věci, které nelze provést jiným způsobem,“ říká Chikhi.

Indexování Life’s Library

Motivací za Metagraph bylo řešit problém dostupnosti v Sekvenování dat. Velikost těchto repozitářů se v posledních několika desetiletích zvýšila puchýřem, ale tento růst pro vědce představoval výzvy pomocí údajů, které obsahují. Čtení surového sekvenování jsou roztříštěné, hlučné a příliš četné na to, aby se přímo vyhledávaly. „Objem dat paradoxně je hlavním inhibitorem nás, kteří skutečně používají data,“ říká Artem Babaian, výpočetní biolog na University of Toronto v Kanadě.

Podle jednoho z autorů studie, André Kahles, bioinformatik ve Švýcarském federálním institutu technologií (ETH) ve Švýcarsku, by Metagraph mohl vědcům pomoci klást biologické otázky úložišť, jako je sekvenční čtení archivu (archiv čtení sekvence (archiv čtení sekvence (SRA), veřejná databáze obsahující přesahující Dopisy 100 milionů DNA.

Problém řešili pomocí matematických „grafů“, které spojují překrývající se fragmenty DNA dohromady, podobně jako věty, které sdílejí stejná slova, která se zarovnává v indexu knih.

Vědci integrovali data ze sedmi veřejně financovaných úložišť dat a vytvořili 18,8 milionu jedinečných sad DNA a RNA sekvence a 210 miliard amino kyselinových sekvenčních sekvenčních sad napříč všemi čepičkami života-včetně virů, bakterií, hub, rostlin a zvířat, včetně lidí. Vyvinuli také vyhledávač těchto sekvencí, ve kterém uživatelé používají textové výzvy k prohledávání těchto integrovaných archivů surových dat.

„Je to zcela nový způsob, jak komunikovat s tímto tělem dat,“ říká Kahles. „Je to stlačené, ale přístupné za běhu.“

K demonstraci užitečnosti metagrafu ho autoři studie použili ke skenování 241 384 vzorků lidského střeva pro genetické ukazatele. Antibiotická rezistence po celém světěBudování na práci, která používala dřívější verzi nástroje ke sledování genů odolnosti léčiv v bakteriálních kmenech, které žijí v metrům systémech napříč hlavními městskými centry. Autoři tvrdí, že analýzu provedli asi za hodinu na vysoce výkonném počítači.

Otevřená cesta k objevu

Metagraph není jediným masivním nástrojem pro vyhledávání sekvencí.

Například Chikhi a Babaian vytvořili platformu s názvem Logan, která spojuje miliardy krátkých sekvenčních čtení, aby prodlužovaly delší, organizované úseky DNA. Tato konstrukční architektura umožňuje systému spatřit celé geny a jejich varianty napříč ještě většími sbírkami sekvenčních čtení, než je možné u metagrafu, i když s určitými kompromisy. „Máme menší funkčnost, ale větší výkon,“ říká Chikhi.

Přidaný dosah Logana pomohl vědcům odhalit více než 200 milionů přirozeně se vyskytujících verzí enzymu konzumujícího plastika nalezený v různých bakteriích, hučkách a hmyz – včetně některých verzí, které fungují ještě lépe než enzymy navržené v laboratoři. Chikhi a Babaian hlásili svá zjištění v a předtisk zveřejněn minulý měsíc.

Oni a další také použili dřívější, užší vyhledávací nástroj přizpůsobený Úložiště virových DNA odhalit reams dříve nezdokumentované viry a virové kontaminanty v inženýrských T-buňkách Terapie pro léčbu rakoviny.

Podle Babaiana by takové objevy nebyly možné bez dvou věcí: nástroje pro vyhledávání s otevřeným zdrojovým kódem, k dispozici na webech, jako jsou metagraph.ethz.ch a logan-search.org, a veřejné sekvenční úložiště, do kterých se zapojují. S Financování snižuje ohrožení jiných druhů biologických databázíBabaian zdůrazňuje, že tyto inovace vyhledávání zdůrazňují „kritický význam sdílení otevřených dat“.

„To jsou zdroje, jak řídit vědecký pokrok po celém světě,“ říká Babaian. „Otevírají zcela nové pole genomiky v měřítku petabase“-a nejvlivnější aplikace teprve přicházejí.

Tento článek je reprodukován se svolením a byl poprvé publikováno 8. října 2025.

Je čas postavit se za vědu

Pokud se vám tento článek líbil, rád bych požádal o vaši podporu. Vědecký Američan sloužil jako obhájce vědy a průmyslu po dobu 180 let a právě teď může být nejkritičtějším okamžikem v této historii dvou století.

Byl jsem Vědecký Američan Předplatitel od svých 12 let a pomohlo to utvářet způsob, jakým se dívám na svět. Dejte mi vědět Vždy mě vzdělává a potěší a inspiruje pocit úcty pro náš obrovský, krásný vesmír. Doufám, že to také pro vás.

Pokud Přihlaste se k odběru Vědecký AmeričanPomáháte zajistit, aby naše pokrytí bylo soustředěno na smysluplný výzkum a objev; že máme zdroje na podávání zpráv o rozhodnutích, která ohrožují laboratoře po celé USA; a že podporujeme začínající i pracující vědce v době, kdy se hodnota samotné vědy příliš často nerozpoznala.

Na oplátku získáte základní zprávy, Upmasující podcastyBrilantní infografika, zpravodaje nemohu vynechatMust-Watch videa, náročné hrya nejlepší psaní a hlášení vědeckého světa. Můžete dokonce Darujte někomu předplatné.

Nikdy nebylo důležitější čas, abychom se postavili a ukázali, proč věda záleží. Doufám, že nás v této misi podpoříte.

Zdrojový odkaz

Related Articles

Back to top button