HR Excellence in Science
Datum: 22.05.2017

Jak přečíst problematické úseky v DNA

Moderní vědecké metody umožňují “přečíst” najednou téměř kompletní dědičnou informaci organizmu. Téměř. Oříšek představují tzv. repetitivní sekvence – části, které obsahují velké množství stejných, stále se za sebou opakujících úseků. Dosud používané metody totiž neumožňovaly určit přesný počet, ani délku těchto opakování. Tento problém vyřešil až počítačový program TAREAN, vyvinutý laboratoří molekulární cytogenetiky ÚMBR. Nejenže pomocí grafické analýzy sekvenačních dat umožňuje opakující se sekvence přesně charakterizovat, ale dokáže také najít ty, které zatím unikaly pozornosti.

Na obrázku: Příklady čtyř různých opakujících se sekvencí v podobě grafů, kde kolečka představují jednotlivé kousky získaných sekvencí propojených čárami s těmi, kterým se podobají. Kolečka s velkým množstvím propojení jsou červená.

Každá lidská buňka obsahuje přibližně 1 metr DNA (molekuly dědičné informace), složené z asi 3 miliard jednotlivých písmenek. Buňky některých rostliny nebo např. obojživelníků pak mají DNA ještě několikrát více. V pořadí těchto písmenek je zakódováno, jak daný živočich či rostlina vypadá, jak funguje, jaké látky produkuje, nebo třeba i náchylnost k některým nemocem. Zjištění přesného pořadí písmenek v DNA, neboli sekvenování, je tedy základním úhelným kamenem současné biologie. Jak ale přečíst všechna ta písmenka najednou?

Princip moderního sekvenování spočívá v tom, že DNA nejprve rozstříháme na velké množství malých kousíčků, které přečteme snadno, a z těch ji složíme dohromady – podobně, jako bychom skládali nějakou rozstříhanou zprávu. S jednou verzí rozstříhané zprávy bychom pochopitelně nemohli zjistit, kam přesně který kousek patří, pokud ale máme více kopií rozstříhaných různými způsoby (což je v případě DNA vzorků splněno), můžeme výsledný text složit díky překrývajícím se částem (viz obrázek níže).

 

Problém nastává v případě, kdy se stejná slova několikrát za sebou neustále opakují. V knize by to asi vypadalo divně, ale v DNA se tyto repetitivní sekvence vyskytují klidně ve stovkách až tisících kopiích, a mají tam poměrně zásadní význam. Tvoří například strukturu míst, díky kterým se pak DNA při dělení buňky může rovnoměrně rozdělit na dvě přesné kopie. V dalších případech je zase důležitý přesný počet opakování, a menší nebo větší počet kopií může vést např. u lidí k některým onemocněním. Jak v tomto případě určit z tisíců kousků, kolikrát se dané slovo (nebo věta) v textu vyskytuje?

Už dříve bylo zjištěno, že repetitivní sekvence lze najít a charakterizovat graficky – každý získaný kousíček zakreslíme do obrázku jako bod, a od něhož povedeme linku k těm, kterým se alespoň částečně podobají. Repetitivní sekvence budou tvořit shluky vzájemně hustě propojených bodů (podobně jako na ilustračním obrázku nahoře). Tohoto využíval už dříve software RepeatExplorer, vyvinutý na oddělení molekulární cytogenetiky ÚMBR právě k analýze repetitivních sekvencí. Další postup spočíval ale v pracné, ruční charakterizaci grafických výstupů, které nešlo nijak automatizovat. Nyní ale kolegové ze stejného oddělení obešli tento nedostatek statistickým zpracováním přímo vlastních krátkých kousíčků a vše spojili do jednoho programu TAREAN. Ten nejprve zjistí přítomnost opakujících se sekvencí pomocí grafické analýzy a pak použije vybrané krátké kousky k sestavení kompletní opakující se sekvence a k určení její početnosti. Správnou funkci TAREANu potvrdil i nález nových repetitivních sekvencí u rostliny Bobu obecného, předpovězených právě tímto programem.

 

Publikace:

Novák P., Avila Robledillo L., Koblížková A., Vrbová I., Neumann P., Macas J. (2017) TAREAN: a computational tool for identification and characterization of satellite DNA from unassembled short reads. Nucleic Acids Research 45, e111, DOI: 10.1093/nar/gkx257. [IF2016=10,162]

Zpět

 

KONTAKT

Biologické centrum AV ČR, v.v.i.
Branišovská 1160/31
370 05 České Budějovice
Datová schránka: r84nds8

 

+420 387 775 111 (ústředna)
+420 387 775 051 (sekretariát)
+420 778 468 552 (pro média)

NAJÍT PRACOVNÍKA

Biologické centrum Google mapa

Přihlášení do intranetu

Pro přihlášení do intranetu zadejte Vaše přihlašovací údaje

×