Informace

9.4: Předpoklady pro identifikaci výpočetních genů - biologie


Obecnými předpoklady pro výpočetní genovou identifikaci je, že exony jsou vymezeny sekvencí AG na začátku exonu a sekvencí GT na konci exonu. (Většinu těchto myšlenek lze vidět na obrázku 9.3) Tyto předpoklady budou začleněny do komplexnějších HMM popsaných níže.


Genová identifikace rizika relapsu u pacientů s plicním adenokarcinomem stadia I: kombinovaná metodika profilování genové exprese a výpočetní analýzy genové sítě

Hodnocení rizika a volba léčby zůstává výzvou u časného nemalobuněčného karcinomu plic (NSCLC). Cílem této studie bylo identifikovat nové geny podílející se na riziku časného relapsu (ER) ve srovnání s žádným relapsem (NR) u pacientů s resekovaným adenokarcinomem plic (AD) pomocí kombinace technologie s vysokou propustností a výpočetní analýzy. Identifikovali jsme 18 pacientů (č. 13 NR a č. 5 ER) ve stadiu I AD. Zmrazené vzorky pacientů v ER, NR a odpovídajících normálních plicích (NL) byly podrobeny technologii Microarray a kvantitativní PCR (Q-PCR). Pro výběr prediktivních genů byla provedena výpočetní analýza genové sítě. K ověření vybraných genů pomocí Q-PCR byl použit nezávislý soubor 79 vzorků AD AD I. Z mikročipové analýzy jsme vybrali 50 genů pomocí poměru násobné změny ER versus NR. Byli validováni jak ve skupině, tak jednotlivě ve vzorcích pacientů (ER a NR) pomocí Q-PCR. Čtrnáct zvýšených a 25 zmenšených genů ukázalo shodu mezi dvěma metodami. Byly použity k provedení počítačové výpočetní genové síťové analýzy, která identifikovala 4 zvýšené (HOXA10, CLCA2, AKR1B10, FABP3) a 6 snížené (SCGB1A1, PGC, TFF1, PSCA, SPRR1B a PRSS1) geny. Kromě toho jsme v nezávislém souboru dat vzorků AD ukázali, že jak vysoká exprese FABP3, tak nízká exprese SCGB1A1 byla spojena s horším přežitím bez onemocnění (DFS). Naše výsledky ukazují, že je možné definovat prostřednictvím genové exprese a výpočetní analýzy , charakteristický genový profil pacientů se zvýšeným rizikem relapsu, který se může stát nástrojem pro výběr pacienta pro adjuvantní terapii.

Klíčová slova: rakovinové systémy biologie výpočetní biologie genová exprese profilování genových sítí plicní adenokarcinom.

Prohlášení o střetu zájmů

Autoři prohlašují, že nemají žádné protichůdné zájmy.

Obrázky

Obrázek 1. Výsledky mikročipů

Obrázek 1. Výsledky mikročipů

Obrázek 2. Validační experimenty pro zvýšenou…

Obrázek 2. Validační experimenty pro zvýšené a snížené vybrané geny (oranžový diamant), fond Q-PCR…

Obrázek 3. Výpočtová analýza pro zvýšené a…

Obrázek 3. Výpočetní analýza zvýšených a snížených genů

Obrázek 4. Boxové grafy a Kaplan-Meierovy odhady…

Obrázek 4. Boxové grafy a Kaplan-Meierovy odhady přežití bez onemocnění (DFS) pro nezávislého pacienta…


Objev variant v projektech sekvenování exome

Byly vyvinuty metody NGS, které využívají masivně paralelní sekvenování DNA [4] a umožňují rozsáhlé sekvenační projekty, které mají aplikace od katalogizace genetické rozmanitosti na úrovni populace [3] až po identifikaci varianty způsobující onemocnění u jednoho jedince, což by mohlo vést k cílené terapii [5]. Většina rozsáhlých projektů lékařského sekvenování se dosud zaměřila na oblast genomu kódující protein („exom“). Toto bylo částečně způsobeno náklady (sekvenování celého genomu je stále relativně drahé pro velké velikosti vzorků), biologie (nejznámější příklady variant způsobujících onemocnění mění proteinovou sekvenci) a praktické úvahy (v současné době existuje jen malá shoda ohledně interpretace jiných -kódování genetické variace).

Byly vyvinuty různé metody pro výběr podskupiny genomu pro sekvenování, ale pro výběr celého lidského exomu jako cíle pro sekvenování byla komerčně použita pouze hybridizace na pevné fázi [6] a hybridizace na kapalné fázi [7]. Po obohacení cíle se sekvenování provádí pomocí různých technologií NGS, včetně reverzibilních terminačních reakcí, sekvenování ligací, pyrosekvenování a sekvenování v reálném čase [8]. Ty generují miliony kopií nebo čtení krátkých sekvencí, na sebe navrstvených přes části cíleného referenčního genomu. Přestože bylo vyvinuto mnoho algoritmů pro sladění čtení NGS s referenčním genomem (Bowtie, Short Oligonucleotide Analysis Package (SOAP) a Blat-like Fast Accurate Search Tool (BFAST), mimo jiné [9]), většina sekvenčních projektů používá mapování a sestavování s Qualities (MAQ) [10] nebo Burroughs-Wheeler Aligner (BWA) [11] kvůli výpočetní efektivitě a kompatibilitě s více platformami. Výsledná seřazená sekvence je poté zkontrolována na pozice, které se liší od lidské referenční sekvence a jsou identifikovány jako SNP.

Stejně jako u nástrojů pro zarovnání bylo vyvinuto mnoho algoritmů pro identifikaci vysoce kvalitních sad variant v projektech NGS. Většina současných nástrojů zjišťování SNP se spoléhá na výpočet pravděpodobnosti genotypu v každé poloze [10], definovanou jako pravděpodobnost pozorování daných sekvenčních dat (volání základny a skóre kvality základny) v dané poloze s ohledem na sadu podkladových genotypů. Pro každý potenciální genotyp pak lze vypočítat Bayesovské pozdější pravděpodobnosti [12]. Dva oblíbené nástroje pro zjišťování SNP v datech NGS, které lze snadno začlenit do potrubí pro zpracování dat, jsou SAMtools [13] a Genome Analysis Toolkit UnifiedGenotyper [14, 15]. Byly vyvinuty další nástroje pro využití aspektů konkrétních typů technologií NGS (optimalizace odhadů kvality základny například z pyrosekvencí) [16–18] nebo sekvenční data s nízkým pokrytím [18, 19].

Použitím vhodného nástroje lze identifikovat sadu pozic v sekvenčních datech, které se liší od referenční sekvence, spolu s indikací kvality genotypu. Typicky je objeveno 15 000 až 20 000 variant na exom, přičemž variace v tomto počtu nastává z různých definic cílových exomů [20–23] (u cílové sady s menším počtem genů nebo exonů by se očekávalo méně celkových variant) a původu (jednotlivci Například africký původ má více variant na exom než jednotlivci evropského původu [3], například). Naproti tomu asi 3 miliony SNP na genom jsou objeveny pomocí sekvenování celého genomu [24] kvůli většímu sekvenčnímu cíli (sekvenování celého genomu cílí asi na 3 Gb, zatímco typický exomový cíl je asi 33 Mb). Aby se usnadnilo zpracování a sdílení těchto velkých datových souborů, formát textového souboru VCF (Variant Call Format) [3] se stává uznávaným formátem pro variace sekvencí hlášení z projektů NGS a formát souboru SAM/BAM se běžně používá pro ukládání a sdílení nezpracovaných dat NGS [13].

Výzvy pro objevování variant v projektech sekvenování exome

Protože i jedna změna páru bází může být spojena s nemocí, algoritmy zjišťování SNP musí robustně rozlišovat skutečné variace od chyb sekvenování. Tato výzva se zvětšuje v exome sekvenčních projektech, ve kterých je často cílem objevování vzácných variant. NGS má ve své podstatě vyšší chybovost na bázi než Sangerovo sekvenování [25], ale obecně se má za to, že tyto chyby kompenzuje mnohem vyšším pokrytím (většina experimentů NGS pro asociaci nemocí vytváří v průměru více než 20- až 30násobné pokrytí ). Přes tento stupeň pokrytí však může vyšší chybovost NGS zavést falešně pozitivní asociace, pokud mají případy a kontroly rozdílné hloubky pokrytí [26]. V rozsáhlých sekvenčních projektech zaměřených na objevování vzácných variant spojených s komplexním onemocněním by mělo být diferenciální pokrytí mezi případy a kontrolami jednou z metrik kontroly kvality (potenciálně mnoha), nicméně standardizovaný přístup ke kontrole kvality údajů NGS dosud nevznikl.


Identifikace a funkční analýza genových regulačních sekvencí v interakci s potlačovači kolorektálního nádoru

Několik nádorových supresorů má genovou regulační aktivitu. Zde popisujeme, jak mohou být testy promotoru a promotoru/zesilovače reportéru použity k charakterizaci genové regulační aktivity možných cílových genů proteinů supresorových proteinů kolorektálního tumoru. V první části je představen bioinformatický přístup k identifikaci příslušných genových regulačních oblastí potenciálních cílových genů. Ve druhé části je ukázáno, jak připravit a provést funkční test. Vysvětlíme, jak klonovat bioinformaticky identifikované genové regulační oblasti do plazmidů reportérů luciferázy pomocí rychlé a účinné metody klonování In-Fusion a jak provádět přechodné transfekce buněk rakoviny tlustého střeva Caco-2 s produkovanými luciferázovými reportérovými plazmidy pomocí polyethyleniminu (PEI). Je předložen plán popisující, jak nastavit a provádět test exprese luciferázy. Prezentovaný test luciferázy/p-galaktosidázy (Dual Light) je vysoce citlivý test, který může monitorovat malé změny v aktivitě promotoru/zesilovače a zahrnuje účinnost vnitřní transfekce monitorující transfekci.

Klíčová slova: CDX2 Enhancer GPA33 Luciferase Promoter Promotér reportérový test Transakční faktor transkripce.


Diskuse

Ačkoli je sekvence lidského genomu k dispozici již značnou dobu, naše schopnost mapovat oblasti, které kontrolují genovou expresi, je stále omezená. Zdá se, že se situace zlepšuje jako funkce menší velikosti genomu. Opravdu, v Drosophila v rané segmentační síti lze CRM předpovědět na základě známých příkladů [10, 11]. V kvásku Saccharomyces cerevisiae, s mnohem menším genomem je možné jít ještě o krok dále a předpovídat expresi genů pouze na základě upstream sekvencí [36]. Zde se zaměřujeme na výpočetní detekci CRM v lidském genomu, a proto tato práce přispívá k překlenutí této mezery.

ModuleMiner detekuje CRM tím, že jako vstup bere sadu koexprimovaných genů za předpokladu, že jejich podmnožina je regulována společně, a hledá opakující se vzor (výpočetně predikovaných) TFBS. Výhodou tohoto přístupu je, že nevyžaduje známé příklady a že umožňuje predikci pravděpodobné funkce pro detekované CRM.

ModuleMiner má podobný rozsah jako ModuleSearcher [20, 29] a CREME [19]. Liší se od těchto předchozích přístupů v tom, že ModuleMiner maximalizuje specificitu pro daný soubor koexprimovaných genů provedením optimalizace celého genomu. ModuleMiner skutečně optimalizuje kombinované pořadí daného souboru genů v žebříčku kompletního genomu. Tento přístup navíc umožňuje srovnání mezi TRM s různými parametry (například maximální délkou CRM a počtem PWM v TRM). ModuleMiner proto může optimalizovat tyto parametry, a proto náš přístup účinně eliminuje potřebu parametrů požadovaných předchozími přístupy.

Byly vyvinuty další algoritmy, jejichž cílem je detekovat podobné CRM v sadě společně exprimovaných genů, které (na rozdíl od výše popsaných přístupů) nepoužívají knihovnu PWM [21, 22, 30, 37]. Místo toho, a kromě optimalizace kombinace motivů, tyto algoritmy optimalizují samotné motivy. Tyto metody se proto pokoušejí vyřešit problém s podstatně větší složitostí, což má za následek nižší výkon, jak potvrzuje naše srovnání na srovnávacích datech. Vzhledem k extrémně špatnému výkonu metod detekce motivů u jiných organismů než kvasinek [38] jsme se rozhodli obejít optimalizaci motivu pomocí experimentálně určených PWM. Všimněte si, že toto rozhodnutí nemusí nutně omezit vyhledávání na známé PWM, protože jsou k dispozici také knihovny výpočetně predikovaných PWM (například knihovna PWM fylofaktů [39]). Kromě toho se domníváme, že se vznikem technologie mikročipů vázajících proteiny [40] budou brzy k dispozici vysoce kvalitní PWM pro velkou část repertoáru lidského transkripčního faktoru. I když aktuálně dostupné knihovny experimentálních PWM vykazují vysokou redundanci a mohou obsahovat nízko kvalitní PWM, náš nový přístup klastrování podobných TRM dokáže seskupit nadbytečné PWM a naše validace ukazují, že v mnoha případech může kombinace pěti experimentálních PWM dostatečně zachytit informace o CRM za účelem získání přijatelných úrovní specificity pro celý genom.

ModuleMiner vydává předpovídané CRM a TRGM. Tento TRGM lze považovat za pytel PWM (vybraných z TRANSFAC a JASPAR) s hmotností spojenou s každým PWM. Tento TRGM proto nejen předpovídá transkripční faktory, které fungují ve studovaném procesu, ale také umožňuje posouzení relativní důležitosti každého z těchto transkripčních faktorů.

TRGM neobsahují prostorové vztahy mezi TFBS (s výjimkou celkové velikosti CRM a logického parametru udávajícího, zda se mohou různá vazebná místa překrývat). Ačkoli je známo, že existují určité prostorové vztahy mezi transkripčními faktory pracujícími ve shodě (například [41, 42]), nenašli jsme žádné zprávy, které by naznačovaly, že jde spíše o pravidlo než o výjimku. Proto jsme usoudili, že žádné takové vztahy by neměly být pevně zakódovány do TRGM, ale spíše by se staly zjevnými inspekcí predikovaných CRM. Po inspekci předpokládaných CRM uvedených výše nevznikly na povrch žádné takové prostorové vztahy.

Naše metoda pro vyhodnocování sekvence pomocí TRM nebo TRGM (viz materiály a metody níže) nebere v úvahu homotypické shlukování TFBS (jako to dělají skryté metody založené na Markovově modelu [15, 17, 43]). Tuto kooperativní vazbu jednoho transkripčního faktoru lze nicméně v našem rámci modelovat konstrukcí TRM nebo TRGM, který obsahuje více instancí stejného PWM. Pokud jsou tedy pro regulaci sady společně regulovaných genů důležité více instancí specifického transkripčního faktoru, pak je to v optimálním modelu odpovídajícím způsobem zastoupeno. Například při aplikaci ModuleMiner na těsně koexprimovanou sadu markerů hladkých svalů se transkripční faktor SRF vyskytuje dvakrát nebo třikrát v každém z TRM ve výsledném TRGM, což naznačuje rozsáhlou spolupráci mezi vazebnými místy SRF pro transkripci specifickou pro hladké svaly nařízení. Naproti tomu SMAD4, SP1 a ATF3 PWM se vyskytují přesně jednou v 97,5% TRM (SMAD4 a SP1 se vyskytují dvakrát v 1,5%, respektive 1% TRM).

ModuleMiner bere v úvahu sekvenci genomického pozadí dvěma způsoby. Nejprve se v procesu anotování domnělých TFBS používá model pozadí třetího řádu. Za druhé, naše strategie optimalizace vybírá TRM (nebo TRGM), který optimálně odděluje dané geny (sekvence) od všech ostatních genů v genomu. Náš systém tedy koriguje jak vlastnosti lokální sekvence (podle modelu pozadí třetího řádu), tak vlastnosti globálnějších sekvencí (výběrem proti kombinacím TFBS, které se vyskytují nezávisle na daných sekvencích).

Do našeho potrubí jsme zahrnuli všechny CNS až do 10 kb 5 'TSS. Ačkoli je tato volba ze své podstaty libovolná, je motivována následujícími argumenty. Za prvé, sekvence 3 'TSS mohou přenášet translační regulační signály, které zde nechceme modelovat. Za druhé, potenciální regulační sekvence daleko proti proudu může být obtížné přiřadit cílovému genu. Zatřetí, výběr 10 kb 5 'TSS se v naší předchozí studii ukázal jako cenný [20] a ostatní také učinili podobná rozhodnutí [44]. V předchozí studii, ve které byly CRM předpovídány nezaujatým způsobem napříč kompletním lidským genomem [8], bylo ukázáno, že CRM jsou vysoce vyčerpány mezi 10 kb a 30 kb 5 'TSS.

Validační rámec, který používáme, kombinující hodnocení celého genomu s LOOCV, by také mohl být užitečný při hodnocení nebo porovnávání hypotéz týkajících se pracovních principů regulace transkripce, a v tomto ohledu může být považován v rozsahu podobný CodeFinder [24]. V této práci jsou implicitně provedeny dva takové testy: CRM pohánějící tkáňově specifický expresní vzorec jsou porovnávány s CRM pohánějícími expresní vzor embryonálního vývoje a porovnáním tří sad domnělých TFBS (například obrázky 1, 3j a 4b) je hodnocen význam zachování vazebného místa a také vliv korekce na rozdíly v TSS mezi člověkem a myší.

Konstrukce vysoce kvalitního souboru společně regulovaných genů zapojených do určitého studovaného procesu není vždy jednoduchá. V tomto ohledu je robustnost vůči šumu v sadě domnělých koexprimovaných genů v algoritmu pro detekci podobných CRM velmi žádoucí. Zjistili jsme, že ModuleMiner je vysoce odolný vůči kvalitě této sady vstupních genů. V našich experimentech s markerovými geny hladkých svalů jsme skutečně pozorovali, že ModuleMiner byl schopen zachytit správný signál, i když je pouze 10 z 50 daných genů skutečně společně regulováno (obrázek 2). Tyto vlastnosti ModuleMiner nás přiměly použít algoritmus na sady genů získané ze shlukování dat microarray. V devíti z deseti klastrů mikročipů se ModuleMiner podařilo najít podobné CRM v podskupině genů. Možná není překvapením, že pro ModuleMiner je pro detekci podobných CRM zapotřebí kritické množství společně regulovaných genů. Tento minimální požadovaný počet společně regulovaných genů je však dostatečně malý, aby nevylučoval použití algoritmu. To je ilustrováno jak našimi výsledky získanými z genů hladkého svalstva (obrázek 2), tak úspěšnou detekcí CRM ve dvou malých genových sadách vývoje srdce (tabulka 3).

Aplikace ModuleMiner na markerové geny hladkého svalstva vedla k CRM s více vazebnými místy pro SRF a s jednoduchými vazebnými místy pro SMAD4, SP1 a ATF3. Bylo ukázáno, že SRF i SP1 hrají roli v regulaci specifické exprese hladkého svalstva [27]. Kromě toho jsou SMAD efektory signální dráhy transformujícího růstového faktoru-β a bylo prokázáno, že fungují ve shodě se SRF k řízení diferenciace buněk hladkého svalstva [45]. ModuleMiner identifikoval transkripční faktory, o nichž je známo, že hrají klíčovou roli i v jiných souběžně exprimovaných genových sadách. Příkladem jsou faktory GATA, NFAT a HAND1 ve vývoji srdce HNF-1 a HNF-4 v genové expresi specifické pro játra PU.1 v genové expresi specifické pro lymfocyty a myogenin, SRF, receptor hormonu štítné žlázy a MEF2 v genové expresi specifické pro srdce .

Uložení ochrany trans-faktoru zachováním motivu mezi lidskými a myšími sekvencemi CNS významně zlepšilo výkonnost ModuleMiner na sadě markerových genů hladkého svalstva. Podobný přístup byl také ukázán pro zlepšení výkonu detekce CRM v Drosophila raná segmentační genová síť [10].Když jsme použili ModuleMiner na klastry mikročipů a sady genů pro embryonální vývoj, v některých případech toto zachování trans-faktoru také zvýšilo výkonnost (klastry mikročipů 6, 7 a 9 a sada buněk neurální lišty), ale v jiných případech ano ne.

Oprava možných rozdílů v TSS u lidí a myší třístupňovým srovnávacím postupem (viz materiály a metody níže) vedla ke zvýšenému výkonu pro většinu klastrů mikročipů, nikoli však pro sady vývojových genů. Tento výrazný rozdíl může souviset s různými umístěními detekovaných CRM v těchto dvou různých systémech.

Pozorovali jsme významný rozdíl v umístěních CRM ModuleMiner, u nichž se předpokládá přímá exprese v dospělých tkáních, a CRM ModuleMiner, u nichž se předpokládá přímá exprese v embryonálním vývoji. CRM řídící tkáňově specifickou expresi jsou vysoce nadměrně zastoupeny v rámci 200 párů bází TSS. Naproti tomu CRM řídící expresi v embryonálním vývoji jsou rovnoměrněji rozloženy v 10 kb sekvencích, které jsme zvažovali, a zdá se, že jsou nedostatečně zastoupeny v rámci 200 párů bází TSS. Tyto výsledky naznačují, že regulaci transkripce tkáňově specifické exprese provádějí hlavně proximální promotory, zatímco regulace transkripční exprese během embryonálního vývoje se zdá být hlavně prováděna distálnějšími zesilovači.

ModuleMiner lze aplikovat na tři koncepčně odlišné úkoly: predikce transkripčních faktorů, které hrají roli v regulaci sady společně regulovaných genů, predikce regulačních oblastí a predikce nových cílových genů TRGM. Je důležité si uvědomit, že přesnost předpovědí se mezi těmito úkoly liší. Přestože přesnou statistiku výkonu lze získat pouze pečlivým experimentálním testováním našich predikcí, které je mimo rozsah této studie, výsledky, které jsme získali v této práci, lze použít k poskytnutí hrubých odhadů prediktivní přesnosti. Když jsme použili ModuleMiner na dva dobře studované srovnávací soubory, získali jsme HNF1, CEBP, HNF3, GATA1, PAX6 a HNF4 pro soubor benchmarků jater a MZF1, PPARγ, SRF, MEF2, transkripční faktor viru Epstein-Barr R, MYF, a MYOD za sadu benchmarků svalů. Porovnáním s literaturou [4, 46] a s knihovnami PWM, které používáme, získáme citlivost 70% (získá se 7/10 známých PWM), specificitu 99,6% (630/633 [játra] a 619/ 621 [sval] pravděpodobně nesprávné PWM jsou odmítnuty) a pozitivní prediktivní síla 62% (8/13 celkových predikovaných PWM je správných). Na tyto hodnoty je třeba při extrapolaci na jiné případy pohlížet s určitými výhradami, protože játra i svaly jsou dobře studované systémy, pro které jsou k dispozici vysoce kvalitní PWM. Nicméně můžeme konstatovat, že ModuleMiner je docela přesný při výběru PWM/transkripčních faktorů, které hrají klíčovou roli při regulaci zkoumaných genů.

Pokud jde o detekci regulačních sekvencí, ModuleMiner byl schopen detekovat 16 z 24 známých zesilovačů svalů/jater, když bylo provedeno celkem 24 předpovědí. To představuje citlivost 67% a pozitivní prediktivní sílu 67%, ačkoli zdůrazňujeme, že tato poslední hodnota je podhodnocena, protože některé z našich předpovědí mohou být zatím neznámými zesilovači. Bez ohledu na určité výhrady k extrapolaci těchto dat docházíme k závěru, že prediktivní přesnost ModuleMiner pro detekci regulačních oblastí (CRM) v blízkosti sady společně regulovaných genů je poměrně vysoká.

Pokud jde o prediktivní přesnost modulu ModuleMiner pro detekci nových cílových genů při použití TRGM, výsledky našeho postupu LOOCV mohou poskytnout určité odhady. Z výsledných ROC křivek je vidět, že pro citlivost 50%je specificita asi 90%a pro citlivost 80%je specificita asi 80%, i když rozdíly mezi různými sadami genů mohou být velké. Obvykle však lze testovat pouze několik desítek nových cílových genů, a proto specificita nemusí být dostatečně vysoká na výběr správných cílů z celého genomu. V naší předchozí studii [23] jsme potvrdili, že prediktivní přesnost nových cílových genů je poměrně nízká, i když jsme ukázali, že je detekovatelně přítomna. Poznamenáváme, že v této studii jsme použili náš předchozí algoritmus ModuleSearcher, který zde měl nižší výkon než ModuleMiner. Výkon ModuleMineru navíc může zvýšit zachování úrovně sítě mezi predikcemi nových cílových genů člověk-myš a krysa-pes. Nakonec výsledky, které jsme získali v TSS distribuci CRM předpovídaných v blízkosti nových cílových genů, jsou v souladu s těmito predikcemi výkonu Obrázky 5e a 5h ukazují podobný trend jako na obrázcích 5d a 5g, ale v menší míře, proto poukazují na značné množství šumu, ale také naznačuje, že signál lze zachytit i při skenování celého genomu.


Automatická identifikace genů ve velkých genomových sekvencích 1

Výpočetní metody pro identifikaci genů v genomových sekvencích mají obvykle dvě fáze: rozpoznávání kódujících oblastí a analýzu genů. I když existuje řada účinných metod pro rozpoznávání kódujících oblastí (exonů), rozbor rozpoznaných exonů na správné genové struktury zůstává do značné míry nevyřešeným problémem. Vyvinuli jsme počítačový program, který dokáže automaticky analyzovat rozpoznané exony na genové modely, které jsou nejvíce v souladu s dostupnými značkami expresní sekvence (EST) a sadou biologických heuristik, odvozených empiricky. Algoritmus modelování genů použitý v tomto programu poskytuje obecný rámec pro aplikaci informací EST, takže se zvyšuje přesnost modelování, protože se zvyšuje množství dostupných informací EST. Na základě předběžných testů na řadě velkých sekvencí DNA, pomocí databáze dbEST, jsme zjistili, že algoritmus může (1) přesně modelovat komplikované struktury více genů, včetně vložených genů, (2) identifikovat falešně rozpoznané exony a lokalizovat chybějící exony počáteční fází rozpoznávání exonů a (3) provést přesnější předpovědi hranic exonů, pokud jsou k dispozici potřebné informace EST. Tento algoritmus modelování genů založený na EST jsme rozšířili o modelování genů na nedokončených DNA kontigech na konci sekvenování brokovnice. Tato rozšířená verze může před fází modelování genu automaticky určit orientace a relativní pořadí DNA kontigů (s mezerami mezi nimi) pomocí dostupných EST jako referenčních modelů.

Klíčová slova: predikce vícenásobné genové struktury, exprimované sekvenční značky, porovnání a analýza sekvence, rozpoznávání vzorů a dynamické programování.


Dostupnost dat

Kompletní sada dat je k dispozici na https://github.com/francescodc87/Modules-explorer spolu s Lesklý-webová aplikace na bázi 70, která poskytuje uživatelům jednoduché grafické rozhraní k prozkoumání datové sady obsahující všechny detekované moduly. Podrobná dokumentace je k dispozici na stránkách github. Veškerý doplňkový materiál uvedený v rukopise lze navíc nalézt také na adrese https://github.com/francescodc87/Modules_Detection/tree/master/Supplemetary_Files.


Diskuse

Cílem této studie je extrakce relevantních biomarkerů genů pro rakovinu prostřednictvím inovativní integrace sítí koexprese více genů, jak je navrženo v části „Budování sítí genové koexprese“, a fúze sítí normálních a rakovinných stavů, popsané v části „Síťová fúze pro extrakci genů“. Abychom to mohli udělat, vypočítáme euklidovskou vzdálenost a Pearsonovu korelační podobnost mezi expresními profily každého páru genů pro normální a rakovinové datové soubory každého uvažovaného typu rakoviny. Poté se normalizované matice přilehlosti euklidovské vzdálenosti a Pearsonovy korelační koexpresní sítě normalizují a sečtou, aby pro každou podmínku získala integrovanou síť, která představuje všechny relevantní charakteristiky zdůrazněné těmito dvěma opatřeními. Konečné sítě specifické pro rakovinu jsou získány fúzí dvou sítí specifických pro podmínky s algoritmem SNF.

IC geny extrahované z každé fúzované sítě jsou z hlediska typu rakoviny velmi zajímavé. Poskytují velmi dobré klasifikace vzorků normálního/rakovinového vzorku, dokonce lepší než ty, které poskytují geny biomarkerů rakoviny identifikované klasickou diferenciální expresní analýzou, jak je uvedeno na obr. 3. Srovnání také ukazují, že integrace více koexpresních sítí překonává jednotlivé -koexpresní analýza typu. IC geny vykazují zajímavé výsledky také z hlediska analýzy přežití: 44 všech IC genů je významně spojeno s pravděpodobností události přežití, což je relevantně vyšší počet než 6 diferenciálně exprimovaných genů významně spojených s přežitím. Navíc multivariační Coxův model proporcionálních rizik významných IC genů pro každý typ rakoviny poskytuje lepší statistiku shody, tj. Lepší přizpůsobení, než model vytvořený pomocí diferenciálně exprimovaných genů jako proměnných. Trojnásobné hodnocení založené na znalostech nakonec ukázalo, že IC geny mohou být potenciálně cennými biomarkery rakoviny, případně použitelnými pro léčbu drogami, významně obohacenými o hlavní cesty onemocnění a zahrnující několik genů, o nichž je známo, že jsou zajímavé pro konkrétní rakovinu typ.

IC geny, které mohou být novými rakovinovými biomarkery, jsou ty, které nejsou asociovány s typem rakoviny v PubMed a které jsou akční (tj. Existují léky, které je mohou cílit). Zejména u nemoci KIRC, MT-CYB, NDUFV3, PARP3, a TOP1MT genové produkty jsou v DrugBank označeny jako akční a mohou hrát důležitou roli v regulaci signální dráhy MAPK a následně v buněčné proliferaci. Ve skutečnosti jsou všechny tyto genové produkty nepřímo spojeny s KRAS nebo HRAS (dva z hlavních genů patřících do signální dráhy MAPK) prostřednictvím jiného proteinu (jak uvádí BioGRID - https://thebiogrid.org). Navíc, hsa-mir-7, hsa-mir-29c, hsa-mir-125a, hsa-mir-296, hsa-mir-361, hsa-mir-424, hsa-mir-495, a hsa-mir-503 jsou zajímavé miRNA, protože regulují dva základní geny signální dráhy VEGF. Taky, hsa-mir-23b a hsa-mir-375 regulovat geny v TCF-β signální dráha, další zásadní cesta v KIRC, a hsa-let-7b, hsa-let-7f, a hsa-mir-146b může cílit PDGFB, což je známý onkogen 24. PubMed však neobsahuje důkazy o zapojení těchto genů do nemoci KIRC, takže jsou podle našich zjištění dobrými kandidátními biomarkery pro experimentální výzkum.

Pro onemocnění LIHC jsme našli 13 akčních IC genů, které pro toto onemocnění ještě nebyly studovány. Mezi nimi je FGB gen kóduje beta složku fibrinogenu, glykoprotein, který reguluje adhezi a šíření buněk. Je zajímavé, že podle BioGRID, FGB genový produkt přímo interaguje s PI3K rodina enzymů, která má důležitou roli v dráze přežití buněk LIHC. Navíc, ABAT, ETFDH, F7, QPRT, a RAMP1 genové produkty jsou drogovatelné a všechny nepřímo interagují s PI3K rodina enzymů prostřednictvím jiného proteinu, takže hlubší zkoumání jejich interakcí by mohlo poskytnout důležité poznatky o onemocnění LIHC. Existují také IC miRNA, které literatura opomíjí kvůli jejich asociaci s onemocněním LIHC, které se zaměřují na rodinu enzymů PI3K, jako je např. hsa-mir-10b, hsa-mir-30a, hsa-mir-93, hsa-mir-126, hsa-mir-143, a hsa-mir-375.

Akčních genů PRAD IC, jejichž účast na onemocnění PRAD není dosud anotována, je 24. Mezi nimi je ACAA1, GART, PDE9A, RPL3, TUBA1A, a TUBG1 genové produkty interagují s několika proteiny, o nichž je známo, že jsou zapojeny do dráhy PRAD a jsou zvláště důležité pro inhibici apoptózy a růst nádoru. Mohli by tedy být možnými biomarkery PRAD. Kromě toho existuje několik IC miRNA, které ještě nebyly studovány pro PRAD, které se zaměřují na klíčové geny zapojené do dráhy PRAD a které mohou také ovlivnit metabolický proces onemocnění, kterým jsou hsa-let-7b, hsa-mir-23b, hsa-mir-26a, hsa-mir-26b, hsa-mir-30a, hsa-mir-101, hsa-mir-193b, a hsa-mir-199a.

Všechny zmíněné IC geny se zdají být specifické pro typ rakoviny, tj. Jsou jedinečně extrahovány z jediné sítě specifické pro typ rakoviny. Nicméně mezi všemi sadami genů IC existují tři běžné miRNA, které stojí za zmínku kvůli jejich vlastnostem souvisejícím s rakovinou: hsa-let-7b, hsa-mir-23b a hsa-mir-375.

Všechna tato zjištění dokazují důležitost používání koexpresních sítí a relevanci integrace různých opatření podobnosti, která jsme vyvinuli. Umožňují jemnější identifikaci genů (IC), které díky svým vztahům v budovaných fúzních koexpresních sítích poskytují lepší klasifikaci normálního/rakovinového vzorku než geny DE, které se k tomuto úkolu běžně používají.

Kromě toho lze náš kanál snadno rozšířit například zvážením podpisů mutací. Podobnosti mezi vzorky mutací lze kombinovat společně s koexpresními sítěmi pomocí metody SNF. Tímto způsobem by fúzované sítě mohly identifikovat IC geny, jejichž profily exprese a podpisy mutací jsou buď velmi podobné, nebo velmi odlišné mezi normálním a rakovinným stavem.


Obsah

V empirických systémech pro vyhledávání genů (na základě podobnosti, homologie nebo na důkazech) se cílový genom hledá sekvence, které jsou podobné vnějším důkazům ve formě známých exprimovaných sekvenčních značek, messengerové RNA (mRNA), proteinových produktů a homologních nebo ortologické sekvence. Vzhledem k sekvenci mRNA je triviální odvodit jedinečnou sekvenci genomové DNA, ze které musela být přepsána. Vzhledem k proteinové sekvenci lze rodinu možných kódujících sekvencí DNA odvodit reverzní translací genetického kódu. Jakmile jsou určeny kandidátské sekvence DNA, je poměrně přímočarý algoritmický problém efektivně vyhledávat v cílovém genomu shody, úplné nebo částečné, přesné a nepřesné. Vzhledem k sekvenci vyhledávají místní algoritmy zarovnání, jako jsou BLAST, FASTA a Smith-Waterman, oblasti podobnosti mezi cílovou sekvencí a možnými shodami kandidátů. Zápasy mohou být úplné nebo částečné a přesné nebo nepřesné. Úspěch tohoto přístupu je omezen obsahem a přesností sekvenční databáze.

Vysoký stupeň podobnosti se známou messengerovou RNA nebo proteinovým produktem je silným důkazem, že oblast cílového genomu je gen kódující protein. Systémová aplikace tohoto přístupu však vyžaduje rozsáhlé sekvenování mRNA a proteinových produktů. Nejenže je to drahé, ale v komplexních organismech je v daném okamžiku exprimována pouze podmnožina všech genů v genomu organismu, což znamená, že vnější důkaz pro mnoho genů není snadno dostupný v žádné jednotlivé buněčné kultuře. Shromáždit vnější důkazy pro většinu nebo všechny geny ve složitém organismu vyžaduje studium mnoha stovek nebo tisíců typů buněk, což představuje další potíže. Například některé lidské geny mohou být exprimovány pouze během vývoje jako embrya nebo plodu, což může být z etických důvodů obtížné studovat.

Navzdory těmto obtížím byly vytvořeny rozsáhlé databáze transkriptů a proteinových sekvencí pro člověka i pro jiné důležité modelové organismy v biologii, jako jsou myši a kvasinky. Databáze RefSeq například obsahuje transkript a sekvenci proteinů z mnoha různých druhů a systém Ensembl komplexně mapuje tyto důkazy na lidské a několik dalších genomů. Je však pravděpodobné, že tyto databáze jsou neúplné a obsahují malé, ale významné množství chybných dat.

Nové technologie sekvenování transkriptomů s vysokou propustností, jako je sekvenování RNA-Seq a ChIP, otevírají příležitosti pro začlenění dalších externích důkazů do predikce a validace genů a umožňují strukturálně bohatou a přesnější alternativu k předchozím metodám měření genové exprese, jako je exprimovaný sekvenční tag nebo Mikročip DNA.

Hlavní výzvy spojené s genovou predikcí zahrnují řešení chyb sekvenování v nezpracovaných datech DNA, závislost na kvalitě sestavení sekvence, zpracování krátkých čtení, mutací posunu rámce, překrývajících se genů a neúplných genů.

U prokaryot je nezbytné při hledání homologie genové sekvence zvážit horizontální přenos genů. Dalším důležitým faktorem, který je v současných nástrojích pro detekci genů nedostatečně využíván, je existence genových klastrů - operonů (což jsou funkční jednotky DNA obsahující shluk genů pod kontrolou jediného promotoru) v prokaryotech i eukaryotech. Nejoblíbenější detektory genů zacházejí s každým genem izolovaně, nezávisle na ostatních, což není biologicky přesné.

Genová predikce Ab Initio je vnitřní metoda založená na obsahu genu a detekci signálu. Kvůli inherentním nákladům a obtížnosti získávání vnějšího důkazu pro mnoho genů je také nutné uchýlit se k němu ab initio genový nález, při kterém se v genomové sekvenci DNA systematicky hledají určité sdělovací znaky genů kódujících protein. Tyto příznaky lze široce kategorizovat buď jako signály, specifické sekvence, které indikují přítomnost genu poblíž, popř obsah, statistické vlastnosti samotné sekvence kódující protein. Ab initio nález genu může být přesněji charakterizován jako gen předpověď, protože k definitivnímu zjištění, že domnělý gen je funkční, je obecně zapotřebí vnější důkaz.

V genomech prokaryotů mají geny specifické a relativně dobře srozumitelné promotorové sekvence (signály), jako je přibližný box a vazebná místa pro transkripční faktor, které lze snadno systematicky identifikovat. Sekvence kódující protein se také vyskytuje jako jeden souvislý otevřený čtecí rámec (ORF), který je typicky dlouhý mnoho set nebo tisíc párů bází. Statistiky stop kodonů jsou takové, že i nalezení otevřeného čtecího rámce této délky je poměrně informativní znak. (Protože 3 ze 64 možných kodonů v genetickém kódu jsou stop kodony, dalo by se očekávat stop kodon přibližně každých 20–25 kodonů nebo 60–75 párů bází v náhodné sekvenci.) DNA kódující protein má navíc určité periodičnosti a další statistické vlastnosti, které lze snadno zjistit v sekvenci této délky. Díky těmto vlastnostem je hledání prokaryotických genů relativně jednoduché a dobře navržené systémy jsou schopné dosáhnout vysoké úrovně přesnosti.

Ab initio hledání genů v eukaryotech, zvláště složitých organismech, jako jsou lidé, je podstatně náročnější z několika důvodů. Za prvé, promotor a další regulační signály v těchto genomech jsou složitější a méně dobře srozumitelné než u prokaryot, takže je obtížnější je spolehlivě rozpoznat. Dva klasické příklady signálů identifikovaných vyhledávači eukaryotických genů jsou CpG ostrovy a vazebná místa pro poly (A) ocas.

Za druhé, sestřihové mechanismy používané eukaryotickými buňkami znamenají, že konkrétní sekvence kódující protein v genomu je rozdělena na několik částí (exony), oddělených nekódujícími sekvencemi (introny). (Místa sestřihu jsou sama o sobě dalším signálem, který lze často identifikovat pomocí vyhledávačů eukaryotických genů.) Typický gen kódující protein u lidí lze rozdělit na tucet exonů, z nichž každý má délku necelých dvě stě párů bází a některé jsou kratší než dvacet do třiceti. Je proto mnohem obtížnější detekovat periodicitu a další známé obsahové vlastnosti DNA kódující protein v eukaryotech.

Pokročilé vyhledávače genů pro prokaryotické i eukaryotické genomy obvykle používají komplexní pravděpodobnostní modely, jako jsou skryté Markovovy modely (HMM), ke kombinaci informací z různých různých měření signálu a obsahu. Systém GLIMMER je široce používaný a vysoce přesný vyhledávač genů pro prokaryoty. GeneMark je další populární přístup. Eukaryotická ab initio vyhledávači genů pro srovnání dosáhli jen omezeného úspěchu, pozoruhodnými příklady jsou programy GENSCAN a genidy. Vyhledávač genů SNAP je založen na HMM jako Genscan a pokouší se být přizpůsobivější pro různé organismy a řeší problémy související s používáním vyhledávače genů v sekvenci genomu, proti které nebyl vycvičen. [7] Několik nedávných přístupů, jako je mSplicer, [8] CONTRAST, [9] nebo mGene [10], také pro úspěšnou genovou predikci používají techniky strojového učení, jako jsou podpůrné vektorové stroje. Budují diskriminační model pomocí skrytých Markovových podpůrných vektorových strojů nebo podmíněných náhodných polí, aby se naučili přesnou funkci bodování predikce genů.

Ab Initio metody byly porovnány s některými blížícími se 100% citlivostí [3], nicméně jak citlivost roste, přesnost trpí v důsledku zvýšených falešně pozitivních výsledků.

Další signály Upravit

Mezi odvozené signály používané pro predikci patří statistiky vyplývající ze statistik dílčích sekvencí, jako jsou statistiky k-mer, Isochore (genetika) nebo složení/uniformita/entropie kompoziční domény GC, délka sekvence a rámce, intron/exon/dárce/akceptor/promotor a slovník ribozomálního vazebného místa, fraktální dimenze, Fourierova transformace DNA kódované pseudo číslem, parametry křivky Z a určité rysy běhu. [11]

Bylo navrženo, že signály jiné než přímo detekovatelné v sekvencích mohou zlepšit genovou predikci. Byla například uvedena role sekundární struktury při identifikaci regulačních motivů. [12] Kromě toho bylo navrženo, že predikce sekundární struktury RNA pomáhá predikci sestřihu místa. [13] [14] [15] [16]

Neuronové sítě Upravit

Umělé neurální sítě jsou výpočetní modely, které vynikají ve strojovém učení a rozpoznávání vzorů. Neuronové sítě musí být vyškoleny s ukázkovými daty, než budou moci generalizovat experimentální data, a testovat je na srovnávacích datech. Neuronové sítě jsou schopny navrhnout přibližná řešení problémů, které je těžké vyřešit algoritmicky, za předpokladu, že je k dispozici dostatek tréninkových dat. Když jsou aplikovány na predikci genů, mohou být neuronové sítě použity společně s jinými ab initio metody pro predikci nebo identifikaci biologických vlastností, jako jsou místa sestřihu. [17] Jeden přístup [18] zahrnuje použití posuvného okna, které překrývá sekvenční data překrývajícím se způsobem. Výstupem na každé pozici je skóre na základě toho, zda si síť myslí, že okno obsahuje místo spojování dárce nebo místo spojování akceptoru. Větší okna nabízejí větší přesnost, ale také vyžadují větší výpočetní výkon. Neuronová síť je příkladem signálního senzoru, protože jejím cílem je identifikovat funkční místo v genomu.

Programy jako Maker kombinují vnější a ab initio přístupy mapováním proteinových a EST dat do genomu k ověření ab initio předpovědi. Augustus, který může být použit jako součást potrubí Maker, může také obsahovat rady ve formě zarovnání EST nebo proteinových profilů, aby se zvýšila přesnost genové predikce.

Protože jsou sekvenovány celé genomy mnoha různých druhů, je slibným směrem v současném výzkumu hledání genů srovnávací genomický přístup.

To je založeno na principu, že síly přirozeného výběru způsobují, že geny a další funkční prvky procházejí mutacemi pomaleji než zbytek genomu, protože mutace funkčních prvků pravděpodobněji negativně ovlivní organismus než mutace jinde. Geny lze tedy detekovat porovnáním genomů příbuzných druhů, aby byl detekován tento evoluční tlak na zachování. Tento přístup byl poprvé aplikován na myší a lidský genom pomocí programů jako SLAM, SGP a TWINSCAN/N-SCAN a CONTRAST. [19]

Více informátorů Upravit

TWINSCAN zkoumal pouze syntézu člověka a myši, aby vyhledal ortologické geny. Programy jako N-SCAN a CONTRAST umožnily začlenění zarovnání z více organismů, nebo v případě N-SCAN, jeden alternativní organismus z cíle. Použití více informátorů může vést k významnému zlepšení přesnosti. [19]

CONTRAST se skládá ze dvou prvků. První je menší klasifikátor, identifikující donorová sestřihová místa a akceptorová spojovací místa a také start a stop kodony. Druhý prvek zahrnuje konstrukci úplného modelu pomocí strojového učení. Rozdělení problému na dvě části znamená, že k cílení klasifikátorů lze použít menší cílené datové sady a že tento klasifikátor může fungovat nezávisle a být školen s menšími okny. Plný model může používat nezávislý klasifikátor a nemusí ztrácet výpočetní čas ani složitost modelu překlasifikováním hranic intron-exon. Příspěvek, ve kterém je CONTRAST představen, navrhuje, aby jejich metoda (a metoda TWINSCAN atd.) Byla klasifikována jako de novo shromáždění genů pomocí alternativních genomů a jeho identifikace jako odlišného od ab initio, který používá cílové „informátorské“ genomy. [19]

Srovnávací genový nález lze také použít k promítání vysoce kvalitních anotací z jednoho genomu do druhého. Mezi pozoruhodné příklady patří Projector, GeneWise, GeneMapper a GeMoMa. Takové techniky nyní hrají ústřední roli v anotaci všech genomů.

Pseudogeny jsou blízkými příbuznými genů, sdílejí velmi vysokou sekvenční homologii, ale nejsou schopni kódovat stejný proteinový produkt. I když byly kdysi odsunuty jako vedlejší produkty sekvenování genů, stále častěji se s odhalováním regulačních rolí stávají samy o sobě prediktivními cíli. [20] Predikce pseudogenu využívá stávající metody podobnosti sekvencí a ab initio, přičemž přidává další filtrování a metody identifikace pseudogenních charakteristik.

Metody podobnosti sekvencí lze přizpůsobit pro predikci pseudogenu pomocí dodatečného filtrování k nalezení kandidátních pseudogenů. To by mohlo použít detekci deaktivace, která hledá nesmyslné nebo posunové mutace, které by zkracovaly nebo sbalily jinak funkční kódující sekvenci. [21] Překlad DNA do proteinových sekvencí může být navíc účinnější než jen přímá homologie DNA. [20]

Senzory obsahu lze filtrovat podle rozdílů ve statistických vlastnostech mezi pseudogeny a geny, jako je snížený počet ostrůvků CpG v pseudogenech nebo rozdíly v obsahu GC mezi pseudogeny a jejich sousedy. Signální senzory lze také pilovat na pseudogeny, které hledají nepřítomnost intronů nebo polyadeninových ocasů. [22]

Metagenomika je studium genetického materiálu získaného z prostředí, jehož výsledkem jsou sekvenční informace ze skupiny organismů. Předpovídání genů je užitečné pro srovnávací metagenomiku.

Metagenomické nástroje také spadají do základních kategorií použití buď přístupů sekvenční podobnosti (MEGAN4), a ab initio technik (GLIMMER-MG).

Glimmer-MG [23] je rozšířením GLIMMER, které se při hledání genů spoléhá především na přístup ab initio a pomocí tréninkových sad od příbuzných organismů. Strategie predikce je rozšířena o soubory dat klasifikace a klastrování genů před aplikací metod predikce genu ab initio. Data jsou seskupena podle druhů. Tato klasifikační metoda využívá techniky z metagenomické fylogenetické klasifikace. Příkladem softwaru pro tento účel je Phymm, který používá interpolované modely markov - a PhymmBL, který integruje BLAST do rutin klasifikace.

MEGAN4 [24] používá přístup podobnosti sekvencí, využívá lokální srovnání s databázemi známých sekvencí, ale také se pokouší klasifikovat pomocí dalších informací o funkčních rolích, biologických cestách a enzymech. Stejně jako v predikci genu pro jeden organismus jsou přístupy podobnosti sekvencí omezeny velikostí databáze.

FragGeneScan a MetaGeneAnnotator jsou populární programy pro predikci genů založené na modelu Hidden Markov. Tyto prediktory představují chyby sekvenování, částečné geny a pracují pro krátká čtení.

Dalším rychlým a přesným nástrojem pro predikci genů v metagenomech je MetaGeneMark. [25] Tento nástroj používá DOE Joint Genome Institute k anotaci IMG/M, dosud největší sbírky metagenomů.


Obsah

Fylogenetické stromy generované výpočetní fylogenetikou mohou být buď zakořeněný nebo nekořeněný v závislosti na vstupních datech a použitém algoritmu. Kořenový strom je orientovaný graf, který explicitně identifikuje nejnovějšího společného předka (MRCA), [ Citace je zapotřebí ] obvykle zadaná sekvence, která není na vstupu zastoupena. Měřítka genetické vzdálenosti lze použít k vykreslení stromu se vstupními sekvencemi jako listovými uzly a jejich vzdáleností od kořene úměrně jejich genetické vzdálenosti od hypotetické MRCA. Identifikace kořene obvykle vyžaduje zahrnutí do vstupních dat alespoň jedné "outgroup", o které je známo, že souvisí pouze vzdáleně se sledovanými sekvencemi.

Nekořeněné stromy naopak vykreslují vzdálenosti a vztahy mezi vstupními sekvencemi, aniž by činily předpoklady ohledně jejich sestupu. Nekořenový strom může být vždy vytvořen z kořenového stromu, ale kořen nelze obvykle umístit na nekořenovaný strom bez dalších údajů o míře divergence, jako je předpoklad hypotézy molekulárních hodin. [3]

Množinu všech možných fylogenetických stromů pro danou skupinu vstupních sekvencí lze pojmout jako diskrétně definovaný vícerozměrný „stromový prostor“, přes který lze vyhledávací cesty sledovat pomocí optimalizačních algoritmů. Přestože počítání celkového počtu stromů pro netriviální počet vstupních sekvencí může být komplikováno variacemi v definici topologie stromu, vždy platí, že pro daný počet vstupů a výběr parametrů existuje více rootovaných než nekořenovaných stromů. [4]

Kořenové i nekořenové fylogenetické stromy lze dále zobecnit na kořenové nebo nekořenové fylogenetické sítě, které umožňují modelování evolučních jevů, jako je hybridizace nebo horizontální přenos genů.

Morfologická analýza Upravit

Základním problémem morfologické fylogenetiky je sestavení matice představující mapování z každého taxonu, který je porovnáván s reprezentativními měřeními pro každou z fenotypových charakteristik používaných jako klasifikátor. Typy fenotypových dat použitých ke konstrukci této matrice závisí na porovnávaných taxonech u jednotlivých druhů, mohou zahrnovat měření průměrné velikosti těla, délky nebo velikosti konkrétních kostí nebo jiných fyzických znaků nebo dokonce projevy chování. Samozřejmě, protože ne všechny možné fenotypové charakteristiky mohly být měřeny a kódovány pro analýzu, výběr vlastností, které se mají měřit, je hlavní inherentní překážkou metody. Rozhodnutí o tom, které vlastnosti použít jako základ pro matici, nutně představuje hypotézu o tom, které vlastnosti druhu nebo vyššího taxonu jsou evolučně relevantní. [5] Morfologické studie mohou být zmateny příklady konvergentní evoluce fenotypů. [6] Hlavní výzvou při konstrukci užitečných tříd je vysoká pravděpodobnost překrývání mezi taxony v distribuci variace fenotypu. Zahrnutí vyhynulých taxonů do morfologické analýzy je často obtížné z důvodu absence nebo neúplných fosilních záznamů, ale v jedné studii bylo prokázáno, že má významný vliv na stromy produkované pouze zahrnutím vyhynulých druhů lidoopů vznikl morfologicky odvozený strom, který byl konzistentní s údajem získaným z molekulárních dat. [1]

Některé fenotypové klasifikace, zejména ty, které se používají při analýze velmi různorodých skupin taxonů, jsou například diskrétní a jednoznačné klasifikace organismů, které mají nebo nemají ocas, ve většině případů jednoduché, stejně jako počítání znaků, jako jsou oči nebo obratle. Nejvhodnější reprezentace kontinuálně se měnících fenotypových měření je však kontroverzním problémem bez obecného řešení. Běžnou metodou je jednoduše roztřídit sledovaná měření do dvou nebo více tříd, čímž se průběžné pozorované variace stanou diskrétně klasifikovatelnými (např. Všechny příklady s kostmi humeru delšími než dané mezní hodnoty jsou hodnoceny jako členy jednoho stavu a všichni členové, jejichž pažní kost kosti jsou kratší než cutoff jsou hodnoceny jako členy druhého stavu). Výsledkem je snadno manipulovatelný soubor dat, ale byl kritizován kvůli špatnému vykazování základu pro definice tříd a kvůli obětování informací ve srovnání s metodami, které používají kontinuální váženou distribuci měření. [7]

Protože je shromažďování morfologických dat extrémně pracné, ať už z literárních zdrojů nebo z terénních pozorování, není opětovné použití dříve zkompilovaných datových matic neobvyklé, i když to může šířit nedostatky v původní matici do více derivačních analýz. [8]

Molekulární analýza Upravit

Problém kódování znaků je v molekulárních analýzách velmi odlišný, protože znaky v datech biologických sekvencí jsou bezprostřední a diskrétně definované - odlišné nukleotidy v sekvencích DNA nebo RNA a odlišné aminokyseliny v proteinových sekvencích. Definování homologie však může být náročné kvůli inherentním obtížím zarovnání více sekvencí. Pro danou mezerovou MSA lze zkonstruovat několik zakořeněných fylogenetických stromů, které se liší v interpretaci toho, které změny jsou „mutace“ oproti rodovým znakům a které události jsou inzerční mutace nebo deleční mutace. Vzhledem k tomu, že je pouze párové zarovnání s mezerou oblast, například nelze určit, zda jedna sekvence nese inzerční mutaci nebo druhá nese deleci. Problém je zvětšen v MSA s nevyrovnanými a nepřekrývajícími se mezerami. V praxi mohou být značné oblasti vypočítaného zarovnání ve fylogenetické konstrukci stromů diskontovány, aby se zabránilo integraci hlučných dat do výpočtu stromu.

Metody fylogenetické analýzy pomocí distanční matice výslovně spoléhají na míru „genetické vzdálenosti“ mezi klasifikovanými sekvencemi, a proto vyžadují jako vstup MSA. Vzdálenost je často definována jako zlomek neshod v zarovnaných pozicích, přičemž mezery jsou buď ignorovány, nebo jsou počítány jako neshody. [3] Metody vzdálenosti se pokoušejí sestrojit matici typu vše-vše ze sady dotazů posloupnosti popisující vzdálenost mezi každým párem sekvencí. Z toho je sestrojen fylogenetický strom, který umisťuje blízké příbuzné sekvence pod stejný vnitřní uzel a jehož délky větví úzce reprodukují pozorované vzdálenosti mezi sekvencemi. Metody distanční matice mohou vytvářet kořenové nebo nekořenové stromy v závislosti na algoritmu použitém k jejich výpočtu. Často se používají jako základ pro progresivní a iterativní typy zarovnání více sekvencí. Hlavní nevýhodou metod matice vzdálenosti je jejich neschopnost efektivně využívat informace o místních regionech s vysokými variacemi, které se objevují ve více podstromech. [4]

Úpravy UPGMA a WPGMA

UPGMA (Metoda nevážené párové skupiny s aritmetickým průměrem) a WPGMA (Metoda vážené párové skupiny s aritmetickým průměrem) metody produkují rootované stromy a vyžadují předpoklad konstantní rychlosti - to znamená, že předpokládá ultrametrický strom, ve kterém jsou vzdálenosti od kořene ke každému hrotu větve stejné. [9]

Sousední úpravy

Metody spojování sousedů používají obecné techniky klastrové analýzy na sekvenční analýzu pomocí genetické vzdálenosti jako metriky shlukování. Jednoduchá metoda spojování sousedů vytváří nekořeněné stromy, ale nepředpokládá konstantní rychlost evoluce (tj. Molekulární hodiny) napříč liniemi. [10]

Metoda Fitch – Margoliash Upravit

Metoda Fitch – Margoliash používá pro klastrování metodu vážených nejmenších čtverců na základě genetické vzdálenosti. [11] Těsně příbuzným sekvencím je v procesu stavby stromu přikládána větší váha, aby byla korigována zvýšená nepřesnost v měření vzdáleností mezi vzdáleně příbuznými sekvencemi. Vzdálenosti použité jako vstup do algoritmu musí být normalizovány, aby se zabránilo velkým artefaktům ve výpočetních vztazích mezi blízce příbuznými a vzdáleně příbuznými skupinami. Vzdálenosti vypočítané touto metodou musí být lineární, kritérium linearity pro vzdálenosti vyžaduje, aby se očekávané hodnoty délek větví pro dvě jednotlivé větve rovnaly očekávané hodnotě součtu dvou vzdáleností větví - vlastnost, která platí pro biologické sekvence pouze tehdy, když byly korigovány na možnost zpětných mutací na jednotlivých místech. Tato korekce se provádí pomocí substituční matice, jako je ta odvozená z Jukes-Cantorova modelu evoluce DNA. Korekce vzdálenosti je v praxi nezbytná pouze tehdy, když se rychlost vývoje liší mezi větvemi. [4] Další modifikace algoritmu může být nápomocná, zejména v případě koncentrovaných vzdáleností (nahlaste je, prosím, do koncentrace měřeného jevu a kletby dimenzionality): tato modifikace popsaná v [12] byla prokázána za účelem zlepšení účinnosti algoritmus a jeho robustnost.

Kritérium nejmenších čtverců aplikované na tyto vzdálenosti je přesnější, ale méně účinné než metody spojování sousedů. Další vylepšení, které koriguje korelace mezi vzdálenostmi, které vyplývají z mnoha úzce souvisejících sekvencí v datové sadě, lze také použít za zvýšené výpočetní náklady. Nalezení optimálního stromu nejmenších čtverců s jakýmkoli korekčním faktorem je NP-úplné, [13] takže při vyhledávání ve stromovém prostoru jsou aplikovány heuristické metody vyhledávání, jako jsou metody používané v analýze maximální šetrnosti.

Pomocí skupin Upravit

Nezávislé informace o vztahu mezi sekvencemi nebo skupinami lze použít ke zmenšení prostoru pro vyhledávání stromů a rootování nekořenových stromů. Standardní použití metod distanční matice zahrnuje zahrnutí alespoň jedné sekvence skupiny, o které je známo, že souvisí pouze vzdáleně se sekvencemi zájmu v sadě dotazů. [3] Toto použití lze považovat za typ experimentální kontroly. Pokud byla vhodně zvolena outgroup, bude mít mnohem větší genetickou vzdálenost a tedy delší délku větve než kterákoli jiná sekvence, a objeví se poblíž kořene kořenového stromu.Volba vhodné outgroup vyžaduje výběr sekvence, která je mírně příbuzná se sledovanými sekvencemi. Příliš blízký vztah narušuje účel outgroup a příliš vzdálený přidává analýze šum. [3] Je také třeba se vyvarovat situací, ve kterých jsou druhy, ze kterých byly sekvence odebrány, vzdáleně příbuzné, ale gen kódovaný sekvencemi je vysoce konzervovaný napříč liniemi. Horizontální přenos genů, zejména mezi jinak odlišnými bakteriemi, může také zmást využití skupiny.

Maximum parsimony (MP) je metoda identifikace potenciálního fylogenetického stromu, která vyžaduje nejmenší celkový počet evolučních událostí k vysvětlení pozorovaných sekvenčních dat. Některé způsoby hodnocení stromů také zahrnují „náklady“ spojené s konkrétními typy evolučních událostí a pokus najít strom s nejnižšími celkovými náklady. Toto je užitečný přístup v případech, kdy ne každý možný typ události je stejně pravděpodobný - například když je známo, že konkrétní nukleotidy nebo aminokyseliny jsou více proměnlivé než ostatní.

Nejnaivnější způsob identifikace nejšetrnějšího stromu je jednoduchý výčet - zvažování každého možného stromu za sebou a hledání stromu s nejmenším skóre. To je však možné pouze u relativně malého počtu sekvencí nebo druhů, protože je známo, že problém identifikace nejšetrnějšího stromu je NP-tvrdý [4], a proto byla vyvinuta řada heuristických vyhledávacích metod pro optimalizaci k nalezení vysoce šetrný strom, ne -li nejlepší v sadě. Většina takových metod zahrnuje nejstrmější mechanismus minimalizace ve stylu sestupu, který funguje na základě kritéria přeskupení stromu.

Pobočka a svázané Úpravy

Algoritmus větvení a vázání je obecnou metodou používanou ke zvýšení efektivity hledání téměř optimálních řešení NP-tvrdých problémů, poprvé aplikovaných na fylogenetiku na začátku 80. let minulého století. [14] Větev a vazba je zvláště vhodná pro fylogenetickou stavbu stromů, protože ze své podstaty vyžaduje rozdělení problému na stromovou strukturu, protože problémový prostor rozděluje na menší oblasti. Jak naznačuje jeho název, vyžaduje jako vstup pravidlo větvení (v případě fylogenetiky přidání dalšího druhu nebo sekvence do stromu) i mez (pravidlo, které vylučuje z úvahy určité oblasti vyhledávacího prostoru, a tím za předpokladu, že optimální řešení nemůže obsadit tuto oblast). Identifikace dobré vazby je nejnáročnějším aspektem aplikace algoritmu na fylogenetiku. Jednoduchý způsob definování hranice je maximální počet předpokládaných evolučních změn povolených na strom. Soubor kritérií známých jako Zharkikhova pravidla [15] výrazně omezuje vyhledávací prostor definováním charakteristik sdílených všemi kandidátskými „nejšetrnějšími“ stromy. Tato dvě nejzákladnější pravidla vyžadují odstranění všech nadbytečných sekvencí kromě jedné (pro případy, kdy více pozorování přineslo identická data) a odstranění míst charakteru, ve kterých se nevyskytují dva nebo více stavů alespoň u dvou druhů. Za ideálních podmínek by tato pravidla a jejich přidružený algoritmus zcela definovaly strom.

Alkohol Sankoff-Morel-Cedergren Upravit

Algoritmus Sankoff-Morel-Cedergren byl jedním z prvních publikovaných způsobů současné produkce MSA a fylogenetického stromu pro nukleotidové sekvence. [16] Metoda využívá výpočet maximální šetrnosti ve spojení s bodovací funkcí, která penalizuje mezery a nesoulady, čímž zvýhodňuje strom, který zavádí minimální počet takových událostí (alternativní pohled říká, že stromy, které mají být upřednostňovány, jsou ty, které maximalizují množství podobnosti sekvence, které lze interpretovat jako homologii, úhel pohledu, který může vést k různým optimálním stromům [17]). Imputované sekvence ve vnitřních uzlech stromu jsou hodnoceny a sečteny přes všechny uzly v každém možném stromu. Součet stromů s nejnižším skóre poskytuje jak optimální strom, tak optimální MSA vzhledem k funkci bodování. Protože je metoda velmi výpočetně náročná, přibližná metoda, ve které se počáteční odhady vnitřních zarovnání upřesňují po jednom uzlu. Plná i přibližná verze jsou v praxi počítány dynamickým programováním. [4]

MALIGN a POY Upravit

Novější metody fylogenetických stromů/MSA používají heuristiku k izolaci stromů s vysokým skóre, ale ne nutně optimální. Metoda MALIGN používá techniku ​​maximální šetrnosti k výpočtu vícenásobného zarovnání maximalizací skóre cladogramu a její doprovodná POY používá iterační metodu, která spojuje optimalizaci fylogenetického stromu se zlepšením v odpovídající MSA. [18] Použití těchto metod při konstrukci evolučních hypotéz však bylo kritizováno jako zkreslené kvůli záměrné konstrukci stromů odrážejících minimální evoluční události. [19] Tomu naopak brání názor, že takové metody by měly být chápány jako heuristické přístupy k nalezení stromů, které maximalizují množství podobnosti sekvencí, které lze interpretovat jako homologii. [17] [20]

Metoda maximální pravděpodobnosti používá standardní statistické techniky pro odvození rozdělení pravděpodobnosti k přiřazení pravděpodobností konkrétním možným fylogenetickým stromům. Metoda vyžaduje substituční model pro odhad pravděpodobnosti konkrétních mutací zhruba, strom, který vyžaduje více mutací ve vnitřních uzlech k vysvětlení pozorované fylogeneze, bude posouzen jako s nižší pravděpodobností. To je v zásadě podobné metodě maximální šetrnosti, ale maximální pravděpodobnost umožňuje dodatečnou statistickou flexibilitu tím, že umožňuje různé rychlosti vývoje napříč liniemi i lokalitami. Ve skutečnosti tato metoda vyžaduje, aby evoluce na různých místech a podél různých linií byla statisticky nezávislá. Maximální pravděpodobnost je tedy vhodná pro analýzu vzdáleně souvisejících sekvencí, ale věří se, že je výpočetně neřešitelná pro výpočet díky její NP tvrdosti. [21]

Algoritmus „prořezávání“, varianta dynamického programování, se často používá ke zmenšení prostoru vyhledávání efektivním výpočtem pravděpodobnosti podstromů. [4] Metoda vypočítává pravděpodobnost pro každé místo „lineárně“, počínaje uzlem, jehož jedinými potomky jsou listy (tj. Špičky stromu) a pracuje zpět směrem k uzlu „dole“ ve vnořených sadách. Stromy produkované touto metodou jsou však zakořeněny pouze v případě, že je substituční model nevratný, což u biologických systémů obecně neplatí. Hledání stromu maximální pravděpodobnosti také zahrnuje komponentu pro optimalizaci délky větve, kterou je obtížné zlepšit na základě algoritmicky obecných globálních optimalizačních nástrojů, jako je například metoda Newton – Raphson.

Některé nástroje, které využívají maximální pravděpodobnost k odvození fylogenetických stromů z variantních dat alelické frekvence (VAF), zahrnují AncesTree a CITUP. [22] [23]

Bayesovskou inferenci lze použít k produkci fylogenetických stromů způsobem, který úzce souvisí s metodami maximální pravděpodobnosti. Bayesovské metody předpokládají předchozí rozdělení pravděpodobnosti možných stromů, což může být jednoduše pravděpodobnost jakéhokoli jednoho stromu mezi všemi možnými stromy, které by mohly být generovány z dat, nebo může jít o sofistikovanější odhad odvozený z předpokladu, že divergenční události jako protože ke spekulaci dochází jako ke stochastickým procesům. Volba předchozí distribuce je bodem sporu mezi uživateli Bayesian-inference fylogenetických metod. [4]

Implementace bayesovských metod obecně používají vzorkovací algoritmy Markovského řetězce Monte Carlo, i když výběr sady tahů se různě liší v bajesovské fylogenetice výběrem mezi kruhově permutujícími listovými uzly navrhovaného stromu v každém kroku [24] a záměnou potomků náhodných vnitřních uzlů mezi dva příbuzné stromy. [25] Použití bayesovských metod ve fylogenetice je kontroverzní, a to především kvůli neúplné specifikaci volby sady tahů, kritéria přijetí a předchozí distribuce v publikované práci. [4] Bayesovské metody jsou obecně považovány za nadřazené metodám založeným na šetrnosti, mohou být náchylnější k přitažlivosti s dlouhými větvemi než techniky maximální pravděpodobnosti [26], i když jsou schopny lépe pojmout chybějící data. [27]

Zatímco metody pravděpodobnosti nacházejí strom, který maximalizuje pravděpodobnost dat, Bayesovský přístup obnovuje strom, který představuje nejpravděpodobnější klady, kreslením na pozdější distribuci. Odhady pozdější pravděpodobnosti kladů (měření jejich „podpory“) však mohou být poměrně široké, zvláště u kladů, které nejsou v drtivé většině pravděpodobné. Jako takové byly postoupeny další metody pro odhad pozdější pravděpodobnosti. [28]

Některé nástroje, které používají Bayesovskou inferenci k odvozování fylogenetických stromů z variantních dat alelické frekvence (VAF), zahrnují Canopy, EXACT a PhyloWGS. [29] [30] [31]

Metody molekulární fylogenetiky se spoléhají na definovaný substituční model, který kóduje hypotézu o relativních rychlostech mutace na různých místech studovaného genu nebo aminokyselinové sekvence. Substituční modely mají za cíl opravit rozdíly v rychlostech přechodů a transverzí v nukleotidových sekvencích. Použití substitučních modelů je vyžadováno skutečností, že genetická vzdálenost mezi dvěma sekvencemi se lineárně zvyšuje pouze na krátkou dobu poté, co se tyto dvě sekvence od sebe rozcházejí (alternativně je vzdálenost lineární pouze krátce před koalescencí). Čím delší je doba po divergenci, tím je pravděpodobnější, že se dvě mutace vyskytnou na stejném místě nukleotidů. Jednoduché výpočty genetické vzdálenosti tak budou podhodnocovat počet mutačních událostí, ke kterým došlo v evoluční historii. Rozsah tohoto podhodnotení se zvyšuje s rostoucím časem od divergence, která může vést k fenoménu přitahování dlouhých větví nebo nesprávnému přiřazení dvou vzdáleně souvisejících, ale konvergentně se vyvíjejících sekvencí jako úzce souvisejících. [32] K tomuto problému je obzvláště náchylná metoda maximální šetrnosti, a to kvůli jejímu explicitnímu hledání stromu představujícího minimální počet odlišných evolučních událostí. [4]

Typy modelů Upravit

Všechny substituční modely přiřadí sadu vah každé možné změně stavu zastoupené v sekvenci. Nejběžnější modelové typy jsou implicitně reverzibilní, protože například přiřazují stejnou váhu nukleotidové mutaci G & gtC jako mutaci C & gtG. Nejjednodušší možný model, model Jukes-Cantor, přiřazuje stejnou pravděpodobnost každé možné změně stavu pro danou nukleotidovou bázi. Rychlost změny mezi jakýmikoli dvěma odlišnými nukleotidy bude jedna třetina celkové rychlosti substituce. [4] Pokročilejší modely rozlišují přechody a transverze. Nejobecnější možný časově reverzibilní model, nazývaný GTR model, má šest parametrů rychlosti mutace. Ještě generalizovanější model známý jako obecný 12parametrový model narušuje časovou reverzibilitu za cenu mnohem větší složitosti při výpočtu genetických vzdáleností, které jsou konzistentní mezi více liniemi. [4] Jedna možná variace na toto téma upravuje sazby tak, aby se celkový obsah GC - důležité měřítko stability dvojité šroubovice DNA - v průběhu času měnil. [33]

Modely mohou také umožňovat variace sazeb s pozicemi ve vstupní sekvenci. Nejzjevnější příklad takové variace vyplývá z uspořádání nukleotidů v genech kódujících proteiny do kodonů se třemi bázemi. Pokud je známá poloha otevřeného čtecího rámce (ORF), lze rychlosti mutace upravit pro polohu daného místa v kodonu, protože je známo, že párování wobble bází může umožnit vyšší rychlosti mutací ve třetím nukleotidu daný kodon, aniž by to ovlivnilo význam kodonu v genetickém kódu. [32] Méně hypotézou řízený příklad, který nespoléhá na identifikaci ORF, jednoduše každému místu přiřadí rychlost náhodně odebranou z předem určené distribuce, často distribuce gama nebo log-normální distribuce. [4] Nakonec konzervativnější odhad variací rychlosti známý jako kovarionová metoda umožňuje autokorelované variace rychlostí, takže rychlost mutace daného místa je korelována napříč místy a liniemi. [34]

Výběr nejlepšího modelu Upravit

Výběr vhodného modelu je rozhodující pro produkci dobrých fylogenetických analýz, a to jednak proto, že podparametrizované nebo příliš restriktivní modely mohou produkovat aberantní chování, když jsou porušeny jejich základní předpoklady, a protože příliš složité nebo nadměrně parametrizované modely jsou výpočetně nákladné a parametry mohou být nadměrné . [32] Nejběžnější metodou výběru modelu je test poměru pravděpodobnosti (LRT), který vytváří odhad pravděpodobnosti, který lze interpretovat jako měřítko „shody“ mezi modelem a vstupními daty. [32] Při používání těchto výsledků je však třeba dávat pozor, protože složitější model s více parametry bude mít vždy vyšší pravděpodobnost než zjednodušená verze stejného modelu, což může vést k naivnímu výběru modelů, které jsou příliš složité . [4] Z tohoto důvodu počítačové programy pro výběr modelu zvolí nejjednodušší model, který není výrazně horší než složitější substituční modely. Významnou nevýhodou LRT je nutnost provést sérii párových srovnání mezi modely a ukázalo se, že pořadí, ve kterém jsou modely porovnávány, má zásadní vliv na ten, který je nakonec vybrán. [35]

Alternativní metodou výběru modelu je informační kritérium Akaike (AIC), formálně odhad divergence Kullback – Leibler mezi skutečným modelem a testovaným modelem. Lze jej interpretovat jako odhad pravděpodobnosti s korekčním faktorem k penalizaci nadparametrizovaných modelů. [32] AIC se počítá spíše na individuálním modelu než na páru, je tedy nezávislý na pořadí, ve kterém jsou modely hodnoceny. Související alternativa, Bayesovské informační kritérium (BIC), má podobný základní výklad, ale komplexnější modely penalizuje přísněji. [32]

Na adrese: Protokol o přírodě [36]

Netradičním způsobem hodnocení fylogenetického stromu je jeho srovnání s výsledkem shlukování. Lze použít techniku ​​vícerozměrného škálování, takzvané interpolativní spojování, pro snížení rozměru k vizualizaci výsledku shlukování sekvencí ve 3D a poté mapování fylogenetického stromu na výsledek shlukování. Lepší strom má obvykle vyšší korelaci s výsledkem shlukování. [37]

Jako u všech statistických analýz, odhad fylogenií z charakterových dat vyžaduje hodnocení spolehlivosti. Existuje řada metod pro testování množství podpory pro fylogenetický strom, a to buď hodnocením podpory pro každý sub-strom ve fylogenezi (uzlová podpora), nebo vyhodnocením, zda se fylogeneze výrazně liší od ostatních možných stromů (testy hypotéz alternativních stromů ).

Uzlová podpora Upravit

Nejběžnější metodou pro hodnocení podpory stromu je vyhodnotit statistickou podporu pro každý uzel ve stromu. Uzel s velmi nízkou podporou obvykle není v další analýze považován za platný a vizuálně může být sbalen do polytomie, což naznačuje, že vztahy uvnitř kladu nejsou vyřešeny.

Konsensuální strom Upravit

Mnoho metod pro hodnocení uzlové podpory zahrnuje zvážení více fylogenií. Konsensuální strom shrnuje uzly, které jsou sdíleny mezi sadou stromů. [38] Při * přísném konsensu * jsou zobrazeny pouze uzly nalezené v každém stromu a zbytek je sbalen do nevyřešené polytomie. Méně konzervativní metody, jako je strom * většinové shody *, zvažují uzly, které jsou podporovány daným procentem uvažovaných stromů (například alespoň 50%).

Například v analýze maximální šetrnosti může být mnoho stromů se stejným skóre šetrnosti. Přísný konsensuální strom by ukázal, které uzly se nacházejí ve všech stejně šetrných stromech a které uzly se liší. Konsenzní stromy se také používají k vyhodnocení podpory fylogenií rekonstruovaných Bayesovskou inferencí (viz níže).

Bootstrapping a jackknifing Upravit

Ve statistikách je bootstrap metodou pro odvození variability dat, která mají neznámou distribuci, pomocí pseudoreplikací původních dat. Například vzhledem k sadě 100 datových bodů je pseudoreplikát datová sada stejné velikosti (100 bodů) náhodně odebraná z původních dat s náhradou. To znamená, že každý původní datový bod může být v pseudoreplikátu zastoupen více než jednou, nebo nemusí být vůbec. Statistická podpora zahrnuje vyhodnocení, zda mají původní data podobné vlastnosti jako velká sada pseudoreplikátů.

Ve fylogenetice se bootstrapping provádí pomocí sloupců matice znaků. Každý pseudoreplikát obsahuje stejný počet druhů (řádků) a znaků (sloupců) náhodně vzorkovaných z původní matice s náhradou. Fylogeneze je rekonstruována z každého pseudoreplikátu, se stejnými metodami použitými k rekonstrukci fylogeneze z původních dat. Pro každý uzel na fylogenezi je uzlová podpora procento pseudoreplikátů obsahujících tento uzel. [39]

Statistická náročnost testu bootstrapu byla empiricky vyhodnocena pomocí virových populací se známou evoluční historií, [40] zjištění, že 70% podpora bootstrapu odpovídá 95% pravděpodobnosti, že clade existuje. To však bylo testováno za ideálních podmínek (např. Žádná změna v evolučních rychlostech, symetrické fylogenie). V praxi jsou hodnoty nad 70% obecně podporovány a ponechány na výzkumníkovi nebo čtenáři, aby vyhodnotil důvěru. Uzly s podporou nižší než 70% jsou obvykle považovány za nevyřešené.

Jackknifing ve fylogenetice je podobný postup, kromě toho, že sloupce matice jsou vzorkovány bez náhrady. Pseudoreplikáty jsou generovány náhodným podvzorkováním dat - například „10% jackknife“ by zahrnovalo náhodný výběr 10% matice mnohokrát za účelem vyhodnocení uzlové podpory.

Pozdější pravděpodobnost Upravit

Rekonstrukce fylogenií pomocí Bayesian inference generuje pozdější distribuci vysoce pravděpodobných stromů s ohledem na data a evoluční model, spíše než jeden „nejlepší“ strom. Stromy v zadní distribuci mají obecně mnoho různých topologií. Když jsou vstupními daty data s alelickou frekvencí variant (VAF), nástroj EXACT dokáže přesně vypočítat pravděpodobnosti stromů pro malé, biologicky relevantní velikosti stromů vyčerpávajícím prohledáváním celého stromového prostoru. [29]

Většina bayesovských odvozovacích metod využívá iteraci Markovova řetězce Monte Carlo a počáteční kroky tohoto řetězce nejsou považovány za spolehlivé rekonstrukce fylogeneze. Stromy generované na počátku řetězce jsou obvykle vyřazeny jako spálené.Nejběžnější metodou hodnocení uzlové podpory v Bayesovské fylogenetické analýze je vypočítat procento stromů v pozdější distribuci (post-burn-in), které obsahují uzel.

Očekává se, že statistická podpora pro uzel v Bayesově závěrech bude odrážet pravděpodobnost, že clade skutečně existuje s ohledem na datový a evoluční model. [41] Prahová hodnota pro přijetí uzlu jako podporovaného je tedy obecně vyšší než pro bootstrapping.

Metody počítání kroků Upravit

Podpora Bremer počítá počet kroků navíc, které jsou v rozporu s kladem.

Nedostatky Upravit

Každé z těchto opatření má své slabé stránky. Například menší nebo větší clades mají tendenci přitahovat větší podpůrné hodnoty než středně velké clades, jednoduše v důsledku počtu taxonů v nich. [42]

Podpora Bootstrap může poskytovat vysoké odhady podpory uzlů v důsledku šumu v datech, nikoli podle skutečné existence clade. [43]

Nakonec neexistuje způsob, jak změřit, zda je konkrétní fylogenetická hypotéza přesná nebo ne, pokud již nejsou známy skutečné vztahy mezi zkoumanými taxony (což se může stát u bakterií nebo virů za laboratorních podmínek). Nejlepšího výsledku, kterého může empirický fylogenetik dosáhnout, je strom s větvemi, které jsou dobře podloženy dostupnými důkazy. Bylo identifikováno několik potenciálních úskalí:

Homoplasy Upravit

Některé postavy mají větší pravděpodobnost, že se budou vyvíjet konvergentně než jiné logicky, takové postavy by měly mít menší váhu při rekonstrukci stromu. [44] Hmotnosti ve formě modelu evoluce lze odvodit ze souborů molekulárních dat, takže k jejich analýze lze použít maximální pravděpodobnost nebo Bayesovské metody. U molekulárních sekvencí se tento problém zhoršuje, když se zkoumané taxony podstatně rozcházejí. Jak se čas od divergence dvou taxonů zvyšuje, roste i pravděpodobnost vícenásobných substitucí na stejném místě nebo zpětných mutací, z nichž všechny vedou k homoplasiím. U morfologických dat je bohužel jediným objektivním způsobem, jak určit konvergenci, konstrukce stromu - poněkud kruhová metoda. Přesto vážení homoplastických postav [ jak? ] skutečně vede k lépe podporovaným stromům. [44] Další upřesnění může přinést vážení změn v jednom směru vyšších než změny v jiném, například přítomnost hrudních křídel téměř zaručuje umístění mezi hmyz pterygote, protože ačkoli se křídla často sekundárně ztrácejí, neexistuje žádný důkaz, že by získal více než jednou. [45]

Horizontální přenos genů Upravit

Organismy mohou obecně dědit geny dvěma způsoby: vertikálním genovým přenosem a horizontálním genovým přenosem. Vertikální přenos genů je přechod genů z rodičů na potomky a k horizontálnímu (také nazývanému laterálnímu) přenosu genů dochází, když geny přeskakují mezi nepříbuznými organismy, častým jevem zejména u prokaryot je dobrým příkladem získané antibiotické rezistence v důsledku výměna genů mezi různými bakteriemi vedoucí k bakteriálním druhům rezistentním vůči více léčivům. Byly také dobře zdokumentovány případy horizontálního přenosu genů mezi eukaryoty.

Horizontální přenos genů zkomplikoval stanovení fylogenií organismů a u specifických skupin organismů byly hlášeny nesrovnalosti ve fylogenezi v závislosti na genech použitých ke konstrukci evolučních stromů. Jediným způsobem, jak určit, které geny byly získány vertikálně a které horizontálně, je šetrně předpokládat, že největší soubor genů, které byly zděděny společně, byly zděděny vertikálně, což vyžaduje analýzu velkého počtu genů.

Hybridy, speciace, introgrese a neúplné třídění linií Upravit

Základním předpokladem, který je základem matematického modelu kladistiky, je situace, kdy se druhy úhledně rozdělují bifurkačním způsobem. Zatímco takový předpoklad může platit ve větším měřítku (horizontální přenos genů, viz výše), speciace je často mnohem méně uspořádaná. Výzkum od zavedení kladistické metody ukázal, že hybridní speciace, kdysi považovaná za vzácnou, je ve skutečnosti zcela běžná, zejména u rostlin. [46] [47] Běžná je také paraphyletická speciace, takže předpoklad bifurkačního vzoru není vhodný, což vede spíše k fylogenetickým sítím než ke stromům. [48] ​​[49] Introgrese může také přesouvat geny mezi jinak odlišnými druhy a někdy dokonce i rody, což komplikuje fylogenetickou analýzu založenou na genech. [50] Tento jev může přispět k "neúplnému třídění linií" a je považován za běžný jev v celé řadě skupin. V analýze na úrovni druhů to lze řešit větším odběrem vzorků nebo lepší analýzou celého genomu. [51] Problém se často vyhne omezením analýzy na méně, ne příliš příbuzných vzorků.

Výběr taxonu Upravit

Díky vývoji pokročilých technik sekvenování v molekulární biologii se stalo možné shromáždit velké množství dat (DNA nebo aminokyselinové sekvence) k odvození fylogenetických hypotéz. Například není neobvyklé najít studie s charakterovými maticemi založenými na celých mitochondriálních genomech (

16 000 nukleotidů, u mnoha zvířat). Simulace však ukázaly, že je důležitější zvýšit počet taxonů v matici než zvýšit počet znaků, protože čím více taxonů existuje, tím přesnější a robustnější je výsledný fylogenetický strom. [52] [53] To může být částečně způsobeno rozpadem dlouhých větví.

Fylogenetický signál Upravit

Dalším důležitým faktorem, který ovlivňuje přesnost rekonstrukce stromu, je to, zda analyzovaná data skutečně obsahují užitečný fylogenetický signál, což je termín, který se obecně používá k označení toho, zda se postava vyvíjí dostatečně pomalu, aby měla stejný stav v blízce příbuzných taxonech, na rozdíl od náhodně se měnících . Existují testy na fylogenetický signál. [54]

Souvislé znaky Upravit

Morfologické znaky, které vzorkují kontinuum, mohou obsahovat fylogenetický signál, ale je těžké je kódovat jako diskrétní znaky. Bylo použito několik metod, z nichž jeden je kódování mezer, a existují rozdíly v kódování mezer. [55] V původní formě kódování mezer: [55]

skupinové prostředky pro znak jsou nejprve seřazeny podle velikosti. Vypočítá se sdružená standardní odchylka v rámci skupiny. a rozdíly mezi sousedními prostředky. jsou porovnávány vzhledem k této standardní odchylce. Jakýkoli pár sousedních prostředků je považován za odlišný a má různá celočíselná skóre. pokud jsou prostředky odděleny "mezerou" větší než standardní odchylka uvnitř skupiny. krát nějaká libovolná konstanta.

Pokud do analýzy přidáme více taxonů, mohou se mezery mezi taxony zmenšit natolik, že dojde ke ztrátě všech informací. Zobecněné mezerové kódování tento problém obchází tím, že porovnává jednotlivé páry taxonů, místo aby zvažovalo jednu sadu, která obsahuje všechny taxony. [55]

Chybějící data Upravit

Obecně platí, že čím více dat je k dispozici při konstrukci stromu, tím přesnější a spolehlivější bude výsledný strom. Chybějící data nejsou o nic škodlivější než prosté méně dat, ačkoli dopad je největší, když je většina chybějících údajů v malém počtu taxonů. Soustředění chybějících dat na malý počet znaků vytvoří robustnější strom. [56]

Protože mnoho znaků zahrnuje embryologické nebo měkké tkáně nebo molekulární znaky, které (v lepším případě) téměř vůbec nezkamenělávají, a interpretace zkamenělin je nejednoznačnější než u živých taxonů, vyhynulé taxony mají téměř vždy vyšší podíl chybějících dat než živé. Navzdory těmto omezením je zahrnutí fosilií neocenitelné, protože mohou poskytovat informace v řídkých oblastech stromů, lámat dlouhé větve a omezovat stavy přechodných znaků, takže fosilní taxony přispívají k rozlišení stromů stejně jako moderní taxony. [57] Fosílie mohou také omezit věk linií a prokázat tak, jak je strom v souladu se stratigrafickým záznamem [58]. Stratocladistika zahrnuje informace o věku do datových matic pro fylogenetické analýzy.


Podívejte se na video: Kdo řídí vaše geny - seznamte se s epigenetikou (Listopad 2021).