Informace

Nástroje, které využívají matici příbuznosti pro fylogenetickou dekorelaci


Mám rostlinné genotypy, které byly klasifikovány jakoInvazivní,DivokýneboDomácí. Pokouším se prozkoumat, jaké vysvětlující proměnné (například „velikost listu“, „šířka okvětních lístků“ a další spojité proměnné) ovlivňují pravděpodobnost zařazení do kategorie tří ze tří skupin. Proto musím provést multinomiální logistickou regresi. Chtěl bych však vysvětlit fylogenetickou nezávislost pomocí příbuzenské matice.

Existují nástroje R, které mohou provádět takovou regresi?

Zvažoval jsem například lmekin, ale nemyslím si, že by to dokázalo přijmout odpověď, která může mít 3 různé kategorie. Existuje nějaká funkce, o kterou bych měl zájem (vopicenapříklad balíček)?


Pokud jste ochotni provést Bayesovský model, je to pravděpodobně možné, ale bude vyžadovat trochu šťourání, abyste se ujistili, že modely jsou takové, jaké si myslíte, že jsou. Stan (přes rstan nebo brms), může se hodit multinomiální logistické regrese (demo od Thinkinator).

Pokud můžete tyto modely převést na čistý stanový kód, pak můžete do modelu podle tohoto příkladu na github (nebo tomto) začlenit fylogenetickou/příbuznost/libovolnou korelační strukturu. Měl jsem větší štěstí, když fylogenetická regrese fungovala správně v čistém stanu, než pomocí praktických funkcí.


Lipokaliny jsou rodinou extracelulárních proteinů, které vážou a transportují malé hydrofobní molekuly. Nacházejí se v eubakteriích a velké řadě eukaryotických buněk, ve kterých hrají různé fyziologické role. Uvádíme zde detekci dvou nových eukaryotických lipokalinů a fylogenetickou analýzu 113 členů lipocalinové rodiny provedenou metodami maximální pravděpodobnosti a šetrnosti jejich aminokyselinových sekvencí. Lipokaliny se dělí na 13 monofyletických kladů, z nichž některé jsou seskupeny v dobře podporovaných supercladech. Zkoumání obsahu G+C v genech bakteriálního lipokalinu a detekce čtyř nových koncepčních lipocalinů u jiných eubakteriálních druhů argumentují proti nedávnému horizontálnímu přenosu jako původu prokaryotických lipokalinů. Proto jsme náš lipokalinový strom zakořenili pomocí kladu obsahujícího prokaryotické lipokaliny. Topologie zakořeněného lipocalinového stromu je v obecné shodě s v současné době přijímaným pohledem na organickou fylogenezi členovců a strunatců. Kořenový strom nám umožňuje přiřadit polaritu změnám znaků a navrhuje věrohodný scénář vývoje důležitých vlastností lipokalinu. Nověji vyvinuté lipokaliny mají tendenci (1) vykazovat vyšší míru substitucí aminokyselin, (2) mají flexibilnější proteinové struktury, (3) vážou menší hydrofobní ligandy a (4) zvyšují účinnost kontaktů vázajících ligand. Nakonec jsme zjistili, že rodina proteinů vázajících mastné kyseliny pochází z odvozenějších lipokalinů, a proto je nelze považovat za sesterskou skupinu lipokalinové rodiny.

Transport a skladování hydrofobních molekul v metazoanech je obecně dosahováno proteiny, které nesou jako vazebné místo zakopanou strukturální kapsu. Mezi proteiny, které vykazují tento strukturní motiv, patří lipokaliny, heterogenní skupina sekretovaných proteinů, které vážou širokou škálu malých hydrofobních ligandů (přehled Flower 1996). Lipokaliny jsou malé proteiny s přibližně 200 zbytky s průměrnou molekulovou hmotností 20 kDa. Většina lipocalinů vykazuje N-koncový signální peptid a postrádá další silné hydrofobní oblasti, což jsou vlastnosti, které se běžně vyskytují v extracelulárních rozpustných proteinech. Podobně většina lipocalinů obsahuje jeden až tři disulfidové můstky, které přispívají k omezení celkové struktury stabilizací N- a C-koncových oblastí proteinu.

Aminokyselinové sekvence lipocalinů jsou dosti odlišné a při srovnání celkové sekvence mezi některými členy rodiny jsou zjištěny nízké úrovně sekvenční identity, dokonce pod 20%. Navzdory nízké úrovni sekvenční podobnosti jsou terciární struktury lipokalinů silně zachovány. Skládací motiv lipokalinu (obr. 1) (Cowan, Newcomer a Jones 1990 Flower 1995) je osmipramenný antiparalelní β-barel s N-terminálem 310 α-šroubovice a C-koncová α-šroubovice (A1 a A2 na obr. 1). Hlaveň je na jedné straně otevřená a uzavírá vázací kapsu. Další charakteristikou lipokalinů je jejich schopnost vytvářet oligomery, které se pohybují od dimerního stavu mnoha lipocalinů, jako jsou proteiny vázající vonné látky (Tegoni et al. 1996), až po komplexní oktamery korustacyaninů (Keen et al. 1991). Existují tři konzervované sekvenční motivy nazývané strukturně konzervované oblasti (SCR), které byly navrženy jako předpoklad pro to, aby byl protein považován za lipokalin (Flower, North a Atkwood 1993). Flower, North a Atkwood (1993) navrhují oddělení jádra od odlehlých lipocalinů na základě zachování SCR a na základě existence disulfidových můstků. SCR představují strukturní prvek složený ze tří smyček, které jsou blízko sebe v trojrozměrné struktuře a tvoří dno p-hlavně. Role SCR jako místa vázajícího na receptor byla navržena na základě jejich expozice rozpouštědlu. Tento návrh je však třeba ještě předvést. Pokud jde o ligandy, byla ukázána široká sada hydrofobních molekul, které se vážou na různé lipokaliny. Některé lipokaliny mají pro daný ligand vynikající specificitu, jako jsou například epididymální sekreční proteiny, které vážou kyselinu retinovou, ale ne jiné retinoidy (Newcomer a Ong 1990). Jiné lipokaliny, jako jsou β-laktoglobuliny, apolipoproteiny D (ApoD’s) a některé chemoreceptorové lipokaliny, vážou řadu ligandů velmi odlišné povahy (přehled Flower 1995).

Je k dispozici velké množství informací o strukturálních, biochemických a funkčních aspektech lipokalinů. Několik studií však informovalo o fylogenetických vztazích a evoluční historii lipocalinové rodiny. Některé z těchto fylogenetických studií byly provedeny výběrem příkladů funkčně odlišných skupin lipocalinů (Igarashi et al. 1992), zatímco jiné se zaměřily na fylogenetické vztahy omezených lipocalinových kladů (Ganfornina, Sánchez a Bastiani 1995 Piotte et al. . 1998). Dva hlavní rysy lipocalinů by mohly vysvětlit nedostatek komplexní fylogenetické analýzy na tak plodnou rodinu: (1) silně divergentní proteinová sekvence, která označuje rychlou rychlost molekulární evoluce a obtížně řeší atributy příbuznosti, a (2) ) evoluční historie bohatá na duplikace genů, což zvyšuje obtížnost porozumění ortologickým vztahům.

V tomto příspěvku uvádíme detekci dvou nových lipocalinů v různých organismech a analýzu fylogenetických vztahů všech proteinů dosud zapsaných do rodiny lipocalinů.


Úvod

Biologicky speciace implikuje reprodukční izolaci prostřednictvím bariér bránících nebo omezujících tok genů mezi populacemi [1]. V průběhu procesu genetické diferenciace mohou reprodukčně izolované populace akumulovat odlišné fenotypové rysy, které usnadňují jejich rozpoznání jako různých druhů. Oddělené populace čelící podobnému selektivnímu prostředí se však často fenotypicky sbíhají a nevykazují žádné viditelné rozdíly (přehled kryptických druhů viz Fišer et al. [2]), což komplikuje jejich rozpoznání jako odlišných druhů.

Vývoj technik sekvenování DNA za poslední tři desetiletí umožnil studovat vymezení druhů pomocí molekulárních dat za účelem odhalení kryptických taxonů. Mitochondriální geny, a zejména COX1 gen (cytochrom C podjednotka oxidázy 1), byly intenzivně využívány k vymezení druhů [3, 4]. Řada molekulárních studií však odhalila, že se mitochondriální strom může od stromu druhů lišit. Mateřská dědičnost genomu mtDNA může být pro vymezení druhů u savců zavádějící, protože samice a samci mají obvykle rozdílné disperzní chování (samičí filopatie versus samčí rozptýlení) [5, 6], a protože mezidruhové hybridní samice jsou obecně plodné, zatímco hybridní muži jsou často sterilní (Haldanovo pravidlo), což usnadňuje mitochondriální introgrese mezi blízce příbuznými druhy [7–9]. K překonání těchto omezení se nejnovější taxonomické studie zabývající se vymezením mezi kryptickými druhy savců zaměřily na datové soubory s více lokusy [10–12], protože se ukázalo, že použití více nezávislých markerů DNA poskytuje silný a spolehlivý signál pro dešifrování vztahy mezi úzce souvisejícími taxony [13, 14]. Interpretace výsledků z datových sad s více lokusy může být obtížná, zvláště když markery DNA vykazují nízkou genetickou variabilitu nebo konfliktní vztahy mezi nimi. Tyto potíže vedly k vývoji nepřeberného množství nových metodologických přístupů k vymezení druhů na více místech [15, 16], které lze rozdělit do tří kategorií: (1) fylogenetické metody, (2) multidruhové koalescentní (MSC) přístupy, a (3) populační genetické metody (tabulka 1). Fylogenetické metody nebyly původně vyvinuty pro studium vymezení druhů, ale druhové monofylové kritérium bylo široce používáno od počátku molekulární taxonomie [17]. U datových souborů s více lokusy lze uvažovat o několika fylogenetických přístupech: zřetězení všech markerů na supermatrix (ačkoli tento přístup byl široce kritizován [18]), oddělené analýzy markerů nebo sofistikovanější metody, jako například *BEAST [19] nebo SuperTRI [20]. Na základě koalescentní teorie někteří autoři navrhli, že druhy lze vymezit bez monofyletických genových stromů [21]. Začlenění koalescentního modelu [22] do určitého softwaru (např. *BEAST [19], BPP [23] a STACEY [24]) umožnilo odvodit druhové limity z dat z více lokusů účtováním inkongruencí mezi genovými stromy v přítomnost neúplného třídění linií [19]. Přístupy MSC často vyžadují předchozí přiřazení vzorků k populacím nebo taxonům, a jsou proto omezeny na validaci navrhovaných delimitací [25]. Populační genetické přístupy se obecně používají k detekci „kryptické substruktury“ mezi skupinami vykazujícími velmi podobné fenotypy. Program STRUKTURA [26] je pravděpodobně nejpopulárnějším přístupem k bayesovskému shlukování pomocí dat s více lokusy. Nedávno získal nový zájem, protože klastry identifikované pomocí STRUCTURE lze použít jako předběžnou hypotézu pro přiřazení jednotlivců k populacím nebo taxonům, což představuje první krok většiny analýz MSC [27]. Geografické klastry detekované pomocí STRUCTURE jsou navíc často interpretovány (možná nesprávně [28]) jako reprodukčně izolované populace, což může představovat silný argument ve prospěch rozdělení na několik druhů (např. Brown a kol. [29]). K detekci reprodukčně izolovaných populací lze také použít metody sdílení alel, jako jsou haplowebs [30] a matice konspecificity (CM) [31].

Systematika žiraf je kontroverzním problémem, protože bylo navrženo nejméně devět různých hypotéz o vymezení druhů na základě morfologických znaků a v poslední době také molekulárních údajů (viz tabulka A v dodatku S1). Existenci několika druhů žiraf poprvé navrhl Geoffroy Saint-Hilaire [32], který poznamenal, že rozdíly ve struktuře srsti, tvaru rohu a lebce lze použít k rozlišení žirafy núbijské (z oblasti Sennaar v Súdánu) od žirafy jižní (z oblasti Kapska). Thomas [33] navrhl další uspořádání ve dvou druzích, ke kterým byly přiřazeny núbijské a jižní žirafy Giraffa camelopardalisvzhledem k tomu, že žirafa síťovaná byla považována za úplný druh, Giraffa reticulata. Lydekker [34] sdílel tento názor, ale rozpoznal 12 poddruhů v G. camelopardalis a dva v G. reticulata. Dagg a Foster [35] však uvedli, že fenotypové rysy jsou mezi populacemi a v rámci populací velmi variabilní, a proto rozpoznali jeden druh, G. camelopardalis. Následně tento úhel pohledu přijala většina ostatních taxonomů, a to navzdory přetrvávajícím sporům ohledně počtu poddruhů [36, 37]. Taxonomie žiraf byla však zpochybněna nedávnými genetickými studiemi: na základě analýz mitochondriálních sekvencí a 14 nukleárních mikrosatelitních lokusů, Brown et al. [29] navrhl minimálně šest druhů, což odpovídá Giraffa angolensis, G. žirafa, G. peralta, G. reticulata, G. rothschildi, a G. tippelskirchi (Pozn. Poddruh camelopardalis, antiquorum a thornicrofti nebyly zahrnuty do jejich studie), zatímco Fennessy et al. [38] a Winter et al. [12] navrhl rozdělení na čtyři druhy, tj. G. camelopardalis, G. žirafa, G. reticulata a G. tippelskirchi, na základě vícelokových analýz 7 a 21 jaderných intronů. Čtyřdruhová hypotéza navržená Fennessy et al. [38] již dříve vyvolal obavy a kontroverze (viz Bercovitch a kol. [39]).

V této studii jsme znovu analyzovali všechna dostupná data z více lokusů pro devět poddruhů žiraf (tj. camelopardalis, angolensis, antiquorum, žirafa, peralta, reticulata, rothschildi, thornicrofti a tippelskirchi) pomocí různých fylogenetických (MrBayes, PhyML, SuperTRI), populačně genetických (STRUKTURA, alelické sítě, haplotypová síť a bootstrapping, haplowebs a matice konspecificity) a MSC (*BEAST, BPP, STACEY). Naším záměrem bylo poskytnout spolehlivé vědecké důkazy o počtu druhů Žirafa porovnáním různých metod v současnosti používaných pro vymezení molekulárních druhů, které se opírají o koncepty různých druhů (koncept fylogenetických druhů [40], koncept genetických druhů [41] a koncept genealogických druhů [42]). Taková strategie je zvláště důležitá u taxonů, které se zabývají ochranou, jako jsou žirafy, protože aplikace konceptu jednoho druhu byla prokázána u druhů s „přemnožením“ nebo „nadměrným výskytem“, což může mít negativní důsledky pro management ochrany [43, 44].

Našimi pěti hlavními cíli bylo (1) otestovat, zda různé metody konvergují ke stejnému závěru, nebo zda podporují odlišné taxonomické hypotézy, (2) zjistit, zda je jedna hypotéza analýzami podporována více než ostatní (srovnávací přístup vymezení druhů ), (3) porozumět tomu, proč některé metody nebo modely mohou vést k taxonomickému nadměrnému rozdělení, (4) vědět, zda jsou dostupná molekulární data dostatečná k závěru o počtu druhů, a (5) určit, která data, metody a pro vymezení druhů s molekulárními údaji jsou relevantní provozní kritéria.


Rozsah článku

V této práci představujeme novou metodu založenou na pravděpodobnosti k detekci evolučních posunů ve vícerozměrných modelech OU. Děláme zjednodušující předpoklady, že všechny vlastnosti mají stejnou sílu výběru, ale na rozdíl od Khabbazian et al. (2016) a Ingram a Mahler (2013), umožňujeme korelaci mezi znaky. Náš příspěvek je mnohostranný. Ukazujeme, že skalární předpoklad, který vytvoříme (viz část Model), a předpoklad nezávislosti sdílejí ve své struktuře podobnou funkci, díky které je problém s detekcí posunu obtížný. Na základě formální analýzy provedené v univariantním případě (Bastide et al. 2017) ukazujeme, že problém trpí problémy s identifikovatelností, protože dvě nebo více odlišných konfigurací posunu mohou být nerozeznatelné. Navrhujeme latentní variabilní model kombinovaný s trikem reparametrizace OU na BM k odhadu neznámého počtu posunů a jejich umístění. Naše metoda je rychlá a dokáže zpracovat chybějící data. Ukázalo se také, že je přesné ve velké simulační studii a dokázalo najít zpět známá místa posunu při opětovné analýze veřejných datových sad. Nakonec ukazujeme, že standardní praxe dekorelace znaků pomocí fylogenetické analýzy hlavních komponent (pPCA) před použitím metody určené pro nezávislé znaky může být za přítomnosti posunů zavádějící.

Článek je uspořádán následovně: Představujeme model a inferenční postup v sekci Model, teoretické předpojatosti pPCA za přítomnosti posunů v sekci pPCA a Shift, simulační studie v sekci Simulační studie, opětovná analýza opic New World a Větší Antillean Anolis datové sady ještěrek v sekci Příklady a diskutovat o výsledcích a omezeních naší metody v sekci Diskuse.


Klíčová slova

Antonio Oseas de Carvalho Filho získal titul Ph.D. v elektrotechnice na Federální univerzitě v Maranhão -Brazílii v roce 2016. V současné době je profesorem na Federální univerzitě v Piaui (UFPI).

Aristófanes Corrêa Silva získal doktorát z informatiky na Pontiphical Catholic University of Rio de Janeiro - Brazílie v roce 2 004. V současné době je profesorem Federální univerzity v Maranhão (UFMA), Brazílie.

Anselmo Cardoso de Paiva získal bakalářský titul v oboru stavebnictví na Státní univerzitě Maranhão -Brazílie v roce 1990, magisterský titul v oboru pozemního stavitelství a doktorát z informatiky na Pontifikální katolické univerzitě v Rio de Janeiru -Brazílii v letech 1993 a 2002. V současné době je profesorem na Federální univerzitě z Maranhão (UFMA), Brazílie.

Rodolfo Acatauassú Nunes získal doktorát z obecné chirurgie - hrudní oblasti na Federální univerzitě v Rio de Janeiru v roce 1995. V současné době je profesorem oddělení všeobecné chirurgie na Universidade do Estado do Rio de Janeiro (UERJ).


Reference

Kelly, R. C. Evoluce smrtícího meziskupinového násilí. Proč. Natl Acad. Sci. USA 102, 15294–15298 (2005)

Archer, J. Povaha lidské agrese. Int. J. Psychiatrie práva. 32, 202–208 (2009)

Bowles, S. Ovlivnila válka mezi rodovými lovci a sběrači vývoj lidského sociálního chování? Věda 324, 1293–1298 (2009)

Wrangham, R. W. & amp Glowacki, L. Meziskupinová agrese u šimpanzů a válka u kočovných lovců a sběračů: hodnocení šimpanzového modelu. Hučení. Nat. 23, 5–29 (2012)

Fry, D. P. & amp Söderberg, P. Smrtící agrese v pásmech mobilních foragerů a důsledky pro počátky války. Věda 341, 270–273 (2013)

Sussman, R. W. v Válka, mír a lidská přirozenost: sbližování evolučních a kulturních názorů (ed. Fry, D. P.) 97–111 (Oxford Univ. Press, 2013)

Morris, já Válka! K čemu je to dobré? Konflikt a postup civilizace od primátů k robotům (Farrar, Straus & amp Giroux, 2014)

Martin, D. L. & amp Harrod, R. P. Bioarcheologické příspěvky ke studiu násilí. Dopoledne. J. Phys. Anthropol. 156, (Dodatek 59), 116–145 (2015)

Keeley, L. H. Válka před civilizací (Oxford Univ. Press, 1996)

Wrangham, R. & amp Peterson, D. Démoničtí muži: lidoopi a původ lidského násilí (Mariner Books, 1996)

Pinker, S. Lepší andělé naší přírody (Viking Press, 2011)

Ferguson, R. B. v Válka, mír a lidská přirozenost: sbližování evolučních a kulturních názorů (ed. Fry, D. P.) 191–240 (Oxford Univ. Press, 2013)

Anholt, R. R. H. & amp Mackay, T. F. C. Genetika agrese. Annu. Rev. Genet. 46, 145–164 (2012)

Huber, R. & amp Brennan, P. A. Agrese. Adv. Genet. 75, 1–6 (2011)

Daly, M. & amp. Wilson, M. Zabití (Aldine de Gruyter, 1988)

Low, B. S. Proč na sexu záleží: darwinistický pohled na lidské chování (Princeton Univ. Press, 2010)

Packer, C. & amp Pusey, A. E. in Infanticidy, srovnávací a evoluční perspektivy (eds Hausfater, G. & amp Hrdy, S. B.) 31–42 (Aldine Transactions, 1984)

Cubaynes, S. a kol. Vnitrodruhová agrese závislá na hustotě reguluje přežití u severních vlků Yellowstone (Canis lupus). J. Anim. Ecol. 83, 1344–1356 (2014)

Polis, G. A., Myers, C. A. & amp Hess, W. R. Průzkum vnitrodruhové predace v rámci třídy Mammalia. Mammal Rev. 14, 187–198 (1984)

Lukas, D. & amp Huchard, E. Sexuální konflikt. Vývoj novorozenců u mužů v savčích společnostech. Věda 346, 841–844 (2014)

Archer, J. Behaviorální biologie agrese (Cambridge Univ. Press, 1984)

Fritz, S. A., Bininda-Emonds, O. R. & amp Purvis, A. Geografické variace v prediktorech rizika vyhynutí savců: velký je špatný, ale pouze v tropech. Ecol. Lett. 12, 538–549 (2009)

Faurby, S. & amp Svenning, J. C. Fylogeneze na úrovni druhů všech existujících a pozdně kvartérních vyhynulých savců pomocí nového heuristicko-hierarchického bayesovského přístupu. Mol. Fylogenet. Evol. 84, 14–26 (2015)

Opie, C., Atkinson, Q. D., Dunbar, R. I. & amp Shultz, S. Mužské novorozenectví vede u primátů k sociální monogamii. Proč. Natl Acad. Sci. USA 110, 13328–13332 (2013)

Garland, T. Jr & amp Ives, A. R. Použití minulosti k předpovědi současnosti: intervaly spolehlivosti pro regresní rovnice ve fylogenetických srovnávacích metodách. Dopoledne. Nat. 155, 346–364 (2000)

Goberna, M. & amp Verdú, M. Predikce mikrobiálních vlastností pomocí fylogenií. ISME J. 10, 959–967 (2016)

Shaw, I. & amp Jameson, R. Slovník archeologie (Blackwell, 1999)

Johnson, A. W. & amp Earle, T. K. The Evolution of Human Societies: From Foraging Group to Agrární stát (Stanford Univ. Press, 2000)

Allen, M. W. & amp Jones, T. L. Násilí a válčení mezi sběrateli lovců (Left Coast Press, 2014)

Abrutyn, S. & amp. Lawrence, K. Od náčelnictví ke státu: k integrativní teorii vývoje polity. Sociol. Perspektiva. 53, 419–442 (2010)

Bininda-Emonds, O. R. P. a kol. Zpožděný vzestup dnešních savců. Příroda 446, 507–512 (2007) Oprava 456, 274 (2008)

Wilson, D. E. & amp Reeder, D. M. Savec Species of the World: a Taxonomic and Geographic Reference, 2. – 3. Vyd. (Smithsonian Institution Press / John Hopkins Univ. Press, 1993-2005)

Finarelli, J. A. & amp Flynn, J. J. Rekonstrukce rodového stavu velikosti těla v Caniformia (Carnivora, Mammalia): efekty začlenění dat z fosilního záznamu. Syst. Biol. 55, 301–313 (2006)

Finlayson, C. a kol. Pozdní přežití neandertálců v nejjižnějším extrému Evropy. Příroda 443, 850–853 (2006)

Arsuaga, J. L. a kol. Neandertálské kořeny: lebeční a chronologické důkazy ze Sima de los Huesos. Věda 344, 1358–1363 (2014)

Hublin, J. J. Původ neandertálců. Proč. Natl Acad. Sci. USA 106, 16022–16027 (2009)

Mays, S. Archeologie lidských kostí (Routledge, 2010)

Milner, G. R. Rány šípem devatenáctého století a vnímání prehistorické války. Dopoledne. Antiq. 70, 144–156 (2005)

Služba, E. R. Profily v etnologii (Harpercollins College Div., 1963)

Válka, mír a lidská přirozenost: Sbližování evolučních a kulturních názorů (ed. Fry, D. P.) (Oxford Univ. Press, 2013)

Pagel, M. Vyvozování historických vzorců biologické evoluce. Příroda 401, 877–884 (1999)

Münkemüller, T. a kol. Jak měřit a testovat fylogenetický signál. Metody Ecol. Evol. 3, 743–756 (2012)

Blomberg, S. P., Garland, T. Jr & amp Ives, A. R. Testování fylogenetického signálu ve srovnávacích datech: rysy chování jsou labilnější. Vývoj 57, 717–745 (2003)

Revell, L. J. phytools: balíček R pro fylogenetickou srovnávací biologii (a další věci). Metody Ecol. Evol. 3, 217–223 (2012)

Freckleton, R. P., Harvey, P. H. & amp Pagel, M. Fylogenetická analýza a srovnávací data: test a přehled důkazů. Dopoledne. Nat. 160, 712–726 (2002)

Orme, A. D. a kol. kapary: Srovnávací analýzy fylogenetiky a evoluce v R (v.0.5.2). https://cran.r-project.org/web/packages/caper/index.html (2013)

Martins, E. P. & amp Hansen, T. F. Phylogenies a srovnávací metoda: obecný přístup k začlenění fylogenetických informací do analýzy mezidruhových dat. Dopoledne. Nat. 149, 646–667 (1997)

Kembel, S. W., Wu, M., Eisen, J. A. & amp Green, J. L. Začlenění informací o počtu kopií genu 16S zlepšuje odhady mikrobiální rozmanitosti a hojnosti. PLOS Comput. Biol. 8, e1002743 (2012)

Nunn, C. & amp Zhu, L. in Moderní fylogenetické srovnávací metody a jejich aplikace v evoluční biologii (ed. Garamszegi, L. Z.) 481–514 (Springer, 2014)

Piñeiro, G., Perelman, S., Guerschman, J. P. & amp Paruelo, J. M. Jak hodnotit modely: pozorované vs. predikované nebo predikované vs. pozorované? Ecol. Modell. 216, 316–322 (2008)

Brand, S. J. Systema Naturae 2000. Taxonomicon (Amsterdam, 2005)


Haak, W. a kol. Masivní migrace ze stepi byla zdrojem indoevropských jazyků v Evropě. Příroda 522, 207–211 (2015).

Lazaridis, I. a kol. Starověké lidské genomy navrhují pro dnešní Evropany tři rodové populace. Příroda 513, 409–413 (2014).

Lipson, M. a kol. Paralelní paleogenomické transekty odhalují složitou genetickou historii raných evropských zemědělců. Příroda 551, 368–372 (2017).

Mathieson, I. a kol. Genomická historie jihovýchodní Evropy. Příroda 555, 197–203 (2018).

Olalde, I. a kol. Kádinkový fenomén a genomická transformace severozápadní Evropy. Příroda 555, 190–196 (2018).

Bollongino, R. a kol. Roky paralelních společností ve střední Evropě v době kamenné. Věda 342, 479–481 (2013).

Brandt, G. a kol. Starověká DNA odhaluje klíčová stádia formování středoevropské mitochondriální genetické rozmanitosti. Věda 342, 257–261 (2013).

Siegmund, F. Schnelle Zeiten - langsame Zeiten: Archäologische Chronologiesysteme als Geschichtsquelle. Oblouk. Inf. 35, 259–270 (2012).

Raetzel-Fabian, D. Revoluce, reformace, Epochenwechsel? Das Ende der Kollektivgrabsitte und der Übergang von der Wartberg- zur Einzelgrabkultur in Nordhessen und Westfalen. J. Neolith Archaeol. https://doi.org/10.12766/jna.2002.81 (2002).

Schierhold, K. Studien zur Hessisch -Westfälischen Megalithik: Forschungsstand und -perspektiven im europäischen Kontext (VML, 2012).

Geschwinde, M. & amp. Raetzel-Fabian, D. EWBSL: eine Fallstudie zu den jungneolithischen Erdwerken am Nordrand der Mittelgebirge (VML, 2009).

Raetzel-Fabian, D. Calden. Erdwerk und Bestattungsplätze des Jungneolithikums. Architektur - Ritual - Chronologie. Universitätsforschungen zur Prähistorischen Archäologie 70 (Dr. Rudolf Habelt, 2000).

Schrickel, W. Westeuropäische Elemente im neolithischen Grabbau Mitteldeutschlands und die Galeriegräber Westdeutschlands und ihre Inventare. Beiträge zur ur- und frühgeschichtlichen Archäologie des Mittelmeer-Kulturraumes 4 u. 5 (Dr. Rudolf Habelt, 1966).

Raetzel-Fabian, D. Absolutní chronologie a kulturní vývoj neolitické Wartbergské kultury v Německu. J. Neolith Archaeol. https://doi.org/10.12766/jna.2002.82 (2002).

Meadows, J. a kol. Vysoce přesné bayesovské chronologické modelování na kalibrační plošině: galerijní hrob Niedertiefenbach. Radiokarbon, https://doi.org/10.1017/RDC.2020.76 (2020).

Czarnetzki, A. Menschlichen Skelettreste aus vier neolithischen Steinkisten Hessens und Niedersachsens (Dis. Tübingen, 1966).

Wurm, K., Schoppa, H., Ankel, C. & amp Czarnetzki, A. Die westeuropäische Steinkiste von Niedertiefenbach, Oberlahnkreis. Fundber. Hesse. 3, 46–78 (1963).

Briggs, A. a kol. Vzory poškození v sekvencích genomové DNA z neandertálce. Proč. Natl Acad. Sci. USA 104, 14616–14621 (2007).

Jones, E. a kol. Neolitický přechod v Pobaltí nebyl způsoben příměsí s ranými evropskými zemědělci. Curr. Biol. 27, 576–582 (2017).

Alexander, D. H., Novembre, J. & amp Lange, K. Rychlý odhad původu na základě modelu u nepříbuzných jedinců. Genome Res. 19, 1655–1664 (2009).

Patterson, N. a kol. Starověká příměs v lidské historii. Genetika 192, 1065–1093 (2012).

Loh, P. R. a kol. Vyvozování historií příměsí lidských populací pomocí vazebné nerovnováhy. Genetika 193, 1233–1254 (2013).

Narasimhan, V. a kol. Tvorba lidské populace v jižní a střední Asii. Věda 365, eaat7487 (2019).

Fenner, J. N. Mezikulturní odhad intervalu lidské generace pro použití ve studiích divergence populace založené na genetice. Dopoledne. J. Phys. Anthropol. 128, 415–423 (2005).

Mathieson, I. a kol. Genomické vzorce výběru u 230 starověkých euroasijců. Příroda 528, 499–503 (2015).

Han, J. a kol. Studie asociace celého genomu identifikuje nové alely spojené s barvou vlasů a pigmentací kůže. PLoS Genet. 16, e1000074 (2008).

Heianza, Y. a kol. Genetická varianta amylázy související se štěpením škrobu ovlivňuje 2leté změny adipozity v reakci na diety na hubnutí: POUNDS Lost Trial. Cukrovka 66, 2416–2423 (2017).

Enattah, N. S. a kol. Důkaz stále probíhajícího vývoje konvergence alel laktázy perzistence T-13910 u lidí. Dopoledne. J. Hum. Genet. 81, 615–625 (2007).

Pierini, F. a kol. Cílená analýza polymorfních lokusů z dat sekvence brokovnice s nízkým pokrytím umožňuje přesné genotypizaci genů HLA v historických lidských populacích. Sci. Zástupce 10, 7339 (2020).

Szolek, A. a kol. OptiType: přesné HLA psaní ze sekvenčních dat příští generace. Bioinformatika 30, 3310–3316 (2014).

Mathieson, S. & amp Mathieson, I. FADS1 a načasování lidské adaptace na zemědělství. Mol. Biol. Evol. 35, 2957–2970 (2018).

Pierini, F. & amp Lenz, T. L. Výhoda divergentní alely v lidských genech MHC: podpisy minulé a probíhající selekce. Mol. Biol. Evol. 35, 2145–2158 (2018).

Arora, J. a kol. HLA heterozygotní výhoda proti HIV-1 je dána kvantitativními a kvalitativními rozdíly v prezentaci peptidů specifických pro alelu HLA. Mol. Biol. Evol. 37, 639–650 (2019).

Kuhn, M., Jakobsson, M. & amp Günther, T. Odhad vztahů genetických kin v prehistorických populacích. PLOS ONE 13, e0195491 (2018).

Brunel, S. a kol. Starověké genomy z dnešní Francie odhalují 7 000 let své demografické historie. Proč. Natl Acad. Sci. USA 117, 12791–12798 (2020).

Rivollat, M. a kol. Starověká genomová DNA z Francie zdůrazňuje složitost interakcí mezi mezolitickými lovci a sběrači a neolitickými farmáři. Sci. Adv. 6, eaaz5344 (2020).

Warden, L. a kol. Klima vyvolalo lidskou demografickou a kulturní změnu v severní Evropě v polovině holocénu. Sci. Zástupce 7, 15251 (2017).

Rinne, C. a kol. Niedertiefenbach. Ein Galeriegrab der spätneolithischen Wartberggruppe südwestlich von Niedertiefenbach (Landkreis Limburg-Weilburg, Hessen). Praehist. Z. 91, 284–316 (2016).

Seidel, U. a kol. Die Zeit der großen Gräben: Modelle zur Chronologie des Michelsberger Fundplatzes von Heilbronn-Klingenberg „Schlossberg“, Stadtkreis Heilbronn, Baden-Württemberg. Praehist. Z. 91, 225–283 (2016).

Beau, A. a kol. Víceúrovňové starověké analýzy DNA potvrzují západní původ michelsbergských farmářů a dokumentují pravděpodobné postupy lidské oběti. PLOS ONE 12, e0179742 (2017).

Keller, M. a kol. United in death - related by blood? Genetické a archeometrické analýzy kosterních pozůstatků z neolitického zemního díla Bruchsal-Aue. Dopoledne. J. Phys. Anthropol. 157, 458–471 (2015).

Bach, H. & amp; Bach, A. Paläanthropologie im Mittelelbe-Saale-Werra-Gebiet. Beiträge zur Rekonstruktion der biologischen Situation ur- und frühgeschichtlicher Bevölkerungen. Weimarer Monographien zur Ur- und Frühgeschichte 23 (Výmar 1989).

Alt, K. a kol. Jechtingen - Anthropologie eines mittelneolithischen Gräberfeldes. Fundber. aus Baden. Württemberg 34, 177–298 (2014).

Grupe, G. & amp Herrmann, B. Die Skelettreste aus dem neolithischen Kollektivgrab von Odagsen, Stadt Einbeck, Ldkr. Northeim Nachr. Niedersachs. Urgesch. 55, 41–91 (1986).

Wittwer-Backofen, U. & amp Tomo, N. v Neolitický demografický přechod a jeho důsledky (eds, Bocquet-Appel, J.-P. & amp Bar-Yosef, O.) 501–538 (Springer, 2008).

Fuchs, K. a kol. Infekční choroby a neolitické transformace: Hodnocení biologických a archeologických zástupců v německé sprašové zóně mezi 5500 a 2500 BCE. Holocénu 29, 1545–1557 (2019).

Srivastava, R. a kol. Lidské asymptomatické epitopy identifikované z proteinu proteinu VP13/14 viru herpes simplex VP13/14 (UL47) přednostně vyvolávají polyfunkční efektorovou paměť CD44 vysoké CD62Llow CD8+ TEM buňky a chrání humanizované transgenní myši HLA-A*02: 01 proti oční herpesvirové infekci. J. Virol. 91, e01793–16 (2017).

McLaren, P. J. a kol. Polymorfismy s velkým účinkem vysvětlují většinu genetického příspěvku hostitele ke změnám zatížení virem HIV-1. Proč. Natl Acad. Sci. USA 112, 14658–14663 (2015).

Kuniholm, M. H. a kol. Vztah supertypů HLA třídy I a II se spontánní clearance viru hepatitidy C. Geny Immun. 14, 330–335 (2013).

Huang, J. a kol. Asociace HLA DQB1*03: 01 a DRB1*11: 01 se spontánním odstraněním viru hepatitidy C v čínské Li etnicitě, etnické skupině geneticky odlišné od čínské etnické příslušnosti Han a infikované jedinečným podtypem HCV. J. Med. Virol. 91, 1830–1836 (2019).

Bodis, G., Toth, V. & amp Schwarting, A. Role lidských leukocytárních antigenů (HLA) při autoimunitních onemocněních. Rheumatol. Ther. 5, 5–20 (2018).

Ferreira, A., Monteiro, M., Vita, P., Marinho, A., & amp Vasconcelos, C. in Infekce a autoimunita (eds, Schoenfeld, Y., Agmon-Levin, N. & amp Rose, N.) 2. vydání, 807–828 (Elsevier, 2015).

McLaren, P. J. & amp Carrington, M. Vliv genetické variace hostitele na infekci HIV-1. Nat. Immunol. 16, 577–583 (2015).

Lenz, T. L. Adaptivní hodnota nových variant imunitního genu MHC. Proč. Natl Acad. Sci. USA 115, 1414–1416 (2018).

Krause-Kyora, B. a kol. Neolitické a středověké virové genomy odhalují komplexní vývoj hepatitidy B. Život 7, e36666 (2018).

Zhang, F. R. a kol. Důkaz pro asociaci HLA-DRB1*15 a DRB1*09 s leprou a dopad DRB1*09 na nástup onemocnění v čínské populaci Han. BMC Med. Genet. 10, 133 (2009).

de Bakker, P. I. W. a kol. Haplotypová mapa HLA a SNP s vysokým rozlišením pro studie asociace onemocnění v rozšířené lidské MHC. Nat. Genet 38, 1166–1172 (2006).

Schaefer, M., Black, S., & amp Scheuer, L. Juvenilní osteologie. Laboratorní a polní příručka (Academic Press, 2009).

Buikstra, J. & amp. Ubelaker, D. Standardy pro sběr dat z lidských kosterních pozůstatků (Arkansas Archaeological Survey Research Series, 1994).

Krause-Kyora, B. a kol. Starověká studie DNA odhalila lokus citlivosti HLA na lepru u středověkých Evropanů. Nat. Komun. 9, 1569 (2018).

Kircher, M., Sawyer, S. & amp Meyer, M. Dvojité indexování překonává nepřesnosti v multiplexním sekvenování na platformě Illumina. Nucleic Acids Res. 40, e3 (2012).

Huson, D. a kol. Komunitní edice MEGAN-interaktivní průzkum a analýza rozsáhlých sekvenčních dat mikrobiomu. Výpočet PLoS. Biol. 12, e1004957 (2016).

Vågene, Å. J. a kol. Salmonella enterica genomy od obětí velké epidemie šestnáctého století v Mexiku. Nat. Ecol. Evol. 2, 520–528 (2018).

Li, H. & amp Durbin, R. Rychlé a přesné zarovnání s dlouhým čtením s transformací Burrows-Wheeler. Bioinformatika 26, 589–595 (2010).

Jonsson, H. a kol. mapDamage2.0: rychlé přibližné bayesovské odhady starověkých parametrů poškození DNA. Bioinformatika 29, 1682–1684 (2013).

Lamnidis, T. a kol. Starověké fenoscandské genomy odhalují původ a šíření sibiřského původu v Evropě. Nat. Komun. 9, 5018 (2018).

Fu, C. a kol. Genetická historie Evropy doby ledové. Příroda 534, 200–205 (2016).

Skoglund, P., Storå, J., Götherström, A. & amp Jakobsson, M. Přesná identifikace pohlaví starověkých lidských pozůstatků pomocí sekvenování brokovnice DNA. J. Archaeol. Sci. 40, 4477–4482 (2013).

Renaud, G. a kol. Schmutzi: odhad kontaminace a endogenní mitochondriální konsensus vyzývající ke starověké DNA. Genome Biol. 16, 224 (2015).

Korneliussen, T. S., Albrechtsen, A. & amp Nielsen, R. ANGSD: Analysis of Next Generation Sequencing Data. Bioinformatika BMC 15, 356 (2014).

Patterson, N., Price, A. L. & amp Reich, D. Struktura populace a vlastní analýza. PLoS Genet. 2, e190 (2006).

Lipatov, M. a kol. Odhad maximální pravděpodobnosti biologické příbuznosti z dat sekvenování s nízkým pokrytím. Předtisk v bioRxiv https://doi.org/10.1101/023374 (2015).

Andrews, R. M. a kol. Opětovná analýza a revize referenční sekvence Cambridge pro lidskou mitochondriální DNA. Nat. Genet. 23, 147 (1999).

Vianello, D. a kol. HAPLOFIND: nová metoda pro vysoce výkonné přiřazení haploskupiny mtDNA. Hučení. Mutat. 34, 1189–1194 (2013).

Poznik, G. Identifikace haploskupin chromozomu Y v libovolně velkých vzorcích sekvenovaných nebo genotypovaných mužů. Předtisk v bioRxiv https://doi.org/10.1101/088716 (2016).

Degenhardt, F. a kol. Výstavba a benchmarking multietnického referenčního panelu pro imputaci alel HLA třídy I a II. Hučení. Mol. Genet. 28, 2078–2092 (2019).

Jurtz, V. a kol. NetMHCpan-4.0: vylepšené predikce interakcí peptid – MHC třídy I integrující data eluovaného ligandu a vazebné afinity peptidu. J. Immunol. 199, 3360–3368 (2017).

Oksanen, J. a kol. vegan: Community Ecology Package (verze R balíček verze 2.0-3), http://CRAN.R-project.org/package=vegan (2012).

Tým R Core. R: Jazyk a prostředí pro statistické výpočty, https://www.R-project.org/ (R Foundation for Statistical Computing, Vídeň, Rakousko, 2017).

Kumar, S., Stecher, G., Li, M., Knyaz, C. & amp Tamura, K. MEGA X: molekulárně evoluční genetická analýza napříč výpočetními platformami. Mol. Biol. Evol. 35, 1547–1549 (2018).


Využití molekulárních dat při správě sbírek zoo a akvárií: Výhody, výzvy a osvědčené postupy

Anita J. Norman, Department of Life Sciences, San Diego Zoo Global, P.O. Box 120551, San Diego, CA 92112-0551.

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornie

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornie

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornie

Anita J. Norman, Department of Life Sciences, San Diego Zoo Global, P.O. Box 120551, San Diego, CA 92112-0551.

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornie

Department of Life Sciences, San Diego Zoo Global, San Diego, Kalifornie

Institucionální přihlášení
Přihlaste se do online knihovny Wiley

Pokud jste již dříve získali přístup pomocí svého osobního účtu, přihlaste se prosím.

Kupte si okamžitý přístup
  • Zobrazit článek PDF a všechny související doplňky a obrázky po dobu 48 hodin.
  • Článek může ne být vytištěny.
  • Článek může ne stáhnout.
  • Článek může ne být znovu distribuován.
  • Neomezené prohlížení článku PDF a jakýchkoli souvisejících doplňků a obrázků.
  • Článek může ne být vytištěny.
  • Článek může ne stáhnout.
  • Článek může ne být znovu distribuován.
  • Neomezené prohlížení článku/kapitoly PDF a jakýchkoli souvisejících doplňků a obrázků.
  • Článek/kapitola lze vytisknout.
  • Článek/kapitola lze stáhnout.
  • Článek/kapitola může ne být znovu distribuován.

Abstraktní

Celosvětová komunita zoo a akvárií uznává, že její sbírky zvířat a programy kooperativního chovu čelí krizi udržitelnosti. Je všeobecně přijímáno, že mnoho prioritních druhů nelze udržet, pokud nebudou přijaty nové strategie řízení. Přestože molekulární data mají potenciál výrazně zlepšit řízení v celé řadě scénářů, zoo a akvarijní komunita je obecně nevyužívají. Toto selhání efektivní aplikace molekulárních dat do správy sběrů je částečně způsobeno nedostatkem zdrojů v rámci komunity, na nichž je možné založit informovaná rozhodnutí o tom, kdy je použití těchto dat vhodné a jaké kroky jsou nutné k úspěšné integraci dat do řízení. Zde identifikujeme tři široké oblasti zkoumání, kde mohou molekulární data informovat management: 1) taxonomická identifikace 2) neúplné nebo neznámé rodokmeny a 3) dědičné onemocnění. V rámci těchto témat nabízíme diskusi o výhodách, omezeních a úvahách o aplikaci molekulárních dat na populace zvířat ex situ ve stylu přístupném profesionálům v zoo a akváriích. Nakonec máme v úmyslu, aby tyto shromážděné informace sloužily jako zdroj pro komunitu a pomohly zajistit, aby molekulární projekty přímo a účinně prospívaly dlouhodobému přetrvávání populací ex situ.


Metody

Smíšený RF model

V následujícím textu označujeme y jako vektor odezvy fenotypových pozorování v N. Vzorky, y=(y1, …, yN.), a X jako matice, která obsahuje genetický stav odpovídajících vzorků v M genetické lokusy, X= (x1, …, XM). V závislosti na genetickém systému různé kódování pro X může být použito. Pro usnadnění následující prezentace předpokládáme binární kódování, které lze přímo použít pro homozygotní systémy, kde „0“ odpovídá hlavní alele v populaci a „1“ označuje vedlejší alelu. Navrhovanou metodu a všechny derivace však lze přímo rozšířit na více stavů, jako jsou heterozygotní genetické systémy.

Předpokládáme, že jde o fenotypový znak y lze modelovat aditivním způsobem

Tady, u označuje náhodný efekt zachycující (polygenní) pozadí a odpovídá nezávislému gaussovskému šumu. Požadovaný genetický efekt je parametrizován F (X). V případě lineárního vztahu F (X)=, model implikovaný rovnicí (2) odpovídá široce používanému LMM (například odkazy 1, 2, 3).

Zde je naším cílem přizpůsobit obecnější nelineární vztahy s F (X). Přistupujeme k tomu tím, že se učíme soubor regresních stromů, každý pěstovaný na náhodném podvzorku, aby se odvodila hlučná varianta genetického fixního účinku. Naučené stromy odrážejí přínos jednotlivých genetických vlastností k fenotypovému rozptylu spíše než globální korelaci - nebo rodinnou strukturu, která je zachycena náhodným efektem.

Nejprve stanovíme odvození genetického fixního efektu ft (X) pro jeden regresní strom. Poté se řídíme principem sáčkování implementovaným ve standardním RF a naší konečnou predikcí pro F (X) se vypočítá jako průměr z jednotlivých fixních efektů odvozených stromy.

Běžné regresní stromy se pěstují rekurzivně rozdělením dat tak, aby s každým rozdělením došlo ke snížení fenotypové variance (ΔR.) je maximalizován - nebo ekvivalentně - součet rozptylů mezi výslednými oddíly R.(tL)+R.(tR.) je minimalizován (tL a tR. označte levý a pravý strom indukovaný uvažovaným rozdělením). Sada životaschopných rozdělení je dána dostupnými genetickými znaky.

V případě binárního kódování každá funkce Xj znamená přesně jedno životaschopné rozdělení, oddělující vzorky pro který Xij= 1 od těch, kteří mají Xij= 0. Prohledáváme proto náš prostor genetických znaků, abychom určili index funkce maximalizující snížení rozptylu v daném uzlu t, tj.

Klíčovým vhledem k odvození smíšeného RF je přepsat toto kritérium rozdělení (ΔR.) jako odpovídající log logická pravděpodobnost LM, která má tvar:

Tady, y(t) je vektor pozorování spojený s uzlem t. (y(tL), y(tR.)) T je přeuspořádaná verze y(t), takže jednotlivci jsou přiřazeni k části vzorku pomocí X(t)ij=0 (y(tL)) a X(t)ij=1 (y(tR.)). V této reprezentaci βb a βj označte zkreslení vzorku v uzlu t a štípací hmotnost Xj. označuje nemodifikovaný zbytkový rozptyl. Stručněji napíšeme rovnici (3) jako

Pomocí této notace můžeme vrhnout optimalizaci rozdělení (rovnice (3)) z pohledu LM

kde klobouky označují parametry, které jsou odhadnuty pomocí maximální pravděpodobnosti.

V reprezentaci LM lze pravděpodobnost rozdělení v rovnici (4) přímo rozšířit na LMM účtující polygenní kovarianci pozadí Σ (odkazy 2, 9)

Zde označuje rozptyl, který lze připsat polygenní kovarianci pozadí a kterou jsme definovali. Nový cíl pro určení nejlepšího rozdělení je pak

Aby byla zachována traktabilita odvození parametrů modelu s maximální pravděpodobností, používáme stejné výpočetní triky jako v referencích 2 a 9 (podrobnosti viz doplňková poznámka 1).

Podobně jako u RF dosahujeme robustnosti naší metody tím, že se učíme soubor regresních stromů smíšených lesů, každý pěstovaný na náhodném podvzorku dat. Zde vycházíme z předpokladu, že účinek populační struktury na daný vzorek bootstrapu je podobný jako u celých dat. Abychom využili perspektivu LM z rovnice (5), podmnožíme řádky a sloupce Σ podle toho, spíše než (znovu) počítat místní matici příbuznosti pro každý strom. Podobně odhadujeme δ na nulovém modelu pro celý soubor, který je analogický s populárními aproximacemi v klasickém LMM 2,9.

Předvídat fenotyp pro daný testovací genotyp X*, procházíme každý naučený strom běžným způsobem rozhodovacího stromu, dokud nedosáhneme koncového uzlu a nevrátíme jeho přidružený průměr. Analogicky ke standardnímu RF, odezva m* se vypočítá jako průměr z průměrů vrácených jednotlivými stromy.

Struktura populace zachycená termínem náhodného účinku navíc přispívá k prediktivní distribuci, podobně jako BLUP 36. Podle modelu s náhodným efektem je společná distribuce tréninkových a testových odpovědí vícerozměrným Gaussovým

kde průměr je dán efektem fixovaným tréninkem m tak, jak byly namontovány během postupu stavby lesa.

Tréninková kovarianční matice ΣX,X a křížová kovariance se získá podmnožinou Σ, které lze odhadnout z matice prediktoru celého genomu nebo vybraných oblastí podmnožiny (například chromozomy viz experiment s mapováním eQTL myší). Naše předpověď pro fenotyp viděného genetického znaku X* je průměr podmíněného rozdělení y*|y, které lze přímo odvodit ze společného rozdělení (rovnice (7))

Tento prediktivní průměr je nezávislý na. Kromě toho můžeme znovu použít δ získané z nulového modelu, a tím získat všechna množství potřebná k výpočtu (další podrobnosti viz také doplňková poznámka 1 a odkaz 61).

Všimněte si, že u tohoto modelu jsme se rozhodli odvodit fixní efekt jako průměr nad jednotlivými fixními efekty založenými na stromech a provést samostatný odhad populačního efektu v samostatném kroku. Alternativně by bylo možné zvážit odhad pevných i populačních efektů pro každý strom a použít průměr jako konečnou předpověď. Podle našich zkušeností oba přístupy přinesly téměř identické výsledky, a proto jsme zvolili výpočetně efektivnější variantu, abychom vytvořili globální odhad populačního efektu.

Optimální hloubku stromu lze efektivně vybrat během tréninku, kde je použit pouze tréninkový podíl datové sady. Pro každý strom t, použijeme vzorek mimo tašku (tj. část tréninkové sady, která nebyla použita ke stavbě t) k výpočtu takzvané predikce out-of-bag. Postupujeme analogicky k predikci souboru ukázané v rovnici (7) se dvěma výjimkami. Za prvé, genetický fixní efekt je nyní počítán pouze z jediného stromu (namísto průměru ze stromů), a za druhé, náhodný efekt v tomto modelu obsahuje křížové kovariance mezi vzorky v pytli a mimo pytle ( spíše než křížové kovariance mezi tréninkem a testovacím vzorkem). Pro každý strom t, tento model formalizujeme následovně:

Odhad fixního účinku je vektor složený z reakce stromu mÓ vzhledem k vzorku mimo sáček XÓa střední hodnota pro vzorek v sáčku mb. (Křížové) kovarianty tohoto modelu se získají podmnožinou Σ. Nyní můžeme použít celý stromový model k vytvoření predikce pro výpočet podmíněné (gaussovské) distribuce. Průměrováním všech stromů do určité hloubky získáme předpověď celého tréninkového vektoru, která je porovnána s y střední čtvercovou chybou.

Tuto chybu (znovu) vyhodnotíme po každém cyklu postupu pěstování lesů, který zvýší hloubku všech stromů o jeden. Pokud se chyba dále nesnižuje, pěstování stromů se zastaví. Hloubka (lesní) vedoucí k nejnižší chybě se použije pro predikci na nezávislém testovacím vzorku.

Poznamenáváme, že - při použití tohoto přístupu ke kontrole složitosti modelu - je třeba dávat pozor při kombinování tohoto přístupu s opatřeními důležitými pro specifické rysy pro RF. Například relevance hlášené měřením důležitosti permutace 28 mohou být zkreslené, přinejmenším pokud jsou použity stejné vzorky z vaku, které určují hloubku stromu.

Podrobnosti o implementaci

Smíšený RF je implementace založená na pythonu, která poskytuje rozhraní podobné metodám učení obsaženým v scikit-learn 62. V programovacím jazyce C ++ byly implementovány základní rutiny, které vyžadují značné množství modulu runtime (například procedura rozdělení).

Pro RF jsme použili implementaci poskytovanou balíčkem scikit-learn python 62. Upravili jsme obsažený modul RF 63, aby také vrátil skóre funkcí, jak je používá naše metoda a balíček 64 náhodného lesního prostředí.

Význam funkcí a statistická významnost

V návaznosti na předchozí práci na RF 10 zvažujeme analogii zbytkového součtu míry důležitosti čtverců (RFRSS). Na úrovni individuálního rozdělení lze RFRSS stejně považovat za poměr log-pravděpodobnosti modelu s ohledem na rozdělení/funkci a alternativu, která odpovídá společnému průměru (viz rovnice (3)). Na rozdíl od standardního RFRSS počítáme analogový log-pravděpodobnostní poměr podle LMM (rovnice (5)). Důležité je, že RFRSS a naše odvozené skóre jsou úměrné limitu bez populační struktury (pokud ano δ inklinuje k nekonečnu nebo odhadovaná matice kinsip je identita).

I když se ukázalo, že tento přístup je účinný pro hodnocení funkcí 10, nepřináší přímo statistické úrovně významnosti jednotlivých funkcí. Za tímto účelem poznamenáváme, že permutační schémata byla úspěšně kombinována s RF pro použití v genetice 30,56. Tyto přístupy lze přímo aplikovat na smíšený RF. V takovém schématu by bylo možné permutovat SNP, které se používají pro učení funkcí RF, přičemž by byl zachován vztah mezi kovarianční maticí náhodného účinku (příbuznost) a fenotypem neporušený. Ten je důležitý pro zachování kontroly nad populační strukturou, viz například ref. 65. Alternativně byly pro LMM 57,58 navrženy přístupy založené na simulaci. Za předpokladu, že je možné z dat správně odhadnout efekty nezávislého hluku a struktury populace, mohou tyto metody pomoci dále zlepšit statistickou sílu/dobu běhu ve srovnání s přístupy založenými na permutaci.

Nastavení lesních parametrů

Obecně jsme se snažili udržet nastavení parametrů mezi RF a smíšeným RF tak konzistentní a srovnatelné, jak je to jen možné. Pokud není uvedeno jinak, uvažovali jsme o souborech 250 stromů pro RF i smíšené RF. Každý strom byl pěstován na vzorku bootstrapu (vzorkování s výměnou) plné velikosti tréninkové sady. Pro určení nejlepšího rozdělení jsme zvážili náhodný dílčí vzorek 2/5 všech dostupných prediktorů. Pokud to však výpočetní prostředky umožňují, může být zváženo přizpůsobení tohoto parametru (například prostřednictvím křížové validace) za účelem dalšího zlepšení výkonu. Rozdělení uzlů stromů bylo zastaveno, pokud obsahovaly méně než pět vzorků.

Implementace srovnávacích partnerů

S výjimkou runtime experimentů používáme k „implementaci“ standardní RF vlastní smíšenou implementaci RF. Toho lze přímo dosáhnout nastavením kovarianční matice Σ na matici identity, kde smíšený RF je ekvivalentní standardnímu RF.

LASSO byl použit k optimalizaci následující LM

kde X označuje plnou matici M genomické rysy (sloupce) pro N. jednotlivci (řádky), y je N. × 1 vektor fenotypových měření a je iid Gaussovým šumem. LASSO minimalizuje průměrnou druhou mocninu chyby penalizované L1 vzhledem k hmotnosti modelu β

Implementace LASSO, kterou jsme zvažovali, byla obsažena v balíčku scikit-learn python 62. V něm nastavíme optimalizační metodu na (výchozí) algoritmus sestupu souřadnic, abychom našli nejpravděpodobnější váhy funkcí.

LMM LASSO model 17 je koncepčně přímočarým rozšířením modelu LASSO v rovnici (10), která také zahrnuje náhodný efekt u vysvětlit zmatenost

Tady kovariance Σ je identický s kovariancí použitou ve smíšené RF a může být, pokud je zamýšleno modelování struktury populace, odhadován pomocí realizované matice vztahů (RRM) 66. V důsledku toho aktualizovaná chybová funkce nyní také zahrnuje příspěvek náhodného efektu

Další podrobnosti k odvození v tomto modelu naleznete v odkazu. 17. Opět jsme použili scikit-learn jako základ pro implementaci LMM LASSO.

Abychom vyhověli LMM, použili jsme implementaci založenou na pythonu, která následuje po odvození fastLMM 2. Standardní LM je implementováno ve stejném rámci, nastavení Σ=.

LM-BLUP je jednoduché dvoustupňové rozšíření LM. V prvním kroku odhadujeme účinek struktury populace při výpočtu BLUP 36 na základě matice příbuznosti, kterou používá také naše smíšená RF a LMM LASSO. Odečteme odhadovaný účinek populace od fenotypu a vypočítáme univariační LM ve druhém stupni na zbytcích.

RF-BLUP implementuje analogovou korekci založenou na BLUP pro efekty populace a vypočítává standardní RF na zbytcích.

Simulační studie

Použili jsme genetické vlastnosti získané ve formě SNP ze studie společnosti Atwell a kol. 35. Pro každý simulační experiment jsme uvažovali náhodnou podmnožinu 1 000 SNP s frekvencí vedlejších alel (MAF)> 0,1. V našem základním nastavení (jak je uvedeno hvězdičkou na obr. 2) simulujeme celkem 50 znaků pro 250 jedinců následujícím způsobem: tři náhodně zvolené SNP byly považovány za kauzální markery pro simulaci lineárních aditivních efektů a byly vybrány další tři páry SNP přispět epistatickými efekty

Efekty interakce byly simulovány odebráním binárního produktu podle složek, jak je uvedeno výše operátorem „int“. To odpovídá interakcím mezi oběma menšími alelami. V zásadě jsou smíšené RF a RF agnostické vůči typu epistázy, a proto jsme neuvažovali o jiných interakcích (major – major, major – minor atd.). Výsledný vektor se vynásobí velikostí simulovaného efektu β. Polygenní účinek u je vzorek z vícerozměrného gaussiánu s realizovanou vztahovou maticí Σ 66 jako kovarianční.

Tady, Σ je konstruován z další podvzorky 1 000 SNP. Příspěvky fixního genetického efektu, polygenního efektu a nezávislého gaussovského šumu k celkovému rozptylu vlastností jsou rozděleny na 0,375: 0,5: 0,125 upravující a podle toho. Abychom porovnali alternativní metody v různých genetických prostředích, měníme relativní počet aditivních a interakčních pojmů (6: 0–0: 6, obr. 2a), poměr rozptylu podle struktury populace a nezávislého šumu (0,1–0,9, obr. 2b), celkový počet aditiv a interakčních členů (1 interakce a 1 aditivní termín – 10 interakcí a 10 aditivních členů, obr. 2c) a relativní příspěvek nezávislého šumu (0,125–0,59, doplňkový obrázek 2d) upravující simulační sadu -up (rovnice (15)) podle toho.

Zde používáme bootstrapování polovičního počtu vzorků pro RF i smíšené RF. K získání hodnot vlastností pro používáme zbytkové součty čtverců (RFRSS), jak je popsáno výše.

U LASSO i LMM LASSO jsme postupovali podle ref. 17 a skóroval funkce podle jejich pořadí zařazení. Tento přístup se vyhýbá volbě pevné regularizace postupným snižováním parametru smrštění λ dokud nejsou do modelu zahrnuty všechny proměnné.

Abychom posoudili důležitost funkcí pro univariační LM (LM a LMM), používáme testy poměru pravděpodobnosti 67.

Opravit zmatenost v těchto experimentech na polosyntetických A. thaliana Data využíváme realizovanou matici vztahů, která byla použita k simulaci struktury populace.

Experiment s mapováním eQTL myší

Zvažovali jsme genovou expresi měřenou v hippocampusové tkáni 468 heterogenních zásobních (HS) myší, kde byla poskytnuta informace o genotypu ve formě 12 545 genomových SNP 39. Z celkem 19 892 výrazových znaků jsme vybrali 10 nejlepších percentilů seřazených podle rozptylu (1 989). Z nich by 373 mohlo být spojeno alespoň s jednou dráhou Reactome. Abychom vytvořili asociaci mezi SNP a geny v databázi dráhy, zvážili jsme všechny (ENSEMBL) anotované geny v 500kb okně kolem SNP. Asociace mezi SNP X a gen j byl považován za „reaktomní konzistentní“, pokud je alespoň jeden z genů spojen se SNP X měl společnou cestu s genem j.

Nezvažovali jsme odkazy, které byly vyvolány cis efekty podle našeho prahu vzdálenosti 500 kB. Dále jsme vyloučili expresní znaky, které byly spojeny s méně než 10 nebo více než 1 000 SNP. U každé metody jsme seřadili SNP podle jejich skóre QTL pro všech 300 zbývajících znaků, což vedlo k jedinému hodnocení všech párů 300*12 545 SNP – znak. Každý bod na křivce, jak je znázorněno na obr. 3, udává počet reaktomních konzistentních asociací, které se obnoví, normalizované počtem konzistentních asociací očekávaných od náhodného hodnocení SNP.

Pro vyhodnocování eQTL používáme stejná měřítka důležitosti funkcí jako v naší simulační studii, s výjimkou LASSO a LMM LASSO. Zde jsme zjistili, že nedávno navržený výběr stability 54 je robustnější (viz také diskuse v odkazu 17). Důvodem je to, že na rozdíl od naší simulační studie agregujeme velký počet znaků, z nichž každý má jiný počet informativních genetických vlastností (pokud existují). Pouhé použití hodností z inkluzní cesty v jednom běhu LASSO by bylo nevhodné, protože to by nezohledňovalo proměnlivý počet informačních značek pro každý znak.

Implementovali jsme výběr stability následujícím způsobem. Pro každý z výrazových znaků jsme náhodně odebrali vzorky 90% dat bez náhrady a naučili jsme se model LASSO/LMM LASSO tak, že obsahuje 20 funkcí (úprava parametru smrštění λ podle toho). Toto náhodné vzorkování a učení jsme opakovali 1 000krát a uvedli jsme zlomek případů, kdy byla funkce vybrána jako skóre důležitosti.

Abychom odhadli příbuznost pro smíšené RF a LMM LASSO, nejprve jsme použili jednoduchý lineární asociační test k seřazení všech SNP podle jejich log logického poměru 67 a následně jsme vybrali 1 000 nejlepších genetických vlastností pro vytvoření RRM. Toto hodnocení se vyhýbá zahrnutí funkcí, které málo vysvětlují celkovou odchylku (viz také odkaz 33 na diskusi o výběru podmnožin funkcí pro vytváření RRM).

Predikční experiment globálních myších fenotypů

Vybrali jsme celkem 124 fenotypů (od biochemických rysů po rysy chování) naměřených na celkem 1 904 myších HS jedincích 49,68 (úplný seznam viz Doplňková data 1). Části stejné kohorty byly použity pro mapování eQTL, takže máme stejnou informaci o genotypu 12 545 genomových SNP.

Pro predikci myších fenotypů jsme použili soubory 100 stromů. Abychom se naučili každý smíšený RF regresní strom, náhodně jsme vzorkovali bez náhrady polovinu tréninkové sady. Zbývá tak zbývající polovina tréninkových dat pro úpravu hloubky stromů. Pro RF používáme podvzorkování s náhradou, protože použitý balíček 62 pythonu neposkytuje podvzorkování bez náhrady.

Pro úlohu predikce fenotypu byla dostupná velikost vzorku mnohem větší (ve srovnání s experimentem s mapováním eQTL dříve), a proto jsme použili všech 12 545 genetických znaků k odhadu struktury populace pomocí RRM jako dříve. Alternativně by mohlo být zváženo filtrování funkcí založené na hodnosti jako u výše uvedené studie eQTL, což může zlepšit predikční výkon metod s termíny s náhodným efektem.

Parametr smrštění λ požadované pro LASSO a LMM LASSO bylo vybráno pomocí vnořené pětinásobné randomizované křížové validace na jemné mřížce.

Aplikace na data NFBC

Analyzovali jsme data z kohorty 50 NFBC1966 s ohledem na čtyři fenotypy krevních lipidů (C-reaktivní protein, triglyceridy, hladiny lipoproteinu s nízkou hustotou a hladinu cholesterolu lipoproteinů s vysokou hustotou) pro celkem 5 256 nesouvisejících jedinců. Podle přístupu přijatého v ref. 52, kvantilně jsme normalizovali každý znak, abychom sledovali normální rozdělení jednotkového rozptylu. Genetické znaky (SNP) jsme použili pro celkem 328 517 variant s MAF alespoň 1%. Stejnou sadu SNP jsme použili k odhadu realizované matice vztahů používané ke korekci účinků populační struktury.

Pro každý ze čtyř lipidových znaků jsme se naučili smíšený RF s 250 stromy. Abychom se vyhnuli nevyrovnaným stromům, pěstovali jsme stromy do maximální hloubky 12 (≈log2(5256)). K naučení každého regresora jsme použili náhodnou podvzorku poloviny jednotlivců (nakreslených bez náhrady). Zde bylo 60% genetických vlastností náhodně podvzorkováno pro provedení každého rozdělení. Seřadíme všechny genetické lokusy (SNP) podle jejich skóre a uvedeme 40 nejlepších zásahů seřazených podle chromozomu a polohy (viz doplňková data 2).

Runtime a výpočetní složitost

Obecně je doba běhu všech mapovacích metod (LMM, LMM LASSO, standardní RF a smíšená RF) lineárně škálována s počtem markerů. Toto je velmi důležitý rys, protože typický počet markerů drasticky převyšuje počet jednotlivců. Metody se však liší v závislosti na jejich závislosti na počtu jednotlivců. Metody korigující pro populační strukturu (LMM, LMM LASSO a smíšený RF) měří kubický s počtem jedinců (kvůli rozkladu singulární hodnoty realizované matice vztahů). Pro srovnání, standardní RF měří pouze se složitostí v počtu jedinců.

Množství paměti požadované smíšenou RF je kvadratické v počtu vzorků (ukládání realizované matice vztahů Σ) a jinak podobné standardnímu RF (tj. lineárnímu v počtu genetických znaků).

Optimalizace implementací regresního stromu je složitý úkol. V době psaní tohoto článku je naše metoda primárně vyladěna pro zvládnutí mnoha genetických vlastností (tj. Scénářů, kde MN.). Významná zrychlení lze očekávat, pokud použijeme aproximaci matice vztahů na nízké úrovni (Σ), což umožňuje použít stejné výpočetní triky jako v ref. 2. Lze také zvážit úpravu složitosti modelu (hloubky stromů) pro úkoly výběru funkcí. V důsledku toho je zapotřebí méně rozdělení, čímž se zkrátí doba běhu.

Pro predikci myšího fenotypu běží naše metody na datech s 1 940 jedinci, z nichž každý má 12 545 genetických znaků (SNP). Pro daný fenotyp trvá současná smíšená implementace RF v průměru přibližně 1 402 s (s empirickým rozlišením 1 096 s) na jeden násobek v rámci pětinásobné křížové validace. Velké rozdíly v době běhu jsou dány individuálními hloubkami, do kterých jsou lesy pěstovány. Pokud tedy hodláte trénovat jeden model na datové sadě podobné velikosti, lze očekávat dobu běhu 5–40 minut. Pro srovnání, RF trvá 103 s (s.d. 36 s), tj. Obvykle 1,5–2,5 min pro jeden znak. U zbývajících metod jsme změřili následující doby běhu: LMM LASSO 521 s (s.d. 177 s), LASSO 598 s (s.d. 148 s) a BLUP 12 s (s.d. 2 s). V případě naší smíšené implementace RF požadavek na paměť nikdy nepřekročil dva gigabajty RAM.

Všechny experimenty (včetně aplikace smíšeného RF na Norhtern Finnland Birth Cohort) byly provedeny na jednotlivých procesorech Intel Xeon E5-2670 2,60 GHz.

Dostupnost softwaru

Smíšený RF je součástí softwarového balíčku LIMIX 69, který je volně dostupný na https://github.com/PMBio/limix.


Výsledky a diskuse

Optimalizace založená na MCMC: Analytický příklad

Před aplikací výše uvedených metod na neanalytické modely nejprve prozkoumáme vlastnosti optimalizací založených na MCMC v jednodušším případě, kde lze provést srovnání s jinými implementacemi. Konkrétně uplatňujeme různé přístupy k maximalizaci pravděpodobnosti log s ohledem na délky větví pro pevný strom podle modelu WAG.

Za prvé, v tomto modelu lze použít simulovanou metodu žíhání. Obrázek 1a ukazuje vývoj celkové délky stromu během prvních 100 iterací simulovaného cyklu žíhání na základě proporcionálního plánu chlazení, přičemž počáteční τ = 1 se podle (3) zvýšilo na τ>> 10 000, přičemž δ = 1,1. Jak je vidět, řetěz začíná poněkud nevyzpytatelným chováním, osciluje kolem, ale postupně tíhne k délce stromu získaného pomocí balíčku PAML (Yang, 1997). Nakonec však po 100 iteracích řetěz trochu minul značku.

Zjistili jsme, že lineární chladicí schéma je snadněji nastavitelné než proporcionální chlazení a je méně pravděpodobné, že se uvězí v suboptimálních konfiguracích, když se řetěz přiblíží k bodu tuhnutí. Na obrázku 1b jsme začali od τ = 1 a aktualizovali jsme podle (4) s δ = 100. Řetězec konverguje k v podstatě identickým hodnotám délky větví, jak je vráceno PAML v přibližně 35 iteracích. Při ladění 5 = 500 (obr. 1c) byly délky větví ML získány přibližně v 18 iteracích.

Markovův řetěz Monte Carlo odhad maximální pravděpodobnosti délky stromu. V a, b, a c se používá simulované žíhání. V d, e a f používáme optimalizaci gradientu Monte Carlo ze dvou výchozích bodů a každé na základě vzorku 100 mapování. V g, h a i používáme maximalizaci očekávání Monte Carla, opět ze dvou výchozích bodů, na základě mapování 10 (g), 100 (h) a 1000 (i). V každém panelu je nakreslena přerušovaná čára pro délku stromu vrácenou PAML (Yang, 1997).

Markovův řetěz Monte Carlo odhad maximální pravděpodobnosti délky stromu. V a, b, a c se používá simulované žíhání. V d, e a f používáme optimalizaci gradientu Monte Carlo ze dvou výchozích bodů a každé na základě vzorku 100 mapování. V g, h a i používáme maximalizaci očekávání Monte Carla, opět ze dvou výchozích bodů, na základě mapování 10 (g), 100 (h) a 1000 (i). V každém panelu je nakreslena přerušovaná čára pro délku stromu vrácenou PAML (Yang, 1997).

Dále jsme prozkoumali algoritmus MCG, jako první schéma optimalizace latentního stavu. Nielsen (2002) navrhl přímočarou metodu DA, která v modelech jako WAG umožňuje přímé vzorkování mapování substitucí. Pomocí Nielsenovy metody jsme nakreslili vzorek mapování pro odhad gradientu log-pravděpodobnosti, jak je napsáno v (6), v MCG optimalizaci délek větví. Jak je znázorněno na obr. 1d, obr. 1e a obr. Lf, významné množství ladění pokusů a omylů metody optimalizace gradientu může být důležité pro zkrácení času CPU. V tomto případě byla očekávání odhadnuta na základě vzorku 100 mapování a byly upraveny pouze parametry kroku (δ) iteračního schématu v (6). Jako hrubé průzkumy jsme nastavili stejnou hodnotu pro každý parametr kroku délky větve v průběhu běhu, přičemž δ = 0,000001 in (obrázek 1d, δ = 0,00001) na obrázku 1e a nakonec δ = 0,00005 na obrázku if.

V tomto příkladu jsme také vyzkoušeli algoritmus MCEM. Opět jsme se spoléhali na Nielsenovu metodu, kreslení vzorků substitučních mapování pro odhad očekávání, následované maximalizačním krokem uvedeným v (8). V tomto případě přesnost algoritmu závisí pouze na velikosti vzorku použitého k odhadu očekávání, protože krok maximalizace je analytický (dodatek 2). Pomocí vzorku 10 mapování jsou pozorovány významné výkyvy celkové délky stromu od jedné iterace MCEM k další (obrázek 1g). Fluktuace jsou redukovány pomocí 100 mapování (obr. 1h) a stávají se zanedbatelnými (± 0,001 přirozených log-pravděpodobnostních jednotek) pomocí 1000 mapování (obr. 1i).

Toto potvrzení mezi metodami, stejně jako u balíčku PAML, je užitečnou kontrolou a pomáhá získat představu o obecném chování metod MCMC. V tomto konkrétním případě dáváme přednost algoritmu MCEM, i když pouze pro skutečnost, že ladění je založeno výhradně na velikosti vzorku pro E-krok. Ve skutečnosti lze velikost vzorku zvýšit „online“ například 10krát každých 10 iterací nebo podle jakéhokoli jiného schématu. Je však třeba poznamenat, že chyba Monte Carlo klesá pouze s druhou odmocninou velikosti vzorku a že MCEM není nutně nejlepší volbou pro všechny kontexty, pokud jde o výpočetní požadavky, jak ilustrujeme na příkladu níže.

Optimalizace založená na MCMC: Neanalytické příklady

V předchozím pododdíle jsme aplikovali techniky Monte Carlo pro optimalizaci parametrů na případ, kdy takové metody nejsou nutné. PAML skutečně překonal všechny tyto přístupy k optimalizaci MCMC, pokud jde o výpočetní čas, a metody mohou mít u jednodušších modelů malou hodnotu. V této podsekci však zkoumáme neanalytické modely, pro které standardní optimalizační techniky nejsou přímo možné.

Náš první neanalytický příklad spočívá v optimalizaci parametru tvaru, α, pro model +Γ, stále pomocí matice WAG, a prozatím s pevnými délkami větví (získanými pod WAG). Vycházeje ze dvou různých počátečních hodnot, obrázek 2 ukazuje postup α jako funkci iterací MCEM (vektory rychlosti vzorkování v E-kroku). Algoritmus MCEM opět rychle konverguje - přibližně do 20 iterací - a fluktuace odhadu se postupně snižují, protože počet vektorů rychlosti vzorkovaných při každé iteraci se zvyšuje z 10 (obr. 2a) na 100 (obr. 2b) na 1000 (obr. 2c). Konečná dosažená hodnota je = 0,73. Ačkoli tento odhad není přímo srovnatelný s diskrétními gama modely, provozovali jsme PAML pomocí různých počtů kategorií. Odhady jsou obecně velmi podobné při použití 4 kategorií, PAML vrací = 0,72, 8 kategorií dává = 0,69, 16 kategorií dává = 0,68 a nakonec při použití 32 kategorií je odhad = 0,70. Tyto mírné fluktuace ilustrují, jak počet použitých kategorií mění aproximaci gama, a přestože diskrétní aproximace může být vhodná pro mnoho praktických aplikací, metody PX pro spojité distribuce by mohly mít několik výhod (Mateiu a Rannala, 2006), zvláště když jsou použity postupy diskretizace na pochybách (např. Yang et al., 2000 Susko et al., 2003 Mayrose et al., 2005) nebo když jsou místně specifické náhodné proměnné vícerozměrné (např. Lartillot a Philippe, 2004 Pond and Muse, 2005).

Algoritmus maximalizace očekávání Monte Carlo pro odhad ze dvou výchozích bodů. E-krok algoritmu-Monte Carlo odhad očekávání-se provádí losováním 10 a), 100 b) a 1000 c).

Algoritmus maximalizace očekávání Monte Carlo pro odhad ze dvou výchozích bodů. E-krok algoritmu-Monte Carlo odhad očekávání-se provádí losováním 10 a), 100 b) a 1000 c).

Náš další neanalytický příklad se týká modelu SC+β, kde chceme optimalizovat β, stále na základě pevných délek větví. Nejprve jsme spustili optimalizaci MCEM pomocí vzorku 100 mapování a 100 sekvencí (pro přiblížení uvedené v rovnici (8)). Všimněte si, že v této souvislosti Nielsenova metoda slouží ke generování navrhovaného mapování (Rodrigue et al., 2005), které má být přijato nebo odmítnuto podle pravidla MH závislého na celé lokalitě. Obr. 3a ukazuje prvních 20 iterací MCEM, které zobrazují zubaté chování při pokusu upravit hodnotu p tak, aby byly zrušeny dva termíny derivace funkce log-pravděpodobnosti (viz rovnice (4)). Naproti tomu optimalizace MCG za stejných podmínek velikosti vzorku je mnohem efektivnější, konverguje s 5 iteracemi (obr. 3b).

Monte Carlo odhad β. V a je použit algoritmus maximalizace očekávání Monte Carlo s odhadem očekávání Monte Carlo na základě 100 remíz. V b se optimalizace přechodu Monte Carlo používá ze dvou výchozích bodů, každý na základě 100 losování.

Monte Carlo odhad β. V a je použit algoritmus maximalizace očekávání Monte Carlo s odhadem očekávání Monte Carlo na základě 100 losování. V b se optimalizace přechodu Monte Carlo používá ze dvou výchozích bodů, každý na základě 100 losování.

V obou těchto příkladech je zajímavé poznamenat, že zatímco jsme upravili parametry tak, abychom maximalizovali pravděpodobnost protokolu, nevypočítali jsme samotnou pravděpodobnost protokolu. Toto oddělení mezi optimalizací log-pravděpodobnosti a výpočtem log-pravděpodobnosti je klíčovým rysem metodik latentního stavu a je analogické s vlastností, která nám umožňuje odebrat vzorky ze zadní, aniž by měla pravděpodobnost uzavřené formy.

Normální aproximace pozdějších distribucí

Použití normálních aproximací v Bayesovské analýze často slouží jako první krok ke konstrukci pozdějších distribucí podle nových statistických modelů (Gelman et al., 2004). Uvažujeme zde o modelech typu +Γ a SC a zaměřujeme se na jejich rozlišovací parametry (α respektive β).

Nejprve jsme v modelu WAG+Γ marginalizovali délky větví pomocí vzorkovacího modulu PX, přičemž jsme optimalizovali s ohledem na α (zde daný jednotný předchozí) pomocí MCEM algoritmu. Tím se příklad zjednoduší v tom, že zůstane univariační, a zároveň nám umožní soustředit se na úplný zadní α. Konečné iterace MCEM byly založeny na vzorku 100 sad délek větví a vektorů rychlosti, stejně jako odhad rozptylu (s odkazem na rovnici (9)). Použili jsme odhady průměru a rozptylu pro trasování funkce normální hustoty pravděpodobnosti a porovnali jsme tuto stopu s histogramem hustoty získaným pomocí vzorkovacích rychlostí modulu PX, délek větví a α (obrázek 4). Tyto dva různé grafy hustoty jsou poměrně podobné, i když se histogram jeví zkosený doprava, zvláště když α>> 1. V tomto rozsahu skutečně tvar distribuce gama neprochází dramatickými změnami s malými odchylkami v α, což vede k zploštělý pravděpodobnostní povrch. To ilustruje důležitý bod: vzhledem k omezeným údajům se úplný zadní může lišit od normální distribuce a takové aproximace mají pouze poskytnout obecný pocit umístění a difuzivity pro požadovaný parametr.

Vykreslení zadní hustoty α, aproximováno úplným vzorkováním Metropolis-Hastings (histogram) a normální aproximací (přerušovaná čára).

Vykreslení zadní hustoty α, aproximováno úplným vzorkováním Metropolis-Hastings (histogram) a normální aproximací (přerušovaná čára).

Vykreslení zadní hustoty β. V panelu a byl histogram generován pomocí úplného vzorkování Metropolis-Hastings. Panel b ukazuje stopu hustoty generovanou pomocí termodynamické integrace (Rodrigue et al. 2006). Na obou panelech je zobrazena normální aproximace (přerušovaná čára).

Vykreslení zadní hustoty β. V panelu a byl histogram generován pomocí úplného vzorkování Metropolis-Hastings. Panel b ukazuje stopu hustoty generovanou pomocí termodynamické integrace (Rodrigue et al. 2006). Na obou panelech je zobrazena normální aproximace (přerušovaná čára).

Vzhledem k tomu, že plný MCMC vzorkování β je založeno na aproximaci v (4), což by mohlo narušit podmínky Markovových řetězových konvergenčních vět, provedli jsme třetí běh pomocí metody termodynamické integrace popsané v Rodrigue et al. (2006). Tato poslední metoda má výhodu libovolné přesnosti za cenu času CPU a mírná členitost stopy pozdější hustoty (obrázek 5b) dává kvalitativní smysl pro kolísání Monte Carla v průběhu integrace.Zde však opět platí, že pozdější hustota β získaná termodynamickou metodou se dobře shoduje s normální aproximací, což poskytuje rozumné potvrzení ve všech metodách. Na druhou stranu normální aproximace vyžaduje pouze zlomek času CPU kterékoli z těchto dvou dalších metod. To se může ukázat jako užitečné, když je hlavním zájmem pozdější rozdělení β nebo analogických parametrů (Robinson et al., 2003 Rodrigue et al., 2005), zejména při aproximaci posteriorů v několika různých datových podskupinách (Yu a Thorne, 2006a).

Normální aproximace Bayesových faktorů

Nakonec jsme použili Laplaceův aproximační přístup k odhadu Bayesových faktorů ve všech zde uvedených modelech, stejně jako termodynamické integrační metody popsané v Lartillot a Philippe (2006) a Rodrigue et al. (2006). Jak již bylo zmíněno dříve, termodynamickou metodu lze naladit na libovolnou požadovanou přesnost a výsledky podle tohoto přístupu používáme jako referenční hodnoty. Naše hrubá strategie zde spočívala v spouštění triplikátů pro každý typ výpočtu a postupné ladění vzorkovačů MCMC tak, aby při zaokrouhlování na nejbližší přirozenou logovou jednotku byly získány stejné výsledky pro všechny tři běhy. Poté jsme porovnali přesnost a čas CPU obou metod.

U Laplaceovy metody jsme nejprve maximalizovali log-pravděpodobnost s ohledem na délky větví a případně na α a β. U všech modelů kromě typu SC jsme pro celkovou optimalizaci použili algoritmus MCEM. Pro modely typu SC+β jsme však použili kombinovaný algoritmus MCEM-MCG, který při každé iteraci provádí M-krok na délkách větví (a α, je-li to relevantní) a gradientový krok na β. Ve všech případech byly konečné odhady očekávání pro optimalizaci a Laplaceovu aproximaci založeny na vzorcích 10 000 substitučních map, rychlostních vektorů (pro +Γ případy) a sekvencí (pro +β případy). Pro konkrétní konfiguraci byly výpočty log-pravděpodobnostních rozdílů mezi analytickým a neanalytickým modelem provedeny pomocí omezených forem termodynamických metod popsaných v Lartillot a Philippe (2006) a Rodrigue et al. (2006).

Výsledné Bayesovy faktory jsou ve srovnání s úplnými termodynamickými odhady pozoruhodně přesné, přičemž rozdíl je maximálně v jedné log jednotce (tabulka 1). Důležité však je, že Laplaceova aproximace vyžadovala mnohem méně času CPU. Důvody pro takto zkrácený výpočetní čas jsou kombinací několika faktorů. Za prvé, na rozdíl od úplného vzorkování MCMC u všech přípustných nastavení parametrů, jsou optimalizace zaměřeny na jeden optimální bod. Pokud je konvergence k tomuto bodu rychlá, bude zapotřebí mnohem méně vyhodnocení pravděpodobnostních funkcí, než by tomu bylo u plnohodnotného vzorkování ze zadní strany. Algoritmy lze také použít s velmi malými vzorky (řekněme 10) k získání hrubých odhadů parametrů, které mají být použity jako výchozí bod rafinovanějších běhů MCEM nebo MCG atd. V našich analýzách jsme vždy předcházeli konečným iteracím MCEM nebo MCG s takovými hrubými odhady, které bylo možné získat během několika minut. Algoritmy MCEM a MCG a omezená termodynamická metoda dále výrazně snižují celkový vzorkování jako marginalizace přes MCMC se zaměřuje na latentní stavy. A konečně, Laplaceova aproximace pro Bayesovy faktory závisí na předpokladu normálnosti kolem optimálního bodu, s použitím odhadu zakřivení povrchu pravděpodobnosti, volně řečeno, plná termodynamická metoda musí tyto informace efektivně získat pomocí vzorkování hrubou silou.

Přirozený logaritmus Bayesova faktoru pro uvažované modely, přičemž jako reference byl použit POISSON.


Podívejte se na video: Historie a současnost využití PSA v diagnostice karcinomu prostaty (Leden 2022).