Informace

Jaký test použít k detekci genomových podpisů výběru?


Chtěl bych vás požádat o vaše návrhy na výběr testu pro detekci podpisů výběru v následujícím modelu myši:

Máme tři skupiny: zvířata vykazující znak A, znak B a kontroly. Tato zvířata byla vybrána za poslední 4 desetiletí (kontroly byly spárovány náhodně a nevykazují žádné rysy). To je celkem 170 generací (~ 4 generace za rok).

Chceme detekovat genomové podpisy selekce pro znak A a B.

Jsem nový v populační genomice, ale podle tohoto článku (http://www.ncbi.nlm.nih.gov/pubmed/21218185) ukazuje strom desition (obr. 1). Měl bych použít první a nedeskvilibrický test FST a Linckage, vzhledem k tomu, že časové měřítko by bylo krátké (40 let, 170 generací) a existuje několik populací.

Mohli byste potvrdit, zda je to správný přístup?

dík


V této odpovědi předpokládám, že nemáte žádné informace o tom, jaké prostředí ovlivňuje selekční tlak, takže nelze použít metody jako Bayenv2.

Standardní algoritmy jsou:

  • Lewontin-Krakauerův test
  • fdist
  • BayeScan
  • FLK
  • PCAdapt

Whitlock a Lotterhos 2014 ukázaly, že FLK a Bayenv2 nejčastěji dosahují lepších výsledků než ostatní tři. Řada článků (Meirmans 2012, Bierne et al 2013, De Mita et al 2013 a Fourcade et al 2013) také ukázala, že fdist a BayeScan trpí vysokou mírou falešně pozitivních výsledků. Doporučil bych proto jít s FLK, ale pravděpodobně nejsem dost dobrý na to, abych mohl dávat velmi dobré rady.

Všimněte si, že byste se měli naučit něco o tom, jak tyto algoritmy fungují, a nepoužívat je slepě.


Abstraktní

Domestikované ovce byly vystaveny umělému výběru pro produkci vlákniny, masa a mléka i přirozenému výběru. Takové selekce pravděpodobně vnesly do genomu ovcí výrazné podpisy výběru. Detekce selekčních podpisů napříč genomem proto může pomoci objasnit mechanismy selekce a určit zájmové kandidátské geny pro další zkoumání. Zde byla detekce selekčních podpisů provedena u tří plemen ovcí, Sunite (n= 66), německý skopový (n= 159) a Dorper (n= 93) pomocí pole Illumina OvineSNP50 Genotyping BeadChip. Každé zvíře poskytlo informace o genotypu pro 43 273 autozomálně jednonukleotidových polymorfismů (SNP). Přijali jsme dvě komplementární statistiky založené na haplotypu relativní homozygotnosti rozšířeného haplotypu (REHH) a testy homozygotnosti rozšířeného haplotypu (XP-EHH) napříč populací. Celkem bylo identifikováno 707, 755 a 438 genomických oblastí podrobených pozitivní selekci u ovcí Sunite, German Skop a Dorper a 42 z těchto oblastí bylo detekováno pomocí analýz REHH i XP-EHH. Tyto genomové oblasti nesly mnoho důležitých genů, které byly obohaceny o termíny genové ontologie zapojené do vývoje svalů, růstu a metabolismu tuků. Čtrnáct těchto genomových oblastí se překrývalo s těmi, které byly identifikovány v našich předchozích genomových asociačních studiích, což dále naznačuje, že tyto geny v pozitivní selekci mohou být základem růstových rysů růstu. Tato zjištění přispívají k identifikaci zájmových kandidátských genů a pomáhají porozumět evolučním a biologickým mechanismům kontroly komplexních znaků u čínských a západních ovcí.


Detekce celého genomu nedávných signatur výběru u skotu Sarabi: jedinečné plemeno íránského taurinu

Identifikace vybraných genomických oblastí může potenciálně umožnit lepší porozumění biologii specifických fenotypů, které jsou užitečné pro vývoj nástrojů určených ke zvýšení účinnosti selekce.

Objektivní

Cílem této studie bylo detekovat jakékoli stopy nedávných selekčních podpisů a také identifikovat odpovídající geny a QTL, které jsou základem těchto selekčních podpisů u skotu Sarabi.

Metody

Vzorky od 20 zvířat byly genotypizovány pro 777 962 SNP v genomu pomocí Illumina BovineHD BeadChip. Analýza selekčních podpisů byla provedena pomocí metodiky integrovaného haplotypového skóre (iHS).

Výsledek

Celkem osm významných regionů (P Na BTA14 a BTA17 bylo detekováno <<0,0001) možných nedávných podpisů výběru. Kromě toho bylo identifikováno devět genů v regionech s selekčními podpisy, jako např KCNQ3, HHLA1, OC90, EFR3A, ADCY8, ASAP1, TMEM132B, a TMEM132C. Studie hlášených QTL v těchto oblastech genomu skotu ukázala, že jsou spojeny s důležitými znaky, jako jsou vlastnosti mléka, reprodukce a produkce.

Závěr

Výsledky odhalily více genomových oblastí a také několik nových genů při pozitivní selekci na BTA14 a BTA17. Kromě toho kandidátsky vybrané oblasti, které se překrývají s QTL hlášené v databázi QTL skotu, poskytly další důkazy o významu detekovaných vybraných oblastí. Tato studie poskytuje základ pro podrobnou analýzu identifikovaných domnělých selekčních podpisů v genomu skotu, zejména domorodých a místně vyvinutých plemen skotu, a poskytuje cestu pro dobře strukturované zlepšení plemene.


Metody

Zvířata a genotypizace

Materiálem studie byla genomová DNA získaná z krve nebo vlasových cibulek 530 zvířat odebraných ze všech čtyř plemen prasat: Polish Landrace (PL, n = 135), Puławska (PUL n = 155), Złotnicka White (ZW n = 141), Złotnicka Spotted (ZS n = 99) lišící se z hlediska výroby, reprodukce a vnějších vlastností. Zvířata byla vybrána tak, aby byla nejméně dvě generace nepříbuzná a pocházející z různých stád. Každý vzorek populace zahrnoval alespoň 7% mužů. Důvodem bylo, že jsme analyzovali chovnou populaci (reprodukční hřebčíny), ve které je podíl samců shodný s počtem kanců, kteří jsou navrženi pro přirozené matování. Všechny postupy pro zvířata byly schváleny Místním etickým výborem pro péči o zvířata č. II v Krakově - číslo povolení 1293/2016 v souladu s předpisy EU. Genomická DNA byla purifikována pomocí soupravy Sherlock AX (A & ampA Biotechnology) a po kontrole kvality byla genotypizována pomocí testu PorcineSNP60 BeadChip (Illumina) podle standardního protokolu Infinium Ultra. Kvalita získaných genotypů byla kontrolována hodnocením rychlosti volání a k další analýze byly použity pouze vzorky s více než 97% nazývaných genotypů. Ze 61 565 testovaných SNP se dále získal panel 50 485 markerů odstraněním SNP mapovaných na kontigy umístěných na pohlavních chromozomech (sestava genomu Sscrofa10.2) nebo klasifikovaných jako sondy pouze s intenzitou.

Analýza dat

Původně filtrovaná sada SNP byla dále redukována použitím populačních polymorfních filtrů. Filtrování zahrnovalo odstranění SNP s MAF nižším než 5% a SNP s více než 20% chybějících genotypů u všech plemen. Mezní hodnota MAF použitá pro filtrování SNP byla aplikována na celou populaci (všechna plemena). To umožnilo zachovat malý podíl SNP, které jsou monomorfní pouze u některých plemen (pravděpodobně z nějakého důvodu fixní, včetně selekce a příbuzenského křížení). K charakterizaci zbývajících polymorfismů SNP byla použita hodnota MAF 0,01. SNP odchylující se od HWE s kritickými P-hodnota 1,0E-06 u každého plemene zvlášť byla také odstraněna, což vedlo k výslednému panelu 43 923 běžných SNP s průměrnou vzdáleností mezi značkami 55,7 kb (± 78,0). Signály diverzifikace výběru byly detekovány pomocí párového Wrightova FSVATÝ [18], klasické měřítko genetické diferenciace populace. FSVATÝ hodnoty získané pro párové srovnání u každého SNP byly zpracovány podle metodiky navržené Akey et al. [19] a dále aplikováno dalšími studiemi [7]. Stručně řečeno, standardizovaný FSVATÝ hodnoty byly vypočteny (d) tak jako:

kde (E vlevo [_^ right] ) a (sd left [_^ right] ) označují očekávanou hodnotu a směrodatnou odchylku FSVATÝ mezi plemeny a j vypočteno ze všech analyzovaných 43 923 SNP. To umožnilo porovnat každé plemeno se všemi ostatními sledovanými plemeny. Aby se zohlednila stochasticita v variacích lokus po lokusu, bylo na získaných hodnotách dále implementováno posuvné okno 10-SNP. Kandidátem vybrané oblasti byly poté definovány jako 99,9. Percentil empirických distribucí průměrného d okna hodnoty. Sousední vybrané oblasti byly sloučeny a (při hledání obsahu genu) byly oblasti rozšířeny na obou koncích o 25 kb, aby se detekovaly sousední, potenciálně spojené geny.

Signály pozitivní selekce u jednotlivých plemen byly detekovány pomocí statistik REHH implementovaných v softwaru Sweep v.1.1 [6]. Nejprve byly získané genotypy fázovány a imputovány pomocí softwaru fastPhase [20]. Fázové genotypy byly poté použity k detekci haplotypů jádra s minimálně třemi a ne více než dvaceti SNP. Detekované nejdelší nepřekrývající se haplotypy jádra byly poté podrobeny testu EHH, který je založen na porovnání haplotypu jádra s vyšší frekvencí i vyšším EHH s jinými jádrovými haplotypy ve stejném místo. Následně pravděpodobnost, že dva náhodně vybrané haplotypy v oblasti jádra jsou shodné podle sestupu pro celý interval přesahující oblast jádra k danému místo byl vypočítán [15, 21]. Nakonec, s ohledem na rozdíly v rychlostech rekombinace napříč genomem, byla použita statistika relativní rozšířené homozygotnosti haplotypu (REHH) [15] a vypočtena na vzdálenost přibližně 1 cM (přibližně 1 Mb) [22] jak ve směru proti proudu, tak po směru (s výjimkou chromozomových konců) z každého jádra proti všem ostatním jádrům v oblasti. Pro stanovení významnosti REHH byly haplotypy přiděleny dvaceti frekvenčním zásobníkům a hodnoty REHH byly porovnány mezi stejně častými jádrovými haplotypy nalezenými v oblasti. REHH P-hodnoty byly nakonec získány logaritmickou transformací hodnot REHH v těchto zásobnících (k dosažení normality) a výpočtem střední a standardní odchylky. Základní haplotypy s nejextrémnějšími P-hodnoty (prodloužené o 0,5 Mb v každém směru) byly filtrovány na frekvenci (> 0,25) a testovány na překrývající se prasečí ENSEMBL geny pomocí UCSC Genome Browser.

Funkční anotace detekovaných genů byla provedena pomocí webového serveru KOBAS 3.0 [23] a WebGestalt (WEB-based GEneSeTAnaLysis Toolkit) [24]. Analýza obohacení seznamu genů byla provedena podle všech známých prasečích genů s použitím korekce pro vícenásobné testování.

Diferenciace populace byla dodatečně vizualizována pomocí analýzy hlavních komponent (PCA) na základě genotypů SNP a kladogramu průměrných párových FSVATÝ vzdálenosti vytvořené metodou sousedního spojování (NJ) [25].


Závěr

Kandidátní DNA podpisy byly nalezeny téměř pro všechny umělé vektorové sekvence. V malém počtu případů překrývání mezi přirozenými plazmidy a umělými vektory vylučuje detekci pomocí podpisů DNA. Až na dvě výjimky, kde byly podpisy nalezeny na k = 23 a 47, nedostatek pokrytí signatury pro vektorovou sekvenci byl vysvětlen výskytem ekvivalentního přirozeného analogu, což objasňuje limity mnoha rozdílů vektor/plazmid. Přírodní analogy musí být zahrnuty do vektorových systémů pro detekci podpisu spolu s dalšími přírodními deriváty plazmidu, které by mohly být použity k obejití detekce ze stávající sady základních podpisů. S potenciálem plazmidů převést na umělou vektorovou sekvenci [29, 30] je vývoj prediktivních podpisů DNA důležitou výzvou. Ke sledování potenciálně modifikovaných přírodních plazmidů by měly být zahrnuty minimálně podpisy z 21 plazmidů sdílejících více funkčních prvků s existující umělou vektorovou sekvencí. Zjištění, že 364 podpisů pokrývá téměř celou sadu vektorových sekvencí, znamená vysokou redundanci sekvence, takže je možné udržovat rozšiřující se databázi podpisů DNA pro sledování všech sekvenovaných vektorů.

Budoucí práce by měla být zaměřena na návrh biologického testu s využitím podpisů DNA na mikročipech k testování účinnosti detekce geneticky modifikovaných bakterií ze vzorku, který zahrnuje jak modifikované, tak přirozeně se vyskytující bakterie. Plánujeme užší spolupráci s vědci v oblasti genetického inženýrství, abychom vylepšili naše nástroje bioinformatiky a předvídali budoucí konstrukci vektorů odvozených z přirozeného plazmidu. Jako u každého pokusu čelit zlomyslnému používání technologie bude detekce genetického inženýrství u mikrobů obrovskou výzvou, která vyžaduje mnoho různých nástrojů a neustálé úsilí. Spolupráce s vědeckou komunitou na sekvenování a sledování dostupné vektorové sekvence poskytne příležitost pro podpisy DNA k podpoře detekce a odstrašení před škodlivými aplikacemi genetického inženýrství.


Slepé střevo

Gaussova aproximace k Moranovu procesu

Aproximujeme Moranovy procesy s nepřetržitým časem kombinací deterministického procesu a Gaussova šumového procesu. Sledujeme zde postup nastíněný Pollettem (1990), který vychází z výsledků Kurtze (1970, 1971). Zde použitá Gaussova aproximace se mírně liší od té, kterou popsal Nagylaki (1990) v tom, že (a) nepředpokládá, že je výběr slabý a (b) umožňuje, aby hodnoty původních a omezujících procesů v počátečním časovém bodě byly odlišný.

Moranův stochastický proces číslo popisuje n ( N. ) (t) mutantů v populaci konstantní velikosti N. v čase t. Toto číslo se může zvýšit o jedno od na + 1 se sazbou a snížit o jednu se sazbou Zde, μw a λw jsou míra narození a úmrtí divokého typu a μm a λm jsou míra narození a úmrtí mutantního typu. Předpokládáme λw = λm, μw = 1, a nechte μm = (1 + s)μw = 1 + s. Potom (A1) s definováním Let X ( N. ) (t) = n ( N. ) (t)/N. je frekvence mutanta v populaci v čase t. Limit X ( N. ) , G(t, X0) = limN.→∞X ( N. ) (t), je deterministická funkce, která za určitých podmínek pravidelnosti splňuje rovnice 1 a 2 X0 = limN.→∞X ( N. ) (0) a řešení uvedené v (3).

Nyní nechť (A2) je asymptotický proces, který popisuje hluk kolem deterministické trajektorie. Kdybychom věděli rozdělení Z(t), mohli bychom přiblížit frekvenci X ( N. ) nakonec N. podle

Proces asymptotického šumu je obecně difúzní proces, ale pokud zůstává daleko od absorpčních hranic, lze jej aproximovat Gaussovým procesem s odpovídajícími prvními dvěma momenty. Výhodou tohoto přístupu je, že první dva momenty difúzního procesu lze vypočítat analyticky, což má za následek vyjádření pro rozdělení pravděpodobnosti alelové frekvence v čase t.

Pokud je počáteční hodnota procesu omezujícího hluku, pak průměr a rozptyl procesu hluku v čase t ≥ 0 jsou Z(t) = M(t, X0)z0 a Var Z(t) = σ 2 (t, X0) respektive kde M(t, X0) splňuje rovnice (A4) (A5) a σ 2 (t, X0) splňuje rovnice (A6) (A7) Řešení rovnic A4 a A5 je dáno tím, že po dosazení a G, výnosy Řešení rovnic A6 a A7 je dáno tím, které po dosazení G a G, výnosy Pokud je skutečný stav stochastického procesu X ( N. ) je známo, že je X ( N. ) (0) v časovém bodě 0 můžeme aproximovat počáteční hodnotu procesu omezujícího hluku jako. Pak z (A3) máme Analogically, pokud je hodnota procesu X ( N. ) je známo, že je X ( N. ) (t') později t′ ≥ X0, pak včas tt„Máme (A8) (A9), kde Δt = tt“A„t a Vart označují podmíněné očekávání a rozptyl vzhledem ke stavu procesu v čase t“. Podmíněné rozdělení alelové frekvence X ( N. ) v čase t vzhledem k jeho hodnotě v čase t′ ≤ t lze aproximovat pomocí Gaussova rozdělení s průměrem daným (A8) a rozptylem daným (A9). Tuto aproximaci aplikujeme na každý pozorovací interval (t−1, t), = 1, … , L. Jak bylo uvedeno výše, počáteční hodnota deterministického procesu, X0, je bezplatný parametr, který lze osadit společně s N. a s. Nicméně jsme nastavili X0 aby se rovnal pozorované frekvenci alel ν0 v čase 0, aby se snížil počet přizpůsobených parametrů.

Všimněte si, že zde popsané aproximace fungují pro Moranův proces, který je závislý na hustotě, jak je vidět z rovnic A1. Wright -Fisherův proces nezávisí na hustotě a, přesně řečeno, zde popsané aproximace nejsou platné, i když v praxi fungují dobře.


Úvod

Zrození a vzestup lidské civilizace lze do značné míry připsat návyku a pěstování divokých rostlin a zvířat. Tento proces domestikace poskytnutím spolehlivějšího proudu zdrojů, jako jsou potraviny a oblečení, usnadnil přechod od obživy lovců a sběračů k zemědělství. U zvířat k domestikaci pravděpodobně došlo prostřednictvím vícestupňových procesů v závislosti na antropofilii divokého předka (komenzální cesta) a/nebo potřebách lidí (kořist nebo směrované cesty) 1. Bez ohledu na to, zda to bylo iniciováno předkem divokých zvířat nebo lidmi, ať už záměrně či nikoli, základní základ pro domestikaci pocházel ze sníženého strachu z lidí, tj. Z krotkosti 2. Poté mohli lidé pokračovat v procesu domestikace chovem jedinců s příznivými rysy prostřednictvím procesu nazývaného umělý výběr. Domestikace se však neomezuje pouze na umělý výběr, ale zahrnuje také uvolnění přirozených selekčních tlaků, jako je predace a hladovění, a nepřímé, neúmyslné efekty na znaky korelované se zajetím a těmi uměle vybranými 2. Kromě krotkosti vedla domestikace zvířat k řadě morfologických, fyziologických a behaviorálních změn společných mnoha druhům. Tyto společné rysy - včetně krotkosti, změn barvy srsti, modifikovaných reprodukčních cyklů, změněných hladin hormonů a neurotransmiterů a rysů neotenizace - jsou souhrnně označovány jako „domestikační syndrom“ (DS) 3.

Obecně byly navrženy dvě hypotézy, které by řídily vztah mezi vývojem DS a základními zodpovědnými geny. Za prvé, Crockford 4 navrhl, že regulace koncentrací hormonů štítné žlázy během vývoje může být spojena s neotenizovaným fenotypem DS (hypotéza hormonu štítné žlázy THH). Hormony štítné žlázy trijodthyronin a jeho prekurzor tetraiodothyronin se produkují během embryonálního a fetálního vývoje a také hrají klíčovou roli v postnatálním a juvenilním vývoji 4,5. THH byl podpořen například výzkumem u domácích kuřat, kde je fixovaná mutace v genu pro receptorový hormon stimulující štítnou žlázu do značné míry spojena s charakteristickými rysy DS 6.

Druhá hypotéza navržená Wilkinsem a kol. 3 předpovídá, že DS je důsledkem mírných deficitů v buňkách neurální lišty během embryonálního vývoje produkt umělé selekce pro chování na základě stálé genetické variace (hypotéza buněk neurální lišty NCCH). U koní byly například vybrané geny obohaceny o funkce, jako je asociativní učení, abnormální synaptické přenosy, tvar ucha a morfologie buněk neurální lišty, kromě genů přepsaných v oblastech mozku obsahujících neurony související s pohybem, učením a odměnou 7. U koček byly vybrané genomické oblasti spojeny s (i) neurotransmitery, zodpovědnými za serotonergní inervaci mozku, udržováním specifických neuronálních spojení v mozku a podmíněností strachu, (ii) smyslovým vývojem, jako je sluch, zrak a čich, a (iii) a přežití buněk neurální lišty 8. Srovnání mezi genomy vesnických psů a vlků také zdůraznilo úlohu migrace, diferenciace a vývoje buněk neurální lišty při domestikaci psů 9. Ačkoli existují důkazy pro obě hypotézy, nemusí se nutně vzájemně vylučovat a relativní přínos každé z nich se může měnit podle kontinua 5. Kromě toho, přestože je DS obecně sdílen mezi domestikovanými druhy, nemusí existovat univerzální soubor základních genetických iniciátorů a každý případ DS může pocházet z nezávislých mechanismů. Rozsáhlé zkoumání genů uměle vybraných lidmi napříč různými druhy a podmínkami pomůže zlepšit porozumění DS.

Velbloudi ze starého světa nabízejí jedinečnou příležitost ke studiu domestikace, protože si udrželi relativně vysokou úroveň genetických variací, jsou z velké části víceúčelové a postrádají sekundární překážky spojené s vývojem konkrétního plemene, často charakteristickým pro domácí druhy 10,11,12,13. Domácí velbloudi starého světa v podstatě představují rysy „počátečních fází“ procesu domestikace, které byly primárně zaměřeny na výběr pro krotkost a učenlivost. Ze tří dochovaných druhů velbloudů starého světa jsou dva domestikovaní (jednobarevní dromedáři, Camelus dromedarius, a dvouhrbý Bactrian velbloudi Camelus bactrianus) a jeden zůstává divoký (dvouhrbý divoký velbloud Camelus ferus). Velbloudi dvouhrbý, C. ferus a C. bactrianus, sdílel společného předka

1 milion let před současností (ybp) 14, zatímco společný předek všech tří druhů velbloudů starého světa existoval mezi 4,4 a 7,3 miliony ybp 14,15. Domestikovaní velbloudi jsou základním zdrojem, který milionům lidí poskytuje jídlo, práci, zboží a sport. Kromě toho má každý druh řadu adaptací na drsné pouštní podmínky, včetně mechanismů tolerujících extrémní teploty, dehydrataci a písečný terén. Nedávné genomické studie velbloudů identifikovaly vzorce výběru v souladu s výše uvedenými adaptacemi 15,16, kromě kvantifikace genetických variací a zkoumání demografické historie 15,16,17,18. Tyto studie se však omezují na analýzy z jednoho genomu každého druhu, což zkresluje mnohé závěry výběru a adaptace. Například u malé velikosti vzorku a blízce příbuzných druhů rozdíly mezi sekvencemi nemusí indikovat fixační události, ale spíše nepozorované segregující polymorfismy, což má za následek přehnané odhady Ka/Ks poměr 19. Kromě toho jsou návrhové genomy citlivé na chyby v odhadovaném počtu genů - a tím zkreslují závěry adaptace založené na ortologických genech mezi druhy (např. Ka/Ks poměr, testy expanze a kontrakce genu) 20.

V této studii používáme genomický přístup k odvozování pozitivního výběru a demografické historie velbloudů starého světa s důrazem na geny potenciálně přispívající k fenotypu DS. Vzhledem k tomu, že přímí divokí předkové každého domácího velblouda (C. dromedarius a C. bactrianus) vyhynuli po tisíciletí, na rozdíl od většiny ostatních hospodářských zvířat jsme odvozovali pozitivní výběr nezávisle na každém domestikovaném velbloudovi pomocí testů specifických pro vzor vztahu mezi nimi a jejich divokým protějškem (C. ferus). Re-sekvenováním více genomů z každého druhu jsme našli důkaz pro pozitivní selekci genů spojených s oběma hypotézami DS. Tyto výsledky spolu s rozsáhlými dostupnými genomickými zdroji jsou důležitým příspěvkem k pochopení evoluční historie velbloudů a základních genomických rysů jejich domestikace.


Přidružení

Institute of Computer Science, Foundation for Research and Technology-Hellas, Nikolaou Plastira 100, 70013, Heraklion, Crete, Greece

Nikolaos Alachiotis a zesilovač Pavlos Pavlidis

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Příspěvky

N.A. a P.P. navrhl studii, provedl experimenty a napsal článek N.A., který vytvořil algoritmus a napsal kód.

Odpovídající autoři


MATERIÁLY A METODY

Data použitá v této studii byla z IBHM (B ovine H ap M ap C onsortium a kol. 2009) a jsou k dispozici veřejnosti na www.bovinehapmap.org. IBHM hodnotil genotypy zvířat z 19 plemen skotu (viz tabulka 1) plus jednotlivá zvířata dvou druhů přesahujících skupiny (Anoa a Water Buffalo), která nebyla do této studie zahrnuta. Včetně vzorkování Bos taurus, B. indicus a syntetická plemena z různých geografických lokalit a historicky odlišných chovatelských cílů (tabulka 1). Studie zahrnovala 497 zvířat. IBHM odebrala vzorky 24 zvířat z každého plemene, s výjimkou Red Angus (12), Holstein (53) a Limousin (42). Zvířata obecně nesouvisela, s výjimkou několika plemen, u nichž byla zahrnuta tria rodičů a potomků, aby pomohla ověřit genotypizaci. Potomci těchto trií nebyli v této studii uvažováni.

Plemena zahrnutá do studie a jejich příslušná místa původu a odběru vzorků

Pro IBHM byly získány genotypy pro 37 470 jednonukleotidových polymorfismů (SNP). V této analýze byly vzaty v úvahu pouze ty SNP, které byly přiřazeny chromozomu (29 autosomů a X) v Btau_4.0 sestavení skotu, ale ponechaly 32 689 SNP. Distribuce SNP mezi chromozomy je v tabulce 2. Chromozomy 6, 14 a 25 měly v IBHM více SNP, protože tyto chromozomy byly speciálně cílené, protože mají geny ovlivňující ekonomicky důležité fenotypové znaky u skotu (K hatkar a kol. 2004).

Informace týkající se počtu a hustoty SNP a testů významnosti pro každý chromozom (BTA)

Statistika testu:

Statistika testu použitá v této studii byla odvozena z práce K im a S tephan (2002) a upravena N ielsen a kol. (2005). Tento přístup je založen na výpočtu složené pravděpodobnosti alelických frekvencí SNP pozorovaných přes „posuvná okna“ sousedních lokusů. Přístupy K im a S tephan (2002) a N ielsen a kol. (2005) se spoléhal na složený poměr pravděpodobnosti pro testování významnosti, zatímco naše metoda používala testování permutace. Tyto tři metody se liší v navrhovaném teoretickém rozdělení alelických frekvencí. K im a S tephan (2002) použili genetický model, zatímco N ielsen a kol. (2005) porovnal dva přístupy: (a) pozorované diskrétní rozdělení alelických frekvencí ve všech lokusech a (b) parametrické rozdělení předpokládané k popisu alelických frekvencí lokusů při absenci selekce. V této studii byly alelické frekvence SNP modelovány tak, aby sledovaly jednoduchou binomickou distribuci. Přístup k testu permutace byl považován za robustnější tím, že byl založen na specifické distribuci alelických frekvencí pozorovaných v datech, spíše než na teoretické distribuci.

Pro konstrukci testu byla vypočtena frekvence hlavní alely pro každý lokus na každém chromozomu u všech plemen, aby se získaly očekávané frekvence u skotu vybraného pro žádný konkrétní fenotypový znak. Protože se některá plemena lišila v počtu zahrnutých zvířat, četnosti byly nejprve vypočítány v rámci plemene a poté zprůměrovány napříč plemeny. Tyto alelické frekvence (vyjádřené jako podíl) lze označit pij pro jth SNP (j = 1 až n) na ten chromozom ( = 1 až 30), kde n je počet SNP na chromozomu .

Poté byl proces opakován pro podskupinu plemen se společným fenotypem, pro které byly hledány podpisy výběru. Tyto frekvence byly označeny pij.

Počínaje lokusem j = 1 z BTA1, (záporná) parametrická složená logická pravděpodobnost (CLL) byla vypočtena pro posuvná okna w SNP, podle následujícího vzorce: (1) kde dij je náhodné čerpání z distribuce alelických frekvencí s pravým průměrem = Tij. Pro všechny lokusy kde pij nebo pij ≥ 0,95, přesné pravděpodobnosti byly vypočteny podle binomického rozdělení. Pro loci kde pij a pij <0,95, byla použita normální aproximace binomického rozdělení.

CLL byla vypočítána pro tři velikosti posuvných oken: w = 5, 9 a 19 SNP.

Permutační test:

Procedura testování permutace byla inspirována metodou vyvinutou C hurchillem a D oergeem (1994) pro testování významnosti v multilokusovém mapování vazeb. Pro každý chromozom byly stanoveny prahové hodnoty kritických hodnot pro chybu typu I. Pro daný chromozom , postup byl zahájen náhodným výběrem bez náhrady n × 24 jedinců z celého souboru 497 jedinců z 19 plemen, kde n je počet plemen se společným fenotypem (nebo selekčním cílem), u nichž se hledají podpisy výběru. Chcete -li vybrat tyto jedince, nejprve bylo plemeno vybráno náhodně a poté byl vybrán jedinec z tohoto plemene. Tento dvoukrokový proces byl nezbytný, aby se zabránilo nadměrnému (pod) zastoupení plemen s více než 24 zvířaty v celé datové sadě. Poté byly vypočteny CLL pro posuvná okna SNP podle rovnice 1. Maximální CLL pak bylo zaznamenáno pro každou z 50 000 permutací. Tento proces se opakoval pro každý chromozom a pro podmnožiny různého počtu n plemena. Stanovení distribuce CLL pro každý chromozom bylo nutné k zohlednění rozdílů mezi chromozomy ve fyzické délce a počtu SNP, jakož i jakýchkoli rozdílů ve vazebné nerovnováze. Kritické hodnoty (kritická pravděpodobnost složeného log loga, CCLL) pro testování významnosti na hladinách α = 0,25, 0,10, 0,05 a 0,01 byly stanoveny na úrovni celého genomu tříděním 50 000 maximálních CLL pro každý chromozom a uložením 416., 166., 83. respektive 16. největší hodnota. Tyto CCLL α (pro chromozom BTA a příslušné hladiny a) byly poté porovnány s CLLij identifikovat genomové oblasti s výrazně odlišnými alelickými frekvencemi, než jaké se očekávají u náhodného vzorku jedinců. Takové regiony byly považovány za nositele podpisů výběru.

Tento přístup testování permutací poskytuje určité výhody oproti jiným metodám založeným na konstrukci poměrů pravděpodobnosti. Zaprvé to vylučuje potřebu vytvoření konkrétních předpokladů o genetickém modelu, který je základem skutečných dat, nebo simulovaných dat, která budou použita pro konstrukci poměru pravděpodobnosti. Za druhé, tento přístup testování permutace lze použít na další testovací statistiky, jako například FSVATÝ nebo míry nerovnováhy vazeb, které lze použít k detekci signatur výběru. Je však použitelný pouze pro studie jako IBHM, které zahrnují velký počet geneticky rozmanitých populací, jako jsou plemena hospodářských zvířat.

Ověření se známými lokusy:

Schopnost této metody identifikovat signatury selekce byla testována její aplikací na dvě podskupiny plemen se společnými fenotypy, černou barvou srsti a nedostatkem rohů, přičemž oba jsou řízeny geny v přesně definovaných genomických lokalitách. M atukumalli a kol. (2009) použili skupiny plemen se stejným párem znaků pro charakterizaci a vyhodnocení přesnosti testu typizace SNP s vysokou hustotou u skotu.

Barva černé srsti:

Barva srsti u skotu je do značné míry určena polymorfismem v genu pro melanocortin 1 receptor (MC1R) na BTA18. V tomto lokusu existují alespoň tři hlavní alely, divoký typ E +, dominantní černý lokus E D a recesivní červený lokus (K lungland a kol. 1995). MC1R se nachází mezi 13 776 888 a 13 778 639 bp (build Btau_4.0). Mezi plemeny v IBHM mají Holsteins a Angus charakteristický černý fenotyp vyplývající z přítomnosti E D. Proto byla vytvořena podmnožina s použitím údajů z těchto dvou plemen a CLL18j byly vypočteny pro BTA18 a porovnány s CCLL 18,0.01 na základě náhodných vzorků 48 skotu. Do panelu pro analýzu IBHM nebyly zahrnuty žádné SNP v MC1R, dva nejbližší SNP lemovaly MC1R, s bp 13,497,415 a 14,111,894.

Absence rohů:

Skot je přirozeně rohatý a většina plemen zahrnutých v IBHM sdílí tento fenotyp. Dominantní mutace však může způsobit, že dobytek bude bezrohý nebo bude dotázán. Tato podmínka je obecně považována za žádoucí ve většině produkčních prostředí. Therefore, some breeds have been selected to be 100% polled, including the Angus and Red Angus in the IBHM, and others such as the Hereford and Limousin breeds in the IBHM have a majority of polled animals. The gene responsible for horns has not yet been characterized, but the causative mutation has been localized to a region of ∼1 Mbp on the proximal end of BTA1 (B renneman a kol. 1996 D rögemüller a kol. 2005). The most recent data indicate that the polled gene lies between bp 600,000 and 1,600,000 (D rögemüller a kol. 2005).

CLL1j were therefore calculated for a subset of the four breeds with significant numbers of polled animals (tj., Angus, Red Angus, Hereford, and Limousin). To gauge significance, the CLL1j were compared to CCLL 1,0.01 generated with random groups of 96 individuals.

Search for selection signatures for dairy production:

The method was then applied to all chromosomes, by using the B. taurus breeds selected primarily for milk production. This subset comprised five breeds, Brown Swiss, Guernsey, Holstein, Jersey, and Norwegian Red. CLLij were calculated for a subset of these five breeds and compared to CCLL ,0.01 of randomly sampled groups of 120 (tj., 5 × 24) individuals. Following this procedure, the SNP windows with the greatest CLL were identified for each chromosome and the number of distinct selection signatures was counted. Adjacent signatures were considered “distinct” if they were separated by at least three consecutive windows with nonsignificant CLL (P > 0.05, genome-wide).

The approach described above would tend to detect putative signatures of selection that were associated with mutations creating alleles with positive influences on dairy production that occurred prior to divergence of the B. taurus into specialized breeds. However, in some instances, recombination might have occurred in these regions after the radiation of founder populations of specific breeds. When this happens, each single breed of the subset could be expected to have significant differences in SNP allele frequencies from the entire IBHM, but the direction of the difference may differ from breed to breed. In such a case, averaging allele frequencies across the subset would tend to “cancel out” the significant differences in the individual breeds, precluding detection of a signature of selection.

Therefore, the test was also applied separately to each of the five breeds, by comparing CLLij to CCLL α created through random sampling of 24 individuals. Regions where statistically significant CLL was observed in multiple breeds were then identified, and assumed to represent signatures of selection for dairy traits, even if no signature was observed in the combined data from all five dairy breeds.

Test of ascertainment bias:

The approach used to select genetic markers can introduce ascertainment bias in population genetics studies (N ielsen 2004). No specific adjustments were made in this study to account for possible sources of ascertainment bias. However, several features of the analysis applied herein were assumed to render it relatively robust against ascertainment bias. First, the basis for the study was a large group of very diverse breeds (B runelle a kol. 2008 B ovine H ap M ap C onsortium a kol. 2009 S eabury a kol. 2010), including breeds that did and did not contribute significantly to the SNP ascertainment process. Also, the test sets always included multiple breeds, decreasing the influence of any single breed. As noted earlier, the method described and applied here is only applicable to studies of multiple breeds, such as would be available in a HapMap study. Second, windows of SNP were used, limiting the influence of any single SNP for which ascertainment bias may be present. Finally, a certain proportion of any ascertainment bias that may have been present would have contributed to greater variability in the permutation test as well as the actual tests for selection signatures.

Nevertheless, a specific investigation of one possible source of ascertainment bias was undertaken. As noted earlier, the IBHM included a wide group of breeds, including B. taurus, B. indicus, and hybrid breeds. Given their diverse domestication history and documented genomic differences (např., B runelle a kol. 2008 B ovine H ap M ap C onsortium a kol. 2009 S eabury a kol. 2010), including both taurine and indicine breeds in the study had the potential to introduce ascertainment bias. A parallel study was thus done to examine this possibility. Specifically, the tests for selection signatures in dairy breeds were also performed by using a subset of the IBHM from which the indicine and hybrid breeds (Beefmaster, Brahman, Gir, Nelore, Santa Gertrudis, and Sheko) had been removed. The parallel study was initially performed for the first 10 chromosomes. Results with and without the indicine breeds were quite similar. The correlation of CLL from the two analyses was ∼0.70. Perhaps more importantly, the extreme values of CLL generally fell in the same genomic regions in both analyses. However, exclusion of the indicine breeds greatly decreased significance of the results. First, historical selection for milk production in the indicine breeds has been weak or indirect, or both, decreasing the potential for allelic differences between the five dairy breeds and the overall population. Second, removing these breeds decreased the precision of the test. For these reasons, inclusion of both taurine and indicine breeds was deemed the best strategy and only those results will be discussed further.


Pozadí

Domestication is the process of animal adaptation to captive environment and human interventions such as providing protection, offering food and promoting animal breeding [1]. Compared to their wild ancestors, domestic animals have great variation in behavior, morphology and physiology in response to domestication, and this variation is the result of genetic changes across many generations. The genetic differentiation among domestic animals and their wild ancestors is influenced by multiple mechanisms, including selection, mutation, drift and gene flow [2]. Detecting selective signatures associated with domestication is important for understanding the genetic basis of both adaptations to new environments and rapid phenotype change. In recent years, whole-genome resequencing delivers a comprehensive view of detecting the signatures left by domestication, such as in pig [3], chickens [4], dogs [5] and yaks [6].

Chinese domestic ducks are among the earliest domesticated waterfowl in the world dating back to 2228 years before present (YBP) [7]. China is famous for its abundance of waterfowl breeds, as many as 31 domestic duck breeds have been recognized. Owing to domestication and directional breeding, domestic ducks have many typical characteristics in morphology, behavior and production performance, such as reduction in brain size [8], leg morphology changes [9], decrease aggression behaviors [10] and higher egg productivity. Domestic ducks have been bred for various purposes, such as egg and/or meat production. Shaoxing and Shanma ducks are Chinese excellent egg-type duck breeds, characterized by small body size, early maturity and high productivity. In Chinese written history, Shaoxing duck can be traced back to the Song Dynasty about 1000 years ago. Through 50 years of systematic breeding, the egg production of Shaoxing ducks reached 300 at the age of 500 days [11]. Shanma duck, another famous Chinese indigenous duck, has been domesticated for 400 years in Fujian Province [12]. Fenghua (FH) duck is a special dual-purpose local duck breed in Zhejiang Province, which has similar appearance with mallards. Different from other domestic breeds, Fenghua duck still retains some habits of wild ducks such as seasonal reproduction, flying and high disease resistance, because of the short time of domestication. Chinese Pekin ducks are named Cherry Valley Pekin ducks after they were exported to the United Kingdom in1872. After more than 100 years of intensive selection, Cherry Valley Pekin ducks are famous for their fast-growth, high lean rate and high feed conversion ratio [13].

Although many studies have been conducted on the diversity and origin of Chinese domestic ducks by applying microsatellite markers, mitochondrial DNA sequencing and whole-genome resequencing, the origin and evolution of Chinese domestic ducks are still debated. Some scholars suggest that Chinese domestic ducks originated from wild mallards [14, 15], while others argue that domestic ducks might also originate from Chinese spot-billed ducks [16, 17]. Mallard is the most common wild duck species in China, which is of particular economic importance [18]. Chinese spot-billed duck is a close relative of mallard, with distributions partially overlapping in most of Japan, Korea, and northeastern China [19]. Owing to the observed hybridization of mallards and spot-billed ducks in East Asia [19], another hypothesis suggests that domestic ducks might originate from hybrids of mallards and spot-billed ducks [17, 20].

Ducks are not only economically import, but serve as important non-model study systems in evolutionary biology [21]. Thus, elucidating the evolutionary history of the various domestic breeds is essential when attempting to understand how different selective regimes have shaped their genetic variation. Therefore, we sequenced the genomes of 60 individuals from two wild populations, the spot-billed ducks and mallards, and four indigenous Chinese breeds (Fenghua, Shaoxing, Shanma and Cherry Valley Pekin ducks) to explore the genetic relationships among wild and domestic ducks and identify the genomic footprints of selection during the domestication of native ducks.


Výsledek

The Test Statistics

The primary goal of our study was to detect evidence of recent, local positive selection from the whole-genome SNP data of both the International HapMap Project and Perlegen Sciences [14,15]. For the Perlegen dataset, we used the data from all 71 unrelated individuals sampled in three groups: African American (23), European American (24), and Han Chinese (24). For the HapMap dataset, we only included unrelated individuals from three groups specifically 60 Yorubans, 40 Europeans, and 45 Han Chinese (see Methods). Given the obvious shared ancestry between the groups in Perlegen and HapMap, we hereafter refer to them as Africans (Afr), Europeans (Eur), and Chinese (Chn), respectively.

Our approach is based on the idea of extended haplotype homozygosity (EHH). First proposed by Sabeti et al. [25], the EHH statistic is a measure of the decay of identity of haplotypes as a function of distance from a “core” allele, and the EHH associated with an allele that has risen to a particular frequency under neutrality is expected to differ from the EHH of an allele that has risen to the same frequency by positive selection. Under neutral genetic drift, a young derived allele that is at low frequency will have few associated recombination events, and therefore will have low haplotype diversity and high EHH, whereas a high-frequency ancestral allele will have high haplotype diversity and low EHH because of the many recombination events that have occurred. A young derived allele under positive selection, however, rises rapidly in frequency while retaining extensive EHH, and leaves the alternative allele in low frequency with low EHH.

Previous approaches compare the EHH decay between the alleles (hereafter, we refer to the EHH of an allele as EHHA) of a site/core-haplotype within a single population, so that the alleles with excessive EHH and high allele frequency indicate positive selection [21,25]. An obvious caveat of this approach is that the intrapopulation comparison has low power when the selected allele is at high frequency, and becomes impossible when the selected allele is fixed. Seeking a novel strategy to overcome this problem, our approach compares the decay of EHH of an individual SNP site (EHHS), rather than EHHA, between populations. EHHS is defined as the decay of identity of haplotypes starting from the tested SNP site of a population as a function of distance. Starting at site i, the normalized EHHS at site j would be:

This is the haplotype homozygosity between a j normalized by the homozygosity at site já. Note that both the haplotype homozygosity and homozygosity calculations are based on the site, regardless of the status of each allele.

In principle, EHHS is roughly the average EHHA for the two alternative alleles weighted by their squared allele frequencies, and starts at a value of one and decays towards zero (Figure 1A). EHHS is therefore largely determined by the EHHA of the high-frequency allele, decaying very fast under neutrality when the dominating allele is the ancestral allele, or remaining extensive when the beneficial derived allele sweeps to a very high allele frequency or to fixation (Figure 1A).


Podívejte se na video: VÝSLEDKY VAŠEHO GENETICKÉHO TESTU (Listopad 2021).