Informace

Jak identifikovat geny?


Ty a já jsme na úrovni DNA odlišní. Můj gen pro barvu očí se liší od vašeho. Moje DNA je tedy jiná než ta vaše. Jak může vědec identifikovat určitý gen v chromozomu (a jeho funkci), pokud jsou chromozomy odlišné? Jak můžeme mluvit o „lidské“ DNA, když ji nikdo nesdílí (kromě dvojčat)? Toto je praktická otázka, jak vědci identifikují geny, ne filozofická (otázka, která mě trápí pokaždé, když čtu o objevech v genetice)


Předně: Nejsme příliš odlišní na genetické úrovni - identita je někde kolem 99,6 až 99,9%. Podrobnosti najdete zde. Pokud by to tak nebylo, nefungovaly by věci jako transfuze krve nebo transplantace orgánů.

K identifikaci genů existují různé cesty. „Za starých časů“ (myšleno před možností masivního vysokovýkonného sekvenování nebo DNA mikročipů) byly geny obvykle objeveny, když byly spojeny s nemocí, která měla znatelný fenotyp. Vědci se poté pokusili zjistit, který protein nebo dráha byla ovlivněna, a odtud se vydali zpět, aby identifikovali genetickou oblast. Tento způsob objevování byl relativně pomalý. Příkladem tohoto druhu identifikace je identifikace genu Mitf, který je důležitý pro vývoj pigmentace.

Pokud sekvenujete DNA (zde nezáleží na tom, zda se jedná o úplné genomy nebo pouze o jejich části), můžete identifikovat geny založené na homologii s již známými geny. Můžete také předpovídat přítomnost genů v určité sekvenci na základě regulačních sekvencí v oblasti před genem (promotor). Tyto sekvence jsou známé a také vysoce konzervované, takže to dává dobrý odhad. Predikované geny je obvykle nutné ověřit experimentálně.

Co se dnes dělá, jsou takzvané „genomové asociační studie“. Zde vezmete velkou kohortu lidí, kteří všichni sdílejí jeden fenotyp (například modrou barvu očí). Poté vezmete druhou skupinu lidí, kteří tento fenotyp nevykazují, a analyzujete jejich genomy (obvykle sekvenováním nebo genotypizací SNP). Poté porovnáte obě skupiny a zjistíte rozdíly. V ideálním případě pak můžete víceméně přímo identifikovat příčinnou mutaci, která je zodpovědná za fenotypový rozdíl mezi oběma studijními skupinami. To je obvykle také nutné dále ověřit.


Sekvenování fenotypu: Identifikace genů, které způsobují fenotyp, přímo ze sdruženého sekvenování nezávislých mutantů

Affiliations Institute for Genomics and Proteomics, University of California Los Angeles, Los Angeles, California, United States of America, Department of Chemical Engineering, University of California Los Angeles, Los Angeles, California, United States of America

Příslušné oddělení lidské genetiky, Kalifornská univerzita v Los Angeles, Los Angeles, Kalifornie, Spojené státy americké

Affiliations Institute for Genomics and Proteomics, University of California Los Angeles, Los Angeles, California, United States of America, Department of Chemical Engineering, University of California Los Angeles, Los Angeles, California, United States of America

Affiliations Institute for Genomics and Proteomics, University of California Los Angeles, Los Angeles, California, United States of America, Department of Chemistry and Biochemistry, University of California Los Angeles, Los Angeles, California, United States of America, Department of Computer Science, University of California Los Angeles, Los Angeles, California, United States of America, Molecular Biology Institute, University of California Los Angeles, Los Angeles, California, United States of America


Heterogenní analýza prostřednictvím shlukování

Clusterové buňky na základě korelace hodnot výrazu ..

Pojďme vybarvit uzly podle typu buňky.

Použijte 100 nejlepších variabilních genů z winsorizované matice:

Můžeme také použít opatření vážené vzdálenosti ke snížení příspěvku technického hluku. Další podrobnosti najdete v tutoriálu SCDE. Poznámka: níže uvedený blok vyhovuje modelům chyb pro všechny buňky 90+, takže to chvíli trvá.

Výše uvedený výpočet nějakou dobu trvá, takže použijme předem vypočítanou vzdálenost:


Materiály a metody

Data mikročipů

Z GEO 1 jsme stáhli datový soubor microarray související s CRC – <"type": "entrez-geo", "attrs": <"text": "GSE8671", "term_id": "8671" >> GSE8671, který porovnal transkriptom 32 prospektivně shromážděných adenomů s těmi normální sliznice od stejných jedinců (Sabates-Bellver et al., 2007). Proto jsme měli 32 vzorků CRC a 32 normálních vzorků. Použili jsme maximální hodnoty exprese pro stejné proteiny mapované z různých ID sondy. Pro normalizaci kvantilu jsme použili balíček Affy v BioConductor. Pro korekci pozadí jsme použili vestavěnou sadu MicroArray Suite (MAS5). Pro diferenciální analýzu jsme použili Limma v BioConductor.

Genové sady

Genové sady byly získány z MSigDB 2 a GeneSigDB 3. MSigDB má téměř 6769 genových sad a jsou rozděleny do pěti hlavních sbírek, z nichž � ” jsou vybrané sady genů shromážděné z různých zdrojů, jako jsou online databáze cest, publikace v PubMed a znalosti doménových odborníků. Hledali jsme v této kolekci s klíčovým slovem 𠇌olon ” a získali jsme 73 genových sad. GeneSigDB je ručně kurátorovaná databáze podpisů genové exprese a sdílí minimální překrytí mezi kategorií MSigDB C2 přibližně 8%. Poskytuje standardizovaný seznam genů pro různá vyhledávací kritéria. Při hledání jako 𠇌olon ” bylo získáno 36 genových sad.

Analýza obohacení genové sady

Ačkoli existuje mnoho variací na metodu GSEA, popisujeme verzi algoritmu vyvinutou Subramanianem a kolegy (Subramanian et al., 2005), kterou jsme nazvali standardní implementací metody, protože je nejpoužívanější formou metodou GSEA. Předpokládejme, že je datový soubor microarray získán ze dvou různých fenotypů, fenotypu 1 a fenotypu 2 (např. Kontrola vs. experimentální). Tento soubor mikročipů má hodnoty exprese pro geny napříč vzorky a každý řádek byl identifikován jedinečnou identifikací sondy. Zvažte také danou genovou sadu S, obvykle odvozenou z nějaké společné biologické kategorie. Cílem metody GSEA je zjistit, zda sada genů S vykazuje rozdílnou expresi mezi těmito dvěma fenotypy.

Nejprve metoda GSEA vypočítá asociační skóre pro každý gen, který měří rozdíl exprese tohoto genu v těchto dvou fenotypech pomocí jakékoli vhodné metriky. Asociační skóre lze například vypočítat pro každý gen s nezávislým dvěma vzorky t-statistika mezi fenotypem 1 a fenotypem 2 nebo rozdíl mezi poměry signál / šum (průměr děleno odchylkou) v každém fenotypu. Poté umístí všechny N. geny zahrnuté do seznamu L  =   <G1, G2, …, GN.> a třídí seznam podle skóre asociace každého genu r od nejpozitivnějších po nejnegativnější. Geny, které se objevují na začátku seznamu, jsou více vyjádřeny ve fenotypu 1 a geny, které se objevují na konci seznamu, jsou více vyjádřeny ve fenotypu 2. Dále GSEA projde seznam genů a vypočítá průběžný součet. Pokaždé zasáhne gen v sadě genů S, zvyšuje součet a pokaždé, když zasáhne gen, který není v sadě genů S, sníží součet. Stupeň, do kterého je součet zvýšen nebo snížen, je vážen a normalizován tak, aby celkový součet po procházení všemi geny byl 0. Nechť ES je maximální odchylka průběžného součtu od 0. Konkrétněji pro nějaký váhový parametr p, obvykle p  = 𠂑, let

Aby se určila významnost ES, metoda GSEA vytvoří řadu permutací a přepočítá ES pro každou permutaci. Permutace fenotypů v původních datech mikročipů jsou upřednostňovány před permutacemi genů v seznamu genů, protože to zachovává strukturu mezi geny. ES ’s z permutací generují nulovou distribuci a nominální p-hodnota je dána počtem permutací s větším ES než původní data. Toto nominální p-hodnota se pak použije k identifikaci, zda je tato sada genů spojena s rozdílem mezi úrovněmi genové exprese ve vzorcích těchto dvou fenotypů.

Nastavení softwaru a analýzy GSEA

Broad Institute poskytuje na svých webových stránkách snadno použitelnou samostatnou implementaci metody GSEA v Javě 4. Podle výchozího nastavení byly automaticky vyloučeny všechny sady genů s více než 500 geny nebo méně než 15 geny. Rozdíl mezi poměry signál / šum byl použit jako asociační skóre. Počet fenotypových permutací zahrnutých v nominálním p-výpočet hodnoty byl 1000. Pro každou analýzu uvádíme počet genových sad s FDR 㰥%. Spolu s těmito genovými sadami s FDR 㰥%uvádíme počet genových sad, jejichž nominální p-hodnoty jsou ρ% nebo 5%. Mezi třemi seznamy genových sad se určité překrývají, ale ani FDR 㰥%, ani nominální p-hodnoty υ% jsou nutně navzájem podmnožiny. Samozřejmě, že kolekce genových sad s nominální p-values ​​ρ% is a subset of that with nominální p-hodnoty υ%. Poskytování výsledků založených na všech třech kritériích zvyšuje robustnost zjištění, protože každé má své vlastní zásluhy.

Modelování genové/proteinové sítě

Abychom optimalizovali výpočetní čas a generování informací, použili jsme kombinovanou strategii výstavby sítě, založenou na obohacených genech z MSigDB i GeneSigDB.

Nejprve jsme spojili obohacené geny MSigDB z GSE8671 v HAPPI 5 s CS (CI>   = 𠂐.75, tj. hodnocení se čtyřmi a pěti hvězdičkami) pro vysoce kvalitní interakce, k získání sítě PPI. Na základě této sítě byla pro každý uzel vypočítána lokální topologická vlastnost (např. Stupeň uzlu, klastrový koeficient, ústřednost vzájemnosti, konektivita sousedství atd. (Wu a Chen, 2009). Poté se geny s absolutní násobnou změnou | FC |   &# x0003e   = 𠂑.5, rovná se Log2(FC)   >   = 𠂐.585, byly ponechány.

Za druhé jsme propojili obohacené geny GeneSigDB z <"type": "entrez-geo", "attrs": <"text": "GSE8671", "term_id": "8671" >> GSE8671 v HAPPI (viz textová poznámka pod čarou 5 ) s CS (CI>   = 𠂐.75, tj. hodnocení se čtyřmi a pěti hvězdičkami) pro vysoce kvalitní interakce a získání další sítě PPI. Stejným způsobem byla na základě této sítě vypočítána místní topologická vlastnost pro každý uzel. Pak se geny s absolutní změnou násobku | FC |   >   = 𠂑.5, rovná Log 2(FC)   >   = 𠂐.585, byly ponechány.

Nakonec jsme zkombinovali tyto dvě sítě, abychom vytvořili síťový model PPI specifické pro CRC s uzlem váženým okrajem pomocí Cytoscape (Shannon et al., 2003), přičemž barva uzlu představuje změnu záhybu pro každý gen, velikost uzlu představuje místní topologická vlastnost pro každý gen/protein, barva okraje a šířka okraje představující CS pro každou interakci proteinu.


Top 5 screeningových strategií genových knihoven

Tento článek vrhá světlo na prvních pět screeningových strategií genových knihoven.

Prvních pět screeningových strategií je: (1) screening pomocí hybridizace DNA (2) screening pomocí hybridizace kolonií (3) screening pomocí PCR (4) screening pomocí imunologického testu a (5) screening pomocí proteinové funkce.

1. Screening hybridizací DNA:

Cílovou sekvenci v DNA lze určit pomocí sondy DNA (obr. 9.5). Nejprve se uvažovaná dvouvláknová DNA převede teplem nebo zásadou (denaturace) na jednovlákna. Tato dvě vlákna DNA jsou oddělena vazbou na pevnou matrici, jako je nitrocelulóza nebo nylonová membrána.

Nyní se přidají jednotlivá vlákna sondy DNA (100 až 1 000 bp) značená radioizotopem. K hybridizaci (tj. Párování bází) dochází mezi komplementárními nukleotidovými sekvencemi cílové DNA a sondou. Pro stabilní párování bází by mělo odpovídat alespoň 80% bází ve dvou vláknech (cílová DNA a sonda). Hybridizovanou DNA lze detekovat autoradiograficky.

Sondy DNA:

Sondy DNA používané pro účely screeningu lze syntetizovat mnoha způsoby.

Metoda náhodného primeru:

Radioizotopem značené DNA primery mohou být vyrobeny touto technikou (obr. 9.6). Dvouvláknová DNA obsahující sekvenci potřebnou k tomu, aby sloužila jako sonda, je denaturována. Jako primery slouží směs syntetických oligonukleotidů se všemi možnými kombinacemi bází (A, G, C a T) o délce 6 nukleotidů. Některé z těchto primerů s komplementárními sekvencemi budou hybridizovat s templátovou DNA. Tato událost je zcela náhodná a pravděpodobnost je přiměřeně dobrá.

Přidáním čtyř deoxyribonukleotidů (jeden z nich je radioaktivně značený) a za přítomnosti enzymu DNA polymerázy E. coli (fragment Klenow) se primery rozšíří na templátovou DNA. Protože se používá radioaktivní značka, nově syntetizované fragmenty DNA jsou značeny na vhodných místech, a to jsou sondy DNA. Z neznačené templátové DNA lze vyrobit řadu značených sond DNA.

Neizotopické sondy DNA:

Pro produkci neizotopických sond DNA je jeden ze čtyř deoxynukleotidů (použitých pro prodloužení primerů popsaných výše) označen značkou (např. Biotin). Značení sond DNA lze detekovat pomocí chemických a enzymatických reakcí.

2. Screening pomocí Colony Hybridization:

Sekvenci DNA v transformovaných koloniích lze detekovat hybridizací s radioaktivními DNA sondami (někdy lze použít i značené sondy RNA). Někteří autoři také označují techniku ​​hybridizace kolonií jako replikaci. Stručně je popsána technika znázorněná na obr. 9.7.

Transformované buňky se pěstují jako kolonie na základní desce. Vzorky každé kolonie se přenesou do pevné matrice, jako je nitrocelulóza nebo nylonová membrána. Přenos se pečlivě provádí, aby se zachoval vzor kolonií na základní desce. Nitrocelulózový papír tedy obsahuje fotokopii vzorů kolonií základní desky. Buňky kolonií se lyžují a deproteinizují.

DNA je denaturována a nevratně navázána na matrix. Nyní se přidá radioaktivně značená sonda DNA, která hybridizuje s komplementární cílovou DNA. Nehybridizované molekuly sondy jsou odplaveny. Kolonie s hybridizovanou sondou lze identifikovat na autoradiografu. Buňky této kolonie (z hlavní desky) lze izolovat a kultivovat.

Při hybridizaci pomocí sondy DNA je mnohokrát detekováno více kolonií. Je to kvůli překrývajícím se sekvencím. K identifikaci, která kolonie má kompletní sekvenci cílového genu, budou užitečná data pozorovaná z analýzy restrikční endonukleázy.

Modifikace techniky hybridizace kolonií:

V posledních letech bylo provedeno několik vylepšení výše popsané techniky hybridizace kolonií. V technice plaque liftu se nitrocelulózový papír nanáší přímo na horní povrch agarové desky a vytváří přímý kontakt. Tímto způsobem lze odebrat plaky a z jedné desky vytvořit několik identických výtisků DNA. Tato technika zvyšuje spolehlivost. V poslední době se screening DNA knihoven provádí automatizovanými technikami.

3. Screening pomocí PCR:

Polymerázová řetězová reakce (PCR) je stejně dobrá jako hybridizační technika pro screening DNA knihoven. K přípravě primerů pro tuto metodu však musí být k dispozici adekvátní informace (o frankovací sekvenci cílové DNA). Kolonie se udržují na deskách s více stěnami, každá jamka se testuje pomocí PCR a pozitivní jamky se identifikují.

4. Screening pomocí imunologického testu:

K detekci proteinu nebo polypeptidu syntetizovaného genem (pomocí transkripce následované translací) lze použít imunologické techniky. Postup použitý pro imunologický test a hybridizační techniku ​​(již popsaný) je docela srovnatelný. Screeningový postup imunologickým testem je znázorněn na obr. 9.8 a stručně popsán níže.

Buňky se pěstují jako kolonie na základních deskách, které se přenesou do pevné matrice (tj. Nitrocelulózy). Kolonie se poté podrobí lýze a uvolněné proteiny se navážou na matrici. Tyto proteiny jsou poté ošetřeny primární protilátkou, která se specificky váže na protein (působí jako antigen), kódovaný cílovou DNA. Po odstranění nenavázané protilátky promytím se přidá druhá protilátka, která se specificky váže na první protilátku.

Nenavázané protilátky se opět odstraní promytím. Druhá protilátka nese značení enzymu (např. Koňskou červenkastou peroxidázu nebo alkalickou fosfatázu), které je na ni navázáno. Proces detekce je navržen tak, že jako bezbarvý substrát na něj působí tento enzym a vzniká barevný produkt. Kolonie, které dávají pozitivní výsledek (tj. Barevné skvrny), jsou identifikovány. Buňky specifické kolonie mohou být subkultivovány z základní desky.

5. Screening podle proteinové funkce:

Pokud je cílová DNA genové knihovny schopna syntetizovat protein (zejména enzym), který není normálně produkován hostitelskou buňkou, může být proteinová aktivita použita pro screening. Použije se specifický substrát a jeho využití kolonií buněk indikuje přítomnost enzymu, který působí na substrát. Touto technikou lze například identifikovat geny kódující enzymy a-amylázu a p-glukosidázu.


Obsah

Sirotčí geny byly poprvé objeveny, když v roce 1996 začal projekt sekvenování kvasinkového genomu. [2] Sirotčí geny představovaly odhadem 26% kvasinkového genomu, ale věřilo se, že tyto geny mohou být klasifikovány homology, když je sekvenováno více genomů. [3] V té době byla duplikace genů považována za jediný vážný model evoluce genu [2] [4] [10] a bylo zde jen několik sekvenovaných genomů pro srovnání, takže nedostatek detekovatelných homologů byl považován za nejpravděpodobnější kvůli nedostatek sekvenčních dat a ne kvůli skutečnému nedostatku homologie. [3] Sirotčí geny stále přetrvávaly, protože množství sekvenovaných genomů rostlo, [3] [11] nakonec vedlo k závěru, že osiřelé geny jsou všudypřítomné pro všechny genomy. [2] Odhady procenta genů, které jsou sirotky, se mezi druhy velmi liší a mezi studiemi je běžně uváděn údaj 10-30%. [3]

Studium osiřelých genů se objevilo do značné míry po přelomu století. V roce 2003 proběhla studie o Caenorhabditis briggsae a příbuzné druhy porovnávaly přes 2000 genů. [3] Navrhli, že tyto geny se musí vyvíjet příliš rychle na to, aby byly detekovány, a jsou proto místy velmi rychlé evoluce. [3] V roce 2005 Wilson zkoumal 122 bakteriálních druhů, aby se pokusil zjistit, zda je velký počet sirotčích genů u mnoha druhů legitimní. [11] Studie zjistila, že je legitimní a hrála roli v bakteriální adaptaci. Definice taxonomicky omezených genů byla zavedena do literatury, aby se osiřelé geny zdály méně „tajemné“. [11]

V roce 2008 bylo zjištěno, že kvasinkový protein se zavedenou funkcí, BSC4, se vyvinul de novo z nekódujících sekvencí, jejichž homologie byla u sesterských druhů stále detekovatelná. [12]

V roce 2009 byl objeven sirotčí gen, který reguluje vnitřní biologickou síť: sirotčí gen, QQS, z Arabidopsis thaliana upravuje složení rostlin. [13] Sirotčí protein QQS interaguje s konzervovaným transkripčním faktorem, tato data vysvětlují změny ve složení (zvýšený protein), které jsou indukovány, když je QQS upraven do různých druhů. [14] V roce 2011 byla v modelové rostlině provedena komplexní studie celého genomu o rozsahu a evolučním původu osiřelých genů v rostlinách. Arabidopsis thaliana " [15]

Geny lze předběžně klasifikovat jako sirotky, pokud v blízkých druzích nelze nalézt žádné ortologické proteiny. [7]

Jednou metodou používanou k odhadu podobnosti nukleotidové nebo proteinové sekvence svědčící o homologii (tj. Podobnosti v důsledku společného původu) je Nástroj pro vyhledávání základního místního zarovnání (BLAST). BLAST umožňuje rychlé vyhledávání sekvencí dotazů v databázích velkých sekvencí. [16] [17] Simulace naznačují, že za určitých podmínek je BLAST vhodný pro detekci vzdálených příbuzných genu. [18] Geny, které jsou krátké a rychle se vyvíjejí, však mohou BLAST snadno minout. [19]

Systematická detekce homologie anotovat osiřelé geny se nazývá fylostratigrafie. [20] Phylostratigraphy generuje fylogenetický strom, ve kterém se vypočítává homologie mezi všemi geny ohniskového druhu a geny jiných druhů. Nejstarší společný předek genu určuje věk genu nebo fylostratum. Termín „sirotek“ se někdy používá pouze pro nejmladší phylostratum obsahující pouze jeden druh, ale když je široce interpretován jako taxonomicky omezený gen, může odkazovat na všechny kromě nejstaršího phylostrata, přičemž gen osiřel ve větším kladu.

Sirotčí geny pocházejí z více zdrojů, převážně z původu de novo, duplikace a rychlé divergence a horizontálního přenosu genů. [2]

De Novo Origination Edit

Nové neklasifikované geny neustále vznikají de novo z nekódujících sekvencí. [21] Tyto nové geny mohou být dostatečně prospěšné na to, aby byly zameteny k fixaci selekcí. Nebo s větší pravděpodobností zmizí zpět do negenického pozadí. Tuto druhou možnost podporuje výzkum v Drosophile, který ukazuje, že mladé geny pravděpodobně vyhynou. [22]

Geny de novo byly kdysi považovány za téměř nemožné kvůli složitým a potenciálně křehkým složitostem vytváření a udržování funkčních polypeptidů [10], ale výzkum za posledních zhruba 10 let našel několik příkladů de novo genů, z nichž některé jsou spojeny s důležitými biologickými procesy, zejména s funkcí varlat u zvířat. Geny de novo byly také nalezeny v houbách a rostlinách. [12] [23] [24] [5] [25] [26] [27] [28]

U mladých osiřelých genů je někdy možné najít homologické nekódující sekvence DNA v sesterských taxonech, což je obecně přijímáno jako silný důkaz původu de novo. Příspěvek de novo původu k taxonomicky omezeným genům staršího původu, zejména ve vztahu k tradiční teorii duplikace genů evoluce genů, však zůstává sporný. [29] [30]

Duplikace a divergence Upravit

Model duplikace a divergence pro osiřelé geny zahrnuje nový gen vytvořený z nějaké duplikace nebo divergence a procházející obdobím rychlého vývoje, kdy je ztracena veškerá detekovatelná podobnost s původně duplikovaným genem. [2] I když je toto vysvětlení v souladu se současným chápáním mechanismů duplikace, [2] počet mutací potřebných ke ztrátě detekovatelné podobnosti je dostatečně velký, aby se jednalo o vzácnou událost, [2] [18] a evoluční mechanismus, kterým genový duplikát by mohl být izolován a rozcházet se tak rychle, zůstává nejasný. [2] [31]

Úpravy horizontálního přenosu genu

Další vysvětlení toho, jak osiřelé geny vznikají, je prostřednictvím duplikačního mechanismu zvaného horizontální přenos genů, kde původní duplikovaný gen pochází ze samostatné, neznámé linie. [2] Toto vysvětlení původu osiřelých genů je zvláště relevantní u bakterií a archea, kde je běžný horizontální přenos genů.

Sirotčí geny bývají velmi krátké (

6krát kratší než zralé geny) a některé jsou slabě exprimované, tkáňově specifické a jednodušší v použití kodonů a složení aminokyselin. [32] Sirotčí geny mají tendenci kódovat více vnitřně neuspořádaných proteinů, [33] [34] [35], i když v jednom z nejlépe charakterizovaných sirotčích genů byla nalezena určitá struktura. [36] Z desítek tisíc enzymů primárního nebo specializovaného metabolismu, které byly doposud charakterizovány, žádný není sirotek, nebo dokonce zjevně omezená linie, katalýza vyžaduje stovky milionů let evoluce. [32]

Přestože byla prokázána prevalence genů pro vzácná onemocnění, o evoluční roli sirotků a o jejich výsledné důležitosti se stále diskutuje. Jedna z teorií říká, že mnoho sirotků nemá evoluční roli. [3] Řada dalších studií však ukázala, že alespoň některé sirotky jsou funkčně důležité a mohou pomoci vysvětlit vznik nových fenotypů. [2] [3] [11] [13] [14] [15]


Představujeme gen do buňky

Gen, který je pravděpodobně izolován ve formě cDNA, může být zaveden do buňky pomocí vektoru. Vektor je vehikulum, kterým se cizí DNA přenáší z jedné buňky do druhé.

Některé příklady vektorů zahrnují modifikované viry a plazmidy.

Viry jako vektory

Viry jsou vynikající vektory, protože díky dlouhým vývojovým obdobím získaly schopnost vyhnout se destrukci lidským imunitním systémem a mají schopnost dostat vlastní genetický materiál do specifických buněk. Jak jsme zkoumali v části popisující viry, virová infekce se skládá z cizího (virového) genetického materiálu, který vstupuje do buňky a využívá buněčné nukleové kyseliny a stroje na výrobu proteinů k produkci vlastní DNA, RNA a proteinů. Pro použití viru jako vektoru jsou škodlivé části jeho DNA nahrazeny požadovanou cDNA, která má být zavedena do buňky. Poté necháme virus infikovat 'naši hostitelskou buňku a pokud vše proběhne dobře, cDNA vstoupí do buňky a bude použita k výrobě požadovaného proteinu.

Některé viry mohou produkovat vlastní DNA a začlenit ji do genomu hostitelské buňky. Tyto na bázi RNA retroviry jsou nejběžnější virové vektory používané v genové terapii, kde jsou geny s terapeutickou hodnotou vloženy do retrovirů, které je po infekci začlení do genomu recipientní buňky.

Je třeba poznamenat, že viry, které mají být použity jako vektory, jsou vyrobeny tak, aby byly "defektní na replikaci". Jinými slovy, škodlivé části virového genomu, které slouží k produkci více virových částic, byly odstraněny a nahrazeny sekvencí, která kóduje požadovaný protein.

Plazmidy jako vektory

Způsob, jakým se cDNA lidského inzulínu zavádí do bakteriálních buněk, je pomocí plazmidu. Plazmid je jednoduše smyčka DNA obsahující geny, které mohou snadno difundovat do a ven z bakteriálních buněk. Ačkoli se plazmidy vyskytují přirozeně v určitých bakteriích, plasmidy používané pro zavedení a expresi cizího genu do buňky byly pozměněny do takové míry, že sekvence, které obsahují, se velmi liší od přirozeně se vyskytujících plazmidů, na nichž jsou založeny .

Za prvé, plazmid obsahuje několik specializovaných krátkých sekvencí zvaných restrikční stránky. Volaly enzymy restrikční endonukleázy rozpoznat tato místa a rozřezat plazmidovou DNA. Například restrikční enzym zvaný EcoR1 rozpoznává sekvenci GAATTC a řeže mezi G a první A. Všimněte si, že komplementární sekvence je CTTAAG, což je GAATTC zpětně! Enzym tedy rozřízne obě vlákna plazmidu takto:

Všimněte si, že řezání pomocí EcoR1 generuje dva "zástrčné konce", což jsou jednovláknové řetězce nukleotidů, které se budou vázat na komplementární sadu jednovláknových "záhybových konců". Nejdůležitější je, že plazmid je zkonstruován tak, aby tato konkrétní restrikční sekvence byla přítomna pouze jednou, což znamená, že EcoR1 bude štěpit dvouvláknový plazmid pouze na jednom místě.

CDNA (která obsahuje gen lidského inzulínu), která má být vložena do plazmidu, je pozměněna v závislosti na restrikčním enzymu, který byl použit k rozštěpení plazmidu. V souladu s naším příkladem Eco R1 by na každém konci cDNA byly zapotřebí následující „křehké konce“:

Nyní inkubujeme pozměněnou sekvenci cDNA v roztoku s plazmidem naštěpeným pomocí EcoR1 s enzymem, který spojuje kousky DNA dohromady (tzv DNA ligáza). Výsledkem je uzavřený kruhový plazmid, který obsahuje cDNA, a tedy gen lidského inzulínu.

Plazmid je následně inkubován s bakteriálními buňkami (v případě inzulínového procesu jsou použitými bakteriemi druhy zvané E-coli) za specifických podmínek, které upřednostňují absorpci plazmidu bakteriální buňkou.

Teoreticky plazmid obsahující gen lidského inzulínu vstoupí do všech bakteriálních buněk a všechny tyto buňky transkribují protein a produkují lidský inzulín, který lze poté sklidit a použít k léčbě diabetických pacientů.

Bohužel ne všechny bakteriální buňky skutečně absorbují plazmid. Ve skutečnosti to ve většině případů absorbuje relativně málo z nich. Jak mohou biotechnologové vybrat pouze ty bakteriální buňky, které absorbovaly plazmid?

Odpověď spočívá v podmínkách bakteriální kultury a v další speciální modifikaci zabudované do geneticky upravených plazmidů. Bakterie, poté, co byly inkubovány v přítomnosti plazmidu (a některé jej absorbovaly), se kultivují v médiu, které obsahuje antibiotikum, jako je ampicilin. Ampicilin zabije E-coli bakterie, pokud nejsou nějakým způsobem chráněny. Plasmid, který bakterie absorbovaly, také obsahuje gen, který propůjčuje rezistenci na ampicilin. Proto pouze ty bakterie, které absorbovaly plazmid, budou odolné vůči antibiotiku a přežijí. Protože plazmid také obsahuje gen pro lidský inzulín, umožnili jsme přežít a množit se pouze těm bakteriím, které mohou být schopné produkovat inzulín.


Homeotický gen

Naši redaktoři zkontrolují, co jste odeslali, a určí, zda článek zrevidují.

Homeotický gen, kterýkoli ze skupiny genů, které řídí strukturu těla během raného embryonálního vývoje organismů. Tyto geny kódují proteiny nazývané transkripční faktory, které směřují buňky k vytvoření různých částí těla. Homeotický protein může aktivovat jeden gen, ale potlačit jiný, čímž se vytvoří efekty, které jsou komplementární a nezbytné pro uspořádaný vývoj organismu.

Homeotické geny obsahují sekvenci DNA známou jako homeobox, která kóduje segment 60 aminokyselin v proteinu homeotického transkripčního faktoru. Pokud dojde k mutaci v homeoboxu některého z homeotických genů, organismus se nevyvíjí správně. Například u ovocných mušek ( Drosophila), mutace konkrétního homeotického genu vede ke změněné transkripci, což vede k růstu nohou na hlavě místo antény, což je známé jako mutace anténapedie.

Roli homeotických genů v embryonálním vývoji objasnili američtí genetici Edward B. Lewis a Eric F. Wieschaus a německá genetička Christiane Nüsslein-Volhard. Tito vědci prováděli své experimenty v Drosophila a za své objevy se podělili o Nobelovu cenu za fyziologii nebo medicínu za rok 1995. Homeotické geny homologické s těmi Drosophila byly později nalezeny v celé řadě organismů, včetně hub, rostlin a obratlovců. U obratlovců se tyto geny běžně označují jako HOX geny. Lidé mají asi 39 HOX geny, které jsou rozděleny do čtyř různých klastrů, A, B, C a D, které jsou umístěny na různých chromozomech.

Tento článek naposledy revidovala a aktualizovala Kara Rogers, hlavní redaktorka.


Prvním krokem v genové expresi je transkripce DNA do RNA. Molekula jednovláknové DNA komplementární k molekule messengerové RNA (mRNA) se k ní váže pomocí párování bází Watson-Crick. Pokud je DNA radioaktivní, identifikuje buňky, které tuto zprávu vydávají.

Tento autoradiogram (se svolením Philipa Inghama) ukazuje oblasti v embryu Drosophila, které byly značeny radioaktivní DNA komplementární k sekvenci mRNA pro gen homeoboxu fushi-tarazu (ftz). Odhalí 7 pásem obklopujících blastoderm. Ty představují oblasti, které se střídají se 7 pásy tvořenými dokonce přeskočeno (předvečer) gen (dolní obrázek).


Genová exprese a analýza transkriptomu

Experimenty s transkriptomovou analýzou umožňují výzkumníkům charakterizovat transkripční aktivitu (kódující i nekódující), zaměřit se na podmnožinu relevantních cílových genů a transkriptů nebo profilovat tisíce genů najednou a vytvořit tak globální obraz o funkci buněk. Studie analýzy genové exprese mohou poskytnout snímek aktivně exprimovaných genů a transkriptů za různých podmínek.

Možnosti sekvenování nové generace (NGS) posunuly rozsah transkriptomiky z dotazování několika genů najednou na profilování úrovní genové exprese v celém genomu v jediném experimentu. Zjistěte, jak je sekvenování RNA na bázi NGS (RNA-Seq) srovnatelné s jinými běžnými metodami genové exprese a profilování transkriptů, mikročipy genové exprese a qRT-PCR. Naučte se analyzovat genovou expresi a identifikovat nové transkripty pomocí RNA-Seq.

Výhody profilování genové exprese pomocí RNA-seq

Prozkoumejte výhody NGS pro analýzu genové exprese, genové regulace a methylace.


Praktický pohled na jemné mapování a upřednostňování genů v postgenomové asociační éře

V průběhu posledních 15 let umožnily asociační studie celého genomu (GWAS) systematickou identifikaci genetických lokusů spojených se znaky a chorobami. Kvůli problémům s rozlišením a metodologickým omezením je však stále obtížné identifikovat skutečné kauzální varianty a geny spojené s rysy. V této době po GWAS je nyní cílem mnoha biologických a výpočetních přístupů jemného mapování tyto problémy vyřešit. Zde zkoumáme přístupy jemného mapování a prioritizace genů, které v kombinaci zlepší porozumění základním mechanismům komplexních znaků a nemocí. Jemné mapování genetických variant je stále sofistikovanější: zpočátku se varianty jednoduše překrývaly s funkčními prvky, ale nyní lze identifikovat dopad variant na regulační aktivitu a přímé 3D interakce genů variant. Manipulace s genem pomocí CRISPR/Cas9, identifikace expresních kvantitativních lokusů vlastností a použití koexpresních sítí zvýšily naše chápání genů a drah ovlivněných lokusy GWAS. Navzdory tomuto pokroku však omezení, včetně nedostatku údajů specifických pro typ buněk a onemocnění a stále rostoucí složitost polygenních modelů znaků, představují vážné výzvy. Pro skutečné pochopení toho, jak lokusy GWAS přispívají ke komplexním znakům a chorobám, bude skutečně nutná kombinace jemného mapování a upřednostňování genů pomocí statistických, funkčních a populačních strategií.

1. Úvod

Většina, ne -li všechny, fenotypové znaky a nemoci mají genetickou složku, která ovlivňuje jejich vývoj, náchylnost nebo vlastnosti. Které genetické oblasti (lokusy) jsou spojeny s fenotypovými znaky, byly do značné míry určeny studiemi asociace genomu (GWAS) (obrázek 1A). GWAS porovnávají a spojují miliony relativně běžných genetických variant, obvykle jednonukleotidových polymorfismů (SNP), mezi základní (zdravou) populací a populací se zvláštním rysem, jako je diabetes 1. typu [1], celiakie [2] nebo výška [3]. Genetické lokusy spojené se zvláštnostmi získané GWAS jsou označeny specifickými variantami označovanými jako marker nebo špičkové varianty. Každá varianta markeru znamená haplotyp obsahující mnoho blízkých variant, které jsou ve nerovnováze s vysokou vazbou (LD), což naznačuje, že jsou s největší pravděpodobností zděděny společně [4] (obrázek 1b). Od roku 2002 bylo publikováno více než 4 000 GWAS [5], což poskytuje téměř 150 000 asociací variant markerů se stovkami znaků [6]. Navzdory velkému počátečnímu slibu metody však GWAS neposkytly okamžitý pohled na základní biologické mechanismy každého znaku kvůli dvěma hlavním komplikujícím faktorům.

Obrázek 1. Nástin aktuálního pracovního postupu po GWAS. (A) Nejprve je třeba identifikovat správný kontext studovaného znaku. (b) Následně lze kauzální varianty jemně zmapovat, aby lépe porozuměly základním mechanismům transkripce. Kauzální varianta (hvězda) zde není nejsilnějším signálem GWAS, ale spíše variantou v silném LD se špičkovým efektem umístěným v aktivní oblasti zesilovače. (C) Abychom získali přehled o biologických procesech vedoucích k fenotypu, mohou být upřednostňovány geny a konstruovány kauzální sítě. Varianty GWAS jsou v populaci obecně běžné a mají menší velikosti účinku (modrá). Geny, které ovlivňují, mají tedy pravděpodobně menší vliv i na fenotyp (periferní geny). Geny, na které se sbíhá mnoho periferních genů (jádrové geny), mají obecně silnější účinky (červené) na fenotyp. Jako takové jsou varianty, které ovlivňují základní geny, pravděpodobněji variantami mendelovské choroby.

Za prvé, GWAS nemohou rozlišit signál varianty markeru od signálu ostatních varainů, které mají vysoký LD. Více než 95% variant s vysokým LD (R. 2> 0,8) jsou umístěny mimo geny v nekódující DNA [7] a mohou být umístěny až 500 kb od sebe [8]. V důsledku toho může být skutečnou příčinnou variantou kterýkoli z nich (obrázek 1b).

Za druhé, účinky nekódujících kauzálních variant mohou být vysoce specifické pro buněčný typ, kontext a onemocnění [9]. Nekódující DNA obsahuje regulační oblasti-zesilovače a promotory-, které mohou vázat proteiny transkripčního faktoru (TF) a regulovat genovou expresi [10]. Které zesilovače a promotory se používají, závisí na množství specifickém pro daný typ buňky přibližně 1600 lidských TF a jejich epigeneticky regulované dostupnosti do dané regulační oblasti [11]. Varianty mohou narušit vazbu kteréhokoli z těchto TF, což má za následek změněnou aktivitu zesilovače nebo promotoru. To zase ovlivňuje genovou expresi [12] a buněčné dráhy [13]. Mikroprostředí specifické pro buněčný typ a tkáň nebo onemocnění tedy výrazně ovlivňuje, o které varianty, TF, geny a cesty se jedná (obrázek 1). Tyto složitosti ztěžují pochopení toho, jak lokusy GWAS přispívají k jejich souvisejícím rysům, a významně ztěžovaly interpretaci a aplikaci výsledků GWAS. Aby se to vyřešilo, bylo v době po GWAS vyvinuto mnoho různých přístupů jemného mapování s cílem identifikovat důležité varianty a geny a interpretovat jejich biologický dopad na nemoci a rysy [14–17].

Je důležité si uvědomit, že ke snížení složitosti jemného mapování většina přístupů předpokládá, že ke znaku přispívá pouze jedna varianta na lokus. Toto však není správný odraz reality, protože více variant v rámci jednoho lokusu GWAS může mít vliv na expresi jednoho genu. This can occur in one of two ways: either the effect of the variants adds up in a linear way (additive effect) or an interaction between two or more variants is required to affect gene expression (epistatic effect) [18,19]. Thus, multiple variants may play a role in a single locus, either within a single cell-type or in a context- and cell-type-specific manner [18]. This further complicates performing and interpreting fine-mapping and gene prioritization approaches. For simplicity, throughout this review, we continue to address variants that affect gene regulation and pathways in association with a GWAS trait in any way as causal, even though a collective of smaller contributing effects acting in unison per locus may be necessary to elicit a functional effect on a GWAS trait.

Here, we assess fine-mapping and gene prioritization approaches that have been used to translate GWAS loci to a functional understanding of the associated trait, while taking cell-type- and disease-specific context into account. Specifically, we review the genetics of lower effect size common variants identified through GWASs rather than high effect-size Mendelian disease variants (figure 1C). Moreover, we discuss the impact of the recent paradigm shift towards polygenic models and how these can be used to aid in the identification of gene networks that highlight core disease genes (figure 1C).

2. Fine-mapping from the variant perspective

Fine-mapping variants in GWAS loci require an understanding of the underlying mechanism by which a variant can contribute to a trait. Overcoming LD and identifying the context-specific variants that are causal to a trait is imperative for understanding disease mechanisms and confidently identifying which downstream genes and pathways are affected. Many functional and computational (high-throughput) fine-mapping methods have been developed and applied for this purpose. Below we review several fine-mapping methods according to their increasing ability to describe the complex role of variants in GWAS traits and diseases.

2.1. Identifying overlap with functional elements

The most straightforward fine-mapping approach is to overlap GWAS variants in high LD with functional elements such as promoters and enhancers (figure 2A). Currently, the best resource for functional elements has been compiled by the NIH Roadmap Epigenomics Mapping Consortium [20] (electronic supplementary material, table S1), which used ChIP-seq (electronic supplementary material, table S2) to measure histone marks to determine the location of functional elements in 127 different cell and tissue types [20,21]. Fine-mapping of GWAS variants from 21 autoimmune diseases using the NIH Roadmap and similar data estimated that approximately 60% of candidate causal variants map to immune cell enhancers, and another approximately 8% to promoters [12]. This was also reflected in the tissue-specific enrichment of type 1 diabetes susceptibility variants in lymphoid gene enhancers [22]. Moreover, candidate causal variants were enriched in enhancers defined by the histone mark H3K27ac in specific subsets of CD4+ T cells, CD8+ T cells and B cells [12]. This was also the case in another study in monocytes, neutrophils and CD4+ T cells [23]. Other studies have also identified tissue-specific enrichments of disease-associated variants via overlap with functional elements, showing that this approach can help specify which variants play a role in certain cell types [23,24].

Figure 2. An illustrative depiction of a GWAS locus showing example mechanisms by which variant effects on enhancer activity and gene expression can be detected. (A) Many trait-associated variants are shown with varying LD strength (scatterplot) when compared with the GWAS-identified marker variant (in black). In this example, the causal variant is located in an allele-dependent active enhancer (C-allele, caQTL) as shown by the open chromatin regions of the same locus (peak-density plot below the variant). The variant affects the TF binding site of the green TF with a strong binding preference for the C-allele, as shown by the enhancer activity in the ‘transcription factor binding affinity’ box. In addition, using 3D interactions (grey arches connecting the gene, promoter and enhancer), physical contact with the nearby ‘Gene X’ indicates the enhancer affects the gene's expression. (b) To highlight cell-type-specific effects, the influence of the causal variant is depicted in three cell types with varying TF availability. The mRNA expression of ‘gene X’ is stronger for the CC-genotype compared with the GG-genotype because of the increased TF binding affinity to the green TF (as shown in A). This mRNA expression remains low but stable for the GG-genotype in all three cell types regardless of the TF availability but decreases for the CC-genotype in cell types with reduced TF availability, which reduces cooperative TF binding.

Other ways of detecting regulatory regions that can be used to fine-map GWAS variants are either based on DNA accessibility, such as ATAC-seq [25] and DNase-seq [26] (electronic supplementary material, table S2), or identify the inherent transcriptional activity of enhancers and promoters [27,28], such as GRO-seq [29], PRO-seq [30] and CAGE [31] (electronic supplementary material, table S2). Collective public databases using these techniques—like the NIH Roadmap consortium [20], ENCODE [32], FANTOM5 [33] and the IHEC consortium [34]—are indispensable context-specific resources (electronic supplementary material, table S1). However, it appears to be more difficult than originally anticipated to specify the exact location of regulatory regions since all these methods show different sensitivities and accuracies in the mapping of active regulatory regions [35]. Moreover, overlap of a variant with an active regulatory region may not result in functional disruption of these elements, and thus does not definitively point to causality. This uncertainty limits the accuracy of fine-mapping through overlap with functional elements and still leaves us with a multitude of candidate causal variants.

2.2. Inferring allele-specific variant effects

In high-throughput methods such as ATAC-seq, the sequencing reads containing a variant can be separated based on its allele. The allele-specific abundance of sequencing reads can then directly inform us about the functionality of this variant on the open chromatin region. Variants that cause allelic imbalance in regulatory regions are called chromatin accessibility quantitative trait loci (caQTLs figure 2A) [25,36]. Many caQTLs were identified in primary CD4+ T-cell ATAC-seq peaks, and these showed a strong enrichment in candidate causal autoimmune variants [36]. Similarly, the existence of variants or histone-QTLs that affect regulatory regions by altering enhancer-associated H3K27ac or H3K4me1 histone peaks also implies that these variants have an effect on cell-type-specific enhancer activity [23]. Due to their functional effect on DNA accessibility and epigenetic marks, these variants are more likely to be causal variants for GWAS traits.

Another mechanism by which non-coding GWAS variants can have an allelic effect on gene expression is alternative splicing of genes. GWAS-associated variants have the potential to induce cell-type-specific alternative splicing (sQTL) or could affect trans-acting splicing regulation genes [37,38]. This was shown in a genome-wide approach where 622 exons with intronic sQTLs were identified. One hundred and ten of these exons harboured variants in LD with GWAS marker variants [37]. In a more specific example, the multiple sclerosis-associated PRKCA gene is seemingly affected by an intronic sQTL that increases the expression of a gene isoform more prone to nonsense-mediated decay, thereby reducing the likely protective PRKCA mRNA levels post-transcriptionally [39]. However, sQTLs appear to also act through more complex mechanisms such as indirectly through caQTLs [40], or by inducing alternative upstream transcription start sites [41]. These and many other examples [38] suggest that sQTLs may be an important but complex mechanism by which GWAS-associated variants affect a trait.

2.3. Identifying variants that disrupt underlying TF binding sites

Further prioritization of variants in regulatory regions that show allelic imbalances can be done by computational or functional analysis of the underlying TF binding sites (TFBS) or motifs. Regulatory regions consist of both very strict and more degenerate DNA motifs [42] to which TFs can bind in order to initiate local transcription (e.g. enhancer RNAs) and regulate nearby or distant genes [10,27]. Variants can change the TFBS, altering the binding affinity of the TF and changing the activity of a regulatory region (figure 2A) [18,43,44]. The specificity and location of potential TFBSs have been collected for many cell types in large databases such as JASPAR [45], FANTOM5 [33] and ENCODE [32] (electronic supplementary material, table S1), mostly using ChIP-seq and HT-SELEX [46] (electronic supplementary material, table S2).

An enrichment of TFBS disruption by putatively causal variants has been identified for 44 families of TFs [18]. For TFs like AP-1 and the ETS TF-family, regulatory regions containing these disrupted TFBSs also show effects on chromatin accessibility, indicating that the effect of variants on TF binding affinity leads to caQTLs [18]. Similarly, upon identification of nearly 9000 DNase-seq locations affected by allelic imbalances, it was found that the alleles associated with more accessible chromatin were also highly associated with increased TF binding [43]. In a more specific case, TFBS disruption analyses and in vitro confirmation by ChIP-seq led to the identification of rs17293632 as a likely causal SNP that increases Crohn's disease risk by disrupting an AP-1 TFBS [12]. Interestingly, this effect on AP-1 TFBSs was stimulation-specific: H3K27ac peaks with affected AP-1 TFBSs were enriched in stimulated CD4+ T cells compared with non-stimulated cells [12]. This highlights the importance of context-specificity and the need for tissue- and disease-relevant stimulations in experimental set-ups (figure 2b) [12,47]. Finally, in a study of leukaemia patients, a small DNA insertion resulting in a TFBS for MYB created an enhancer near TAL1, which led to activation of this oncogene and the onset of leukaemia [48]. Thus, decreased or increased affinity of TFs due to genetic variants or small DNA changes can have far-reaching effects.

Currently, only 10–20% of the potentially causal non-coding GWAS variants defined by allelic imbalances within a regulatory region can be shown to disrupt a known TFBS [12]. Therefore, the actual causal variants may potentially act through a different mechanism, or our understanding of TF binding may still be insufficient [49]. One complicating factor here is the potential cooperative binding of more than one TF at an overlapping TFBS. Detection of these cooperative binding motifs is currently being improved by both biological methods (such as SELEX-seq [50]) and computational methods, such as No Read Left Behind (NRLB) [44]) (electronic supplementary material, table S3). A striking example of context-specific cooperative binding of TFs is illustrated by an increased TFBS enrichment of p300, RBPJ and NF-kB in risk loci of GWAS traits as a consequence of the presence of Epstein–Barr virus (EBV) EBNA2 protein [51]. In this study, ChIP-seq data from EBV-transformed B-cell lines were used, together with the RELI algorithm (electronic supplementary material, table S3), to systematically estimate the enrichment of variants in TFBS [51]. In six out of the seven autoimmune disorders tested, RELI identified that 130 out of 1953 candidate causal variants [12] overlapped with EBNA2 binding sites in B-cell lines identified by ChIP-seq [51]. Interestingly, many autoimmune diseases, including coeliac disease and multiple sclerosis [52,53], are thought to be partially triggered by viral infections, suggesting that variants may only be causal when viral factors are also present. Moreover, TF motifs can be highly degenerate, and a small change in TF binding affinity can induce a subtle dosage effect on the activity of a regulatory region [44]. While this effect may be subtle, downstream genes could be affected sufficiently [44] to induce or affect a trait. Thus, a better understanding of how TF binding affinity to DNA motifs is mediated is necessary to comprehend how variants affect the functionality of a regulatory region.

2.4. Fine-mapping by detection of regulatory region activity

A more immediate fine-mapping approach is to directly measure the effect a variant can have on the strength of a regulatory region. Active promoters and enhancers have transcription start sites (TSSs), and the activity of an enhancer or promoter is directly correlated with the active transcription from these TSSs [27]. However, some promoter RNAs, and most enhancer RNAs, are very short-lived, making them difficult to detect with most RNA sequencing methods [10,27]. CAGE (electronic supplementary material, table S2) does allow for the identification of exact TSS locations, as well as expression levels of genes, by sequencing 5′-capped transcripts regardless of their stability [30]. CAGE has identified promoter and enhancer effects, and showed that 52% of the effects observed in promoter regions were in secondary CAGE peaks, highlighting that genes can have multiple active promoters depending on the genotype [54]. CAGE QTLs have been observed for loci associated with systemic lupus erythematous (SLE) and inflammatory bowel disorder [54], supporting their relevance in immune disease.

Reporter-plasmid assays can also be applied to directly measure the effects of variants on enhancer or promoter TSS activity by moving variant-containing DNA fragments from their natural environment to a plasmid and transfecting these into a cell type of interest. The most traditional reporter-plasmid assay, the luciferase assay (electronic supplementary material, table S2), was used to confirm a functional effect of rs1421085, which is associated with obesity risk, by showing that the risk-allele induces an increase in enhancer activity [55]. However, high-throughput reporter assay methods with high resolution are required to fine-map all potentially causal variants within entire GWAS loci based on regulatory region activity.

One such method, the massively parallel reporter assay (MPRA electronic supplementary material, table S2), can test over 30 000 candidate variants by synthetically creating 180 bp DNA fragments containing both alleles of a variant with a unique barcode and integrating these into GFP-reporter plasmids that are subsequently transfected into different cell lines [56]. An MPRA was used to identify the expression of 12% (3432) of the 30 000 candidate DNA fragments in three cell lines, with 842 showing allelic imbalances caused by SNPs. Indeed, 53 of these SNPs had previously been associated with GWAS traits [56]. Similar high-throughput fine-mapping methods that use patient-derived DNA instead of synthetically generated DNA sequences are STARR-seq [57] and SuRE [58] (electronic supplementary material, table S2). Using a whole-genome approach, the SuRE method managed to screen 5.9 million SNPs in the K562 red blood cell line, identifying over 30 000 SNPs that affect regulatory regions and allowing for in-depth fine-mapping of SNPs for 36 blood-cell-related GWAS traits [59]. Follow-up research on these reporter assays has identified a causal SNP (rs9283753) in ankylosing spondylitis [56] and another (rs4572196) in potentially up to 11 red blood cell traits [59]. Despite the obvious advantages of high-throughput fine-mapping screens, a major drawback is that these methods are usually applied in cancer or EBV-transformed cell lines. These cell lines can be significantly different from trait-specific tissue-derived cell types [60] and have often accumulated many somatic mutations as a consequence of years of culturing [61]. Thus, the wrong variants may be identified as causal because the relevant cell-type and context-specific effects have not been considered [62].

2.5. From causal variant to gene using the 3D interactome

When a causal variant has been identified, the gene expression effects of that variant can be directly assessed by mapping the necessary physical interaction of the regulatory region it affects with its target genes (figure 2A) [63,64]. For example, H3K27ac regions containing autoimmune-disease-prioritized variants were linked to the TSS of genes using HiChIP (electronic supplementary material, table S2) and shown to contain cell-type-specific interactions between the TSS of the IL2 gene and rs7664452 in Th17 cells and between rs2300604 and target gene BATF in memory T cells [63]. Interestingly, for 684 autoimmune-disease-associated variants assessed with HiChIP, 2597 gene–variant interactions were identified, indicating that autoimmune disease variants can regulate a multitude of genes. Moreover, only 14% (367) of these gene–variant interactions were with the gene closest to the variant [63]. Another example of a long-range interaction of a causal variant is that of the previously mentioned rs1421085, which is associated with obesity risk and located in an intron of FTO. TFBS disruption analyses have shown that rs1421085 disrupts the ARID5B TF binding motif and affects the activity of an enhancer that regulates IRX3 a IRX5, genes located 1.2 Mb upstream, instead of the initially expected co-localized FTO gene itself [55,65]. Thus, fine-mapping and interaction analysis has identified additional causal genes in this obesity-associated risk locus.

Hi-C (electronic supplementary material, table S2) is another high-throughput method for identifying specific promoter and enhancer gene interactions [19,66–68]. For example, Hi-C was used to prioritize four rheumatoid arthritis genes by overlapping promoter–gene interactions of various primary immune cells with rheumatoid arthritis GWAS variants [19]. Another study analysed Hi-C datasets of 14 primary human tissues and showed that frequently interacting regions (FIREs) are enriched for disease-associated GWAS variants [68]. However, the resolution limitations of Hi-C and other interaction data make it difficult to precisely pin-point the causal variant within a regulatory region [63,64,68]. In addition, cell-type and environmental effects influence regulatory region interactions with genes, as shown by the fact that 38.8% of FIREs were identified in only one tissue or cell type [68]. Thus, multiple strategies as described here and collected in databases such as the EnhancerAtlas2.0 [69] (electronic supplementary material, table S1) should be combined to confidently fine-map causal variants and link them to genes that play a role in GWAS traits.

3. Gene prioritization using GWAS traits

Traditional fine-mapping approaches focus on identifying the causal variants that affect a trait of interest. While very important, knowing which variants are causal does not identify the downstream effects of the variant on the trait. One way to gain such insights is by identifying the genes that are affected by each GWAS locus. Moreover, if the causal genes affected by a locus are known, this can reduce the credible set of potentially causal variants. Recent efforts in systems biology have focused on identifying such causal genes and their downstream effects.

3.1. Gene prioritization using expression quantitative trait loci

A more comprehensive approach to identifying the genes affected by a GWAS locus is through the use of quantitative trait loci (QTL figure 3A). While caQTLs are often indicative of a causal variant or regulatory region, a specific subset of QTLs called expression QTLs (eQTL) can be used to identify the genes affected by a GWAS locus [70–72]. The simplest way to perform gene prioritization using eQTL analysis is simply to overlap the marker variant of a GWAS locus with the top eQTL variant. An example of this is an SLE risk variant that is also a cis-eQTL for the TF IKF1. The eQTL on IKF1 affected the transcription of 10 genes in trans that are all regulated by IKF1 [70], highlighting this gene as a likely candidate causal gene for SLE. Additionally, these types of effects can be context-specific, as was shown for a cis-eQTL on TLR1 after stimulation of peripheral blood mononuclear cells (PBMCs) with Escherichia coli [73]. Tento cis-eQTL was also a strong trans regulator of the E-coli-induced response network, regulating another 105 genes [73], showing that an eQTL can strongly influence the immune response to pathogens.

Figure 3. Aspects of fine-mapping genes from GWAS loci. (A) Using eQTLs (dark blue) and CRISPRi/a-based assays, GWAS loci can be linked to genes when using the correct context. (b) Not every relationship between genetics and expression can be described additively. Epistatic effects (dark red) describe a relationship where two (or more) mutations are needed to arrive at the phenotype. (C) Using co-expression, regulatory relationships between genes can be quantified, but the specific role of genetics in these relationships is unknown. (d) Using PGSs, the joint effects of GWAS loci can be assessed, sacrificing resolution to obtain higher-level insights into the pathways affected by the genetics associated with a phenotype. (E) When assessed at single-cell resolution, the total network can be deconstructed into the cell-type relevant components. Affected cells can subsequently display an altered interaction with other cells within a tissue or individual, leading to a changed tissue- or individual-wide outcome for a phenotype.

However, the top eQTL variant might not always be the same as, or in LD with, the top GWAS marker variant due to noise in the eQTL data [74] or to multiple causal effects on a gene or disease in a locus [75]. As a result, many statistical frameworks have been created to give more accurate estimates of overlap or causality between a GWAS locus and a QTL locus, including FUMA [76], COLOC [77] and Mendelian randomization (MR electronic supplementary material, table S3). The latter is commonly used to estimate causality between GWAS and QTL profiles [78–84] and has been successfully applied to identify genes causally linked with complex traits [3,79–81]. For example, MR studies were able to identify a causal role for SORT1 on cholesterol levels [79,81], a role which has been experimentally validated [85]. Still, MR can be challenging as multiple variants in LD can affect the same gene (linkage), and several genes can be affected by the same causal variants (pleiotropy) [70,73,86]. More recent work on MR has focused on more accurately controlling for pleiotropy and linkage [79,81,82,84]. Independent variant selection for MR is currently done by either LD-based clumping or some form of stepwise regression using tools like GCTA's COJO [75] (electronic supplementary material, table S3), which only select for independence and not causality. Accurate fine-mapping can potentially help these efforts by improving the independent variant selection for MR since fine-mapping can reveal the true causal variants independent of linkage.

Recently, it has been suggested that approximately 70% of the heritability in mRNA expression is due to trans-eQTLs [87,88], which highlights the importance of trans-eQTL relationships. Zatímco trans-eQTLs have the potential to further our understanding of complex traits, the multiple testing burden is very large due to the large number of comparisons that have to be made when doing genome-wide trans-eQTL mapping (in the worst case, millions of variants times approx. 60 000 genes) [70,72]. Therefore, many eQTL studies opt to only map cis-eQTL effects genome-wide, as this dramatically reduces the number of comparisons that have to be made [70–72,74]. Another approach is to limit the number of comparisons by only mapping trans effects for a predefined subset of variants or genes [70,72,73,86]. However, since a full trans-eQTL mapping dataset is rarely available, overlap between trans-acting genes and GWAS loci will be missed.

An additional challenge with QTL-based gene prioritization approaches lies in the context-specificity of the QTL data used, as different tissues, cell types, time points and stimulation conditions can induce many different expression patterns and different interactions with the variants in a GWAS locus [23,73,89–92]. Consequently, the QTL information that is available might not be informative for the trait under study. This is especially challenging when studying traits that are present in a tissue other than blood, as is the case for neurological disorders [93,94], because sufficiently powerful cell-type- or context-specific QTL studies are usually not available. However, with the advent of single-cell RNA sequencing (scRNAseq) and the increasing availability of large-scale datasets for tissues other than blood, some of these challenges are being overcome [70,72,90,91]. scRNAseq (electronic supplementary material, table S2) allows for high-throughput eQTL analysis in individual cell types instead of a bulk population, as shown for PBMCs [90]. This allows for an increase in resolution and can help to assess only the trait-relevant cell types [91], as shown for eQTLs on TSPAN13 a ZNF414, which were only present in CD4+ T cells and not in bulk or other specifically assessed cell types [90]. Consortia that are amassing single-cell data at a large scale in many different tissues—like the Human Cell Atlas [95], Single-cell eQTLgen [96] and the LifeTime consortium [97] (electronic supplementary material, table S1)—will facilitate the use of single-cell sequencing data for traits where bulk RNA-seq obtained from blood is not informative.

3.2. Identifying downstream effects of GWAS loci using other QTLs

Beyond gene-expression-based eQTL, a plethora of other QTL types exist that affect the abundance of proteins (pQTL) [98,99], metabolites (mQTL) [100], DNA methylation (meQTL) [101], microbiota (miQTL) [102] and cells (cell-count or ccQTL) [103,104]. Naturally, these can all be overlapped with GWAS loci to obtain insights into their pathology. Například ex vivo cytokine response to stimulation has been shown to have strong genetic regulators [99]. Interestingly, all the associated effects found were trans (i.e. not in proximity to the cytokine genes), suggesting that the release of cytokines is controlled by genes in the receptor's pathways rather than being directly controlled by the mRNA levels of the cytokine. Moreover, context-specificity is important, as QTLs affecting cytokines from T cells were found to be enriched in autoimmune GWAS loci, whereas QTLs affecting cytokines from monocytes were more enriched in infectious-disease-associated loci [99]. Thus, the effects of genetics on traits should not only be studied at the level of gene expression, but also at levels more directly related to a phenotype.

3.3. Functional approaches to mapping genetic effects on expression

While eQTL analysis provides invaluable insights into the genes that affect a trait or disease, context- and cell-type-specific biases in the expression data and LD structure in GWAS loci cause potential errors in gene prioritization. With the recent introduction of CRISPR/Cas9-based screens [105] (electronic supplementary material, table S2), it is now possible to functionally validate eQTL effects in a high-throughput manner independent of LD structure and in a cell-type relevant to the trait of interest.

CRISPR-based assays use guide RNAs to bind specific regions of the genome and either activate (CRISPRa) or interfere (CRISPRi) with the transcription of genes or enhancers [106]. Recent advances in both scRNAseq and CRISPRi/a have facilitated methodologies that evaluate enhancer effects on genes in single cells [107]. For example, a recent effort evaluated the effects of 5920 candidate enhancers on gene expression using CRISPRi [107]. Strikingly, 664 showed a significant effect on gene expression in K562 cells. Thus, CRISPRi-based assays are capable of identifying enhancer–gene pairs in a high-throughput manner. However, as only approximately 10% of candidate enhancers were actually found to affect gene expression, identifying which enhancers are active based on already available data might not always be straightforward, even for a very well-characterized cell line such as K562 [20,32,34,58,59].

In addition to mapping active enhancer gene pairs, CRISPRi/a-based assays can be used to identify epistatic interactions between genes and to generate gene networks based on changes in co-expression in perturbed versus non-perturbed cells (figure 3b). Genes that are strongly co-expressed are likely to be regulated by a shared mechanism [86]. Therefore, identifying such genes can help reveal the gene network that leads to a disease-associated trait [94,108,109]. Indeed, a CRISPRi screen that targeted 12 TFs, chromatin modifying factors and non-coding RNAs was able to identify epistatic effects in cells perturbed by two guide RNAs [110]. In these cells, chromatin accessibility remained relatively stable in loci associated with autoimmune disease in cells with one perturbed TF. However, significant changes were observed when evaluating the chromatin accessibility for the same loci in cells also perturbed for NFKB1. This again highlights the importance of taking the entire context of a trait into account when fine-mapping or interpreting the role of a GWAS locus.

A major drawback of the majority of CRISPRi/a screens is that they are very laborious and therefore usually performed in easily manipulated, but also highly modified, cancer cell lines [61]. Fortunately, recent studies have shown that CRISPRi screens can be applied to primary T cells [111,112]. This, while challenging, needs to be extended to other tissues and model systems. These studies will greatly assist variant, regulatory region and gene fine-mapping efforts because they directly identify the active enhancer–gene pairs and the downstream gene network affected in specific cell types. In addition, future work could focus on performing CRISPRi/a screens in patient-derived cells that contain relevant risk genotypes to fully reach variant-level resolution.

3.4. Mapping gene–gene regulatory interactions using population data

Co-expression can also be modelled based on inter-individual variation in expression, which can be used to prioritize disease genes and make inferences about the downstream consequences of diseases (figure 3C) [94,108,109,113]. For example, DEPICT (electronic supplementary material, table S3) integrates gene co-regulation with GWAS data to provide likely causal genes and pathways relevant for the trait [113]. Moreover, the GADO tool (electronic supplementary material, table S3) correctly identified causal genes in 41% of a cohort of 83 patients with varying Mendelian disorders, and prioritized several novel causal candidate genes by combining trait-specific gene sets with a co-expression network [109]. Finally, eMAGMA (electronic supplementary material, table S3) used co-expression together with tissue-specific eQTLs in brain regions to prioritize 99 candidate causal genes for major depressive disorder [94]. These co-expression modules were enriched in brain regions but not in whole-blood, highlighting the tissue-specific nature of the co-expression networks [94].

Population-based co-expression networks describe the relationships between genes through both genetics and environment. Consequently, based on the co-expression alone, it is not possible to separate which part of the co-expression is due to genetics. Therefore, these networks have limited use for fine-mapping causal variants and are mainly used to identify genes and pathways affected by GWAS loci after gene prioritizations have been made. In addition, co-expression networks are not directed [108]. Genetic information of the individuals used to generate the co-expression network would solve this issue, as the genetic and environmental components could be separated and directionality could be added into the network [108], although this is not a trivial task. Fine-mapping would be of great value in modelling the genetic component of the network by facilitating the selection of true causal variants.

3.5. Fine-mapping under the omnigenic model

As discussed throughout this review, it is becoming increasingly clear that complex traits are highly polygenic and that many variants can deregulate cis- a trans-acting factors in a variety of ways (figure 2A). In the light of this, Boyle a kol. [87] proposed an omnigenic model for complex traits in which each gene that is expressed in the cell will have an effect on the trait or disease in some way (figure 1C) [87,88]. For example, height is so polygenic that most 100 kb genomic windows seem to contribute to explaining its variance. Given that the effect sizes of the individual variant are getting so small, it raises the question: what does the causality of the individual variant mean in a complex trait [87,88,114]? If the omnigenic model is true, it presents a major challenge for fine-mapping GWAS loci, particularly for the interpretation of the downstream consequences as the complexity of genetic effects on traits will only increase. In addition, current functional assays may not be suited to model the small and subtle variant effects and gene–gene or gene–environment interactions observed in population studies using millions of individuals.

Instead, the complete GWAS signal from all loci associated with a trait can be used to estimate a polygenic score (PGS) that describes an individual's genetic predisposition for the given trait. In its most basic form, a PGS constitutes the linear combination of all independent risk genotypes weighted by the GWAS effect size, but many more sophisticated methods exist (figure 3d) [115–117]. The PGS for a trait can be associated with the expression level of genes (and proteins) in a population [72,118]. If there are strong correlations, GWAS loci together, as represented by the PGS, are jointly influencing these genes. These genes probably represent core genes in a disease-associated co-expression network. Although PGSs have issues when it comes to broad applicability across populations [119], they can be a useful abstraction layer to make sense of a polygenic trait.

Given we are becoming aware of the likely polygenic and even omnigenic nature of traits, fine-mapping the individual GWAS locus seems like an impossible task. However, with current approaches the stronger, and arguably more important, genetic effects associated with traits and diseases can be elucidated [70,72,73]. Moreover, by using abstraction layers such as PGS, inferences can be made about the joint consequences of these effects [72]. Indeed, the genes and pathways associated with stronger or joint genetic effects are more likely candidates for drug interventions [120] (electronic supplementary material, table S1). Although we might never fully comprehend all the tiny effects and interactions underlying a trait, we will probably see an increase in clever ways to arrive at the interpretable biological mechanisms behind traits.

4. Future perspectives

We have reviewed recent high-throughput GWAS fine-mapping approaches that can identify variants and genes causal for a trait or disease. The complexity and uncertainty present in aspects of these approaches illustrates that a single approach does not suffice to grasp the full cause and effect of candidate variants and genes. In addition, while large datasets, mostly in blood, have identified many potentially causal variants and genes associated with traits, these candidates need to be refined and validated using tissue- and cell-type-specific resources in combination with trait-specific environmental factors to recapitulate the true biological state of each trait as closely as possible. An additional challenge lies in translating these disease genes into clinical practice, as prioritized genes might not be existing, nor practical, drug targets.

Navzdory těmto výzvám se domníváme, že kombinace použití materiálu získaného od pacienta s metodami, které nacházejí regulační oblasti a jejich následné geny, pomůže identifikovat cíl léku pro komplexní onemocnění. Kromě toho by tyto znalosti mohly být použity ke generování predikčních modelů, které pomáhají v rychlé a neinvazivní identifikaci variantně specifických variant a genů v obecné populaci. To bude základem našeho chápání komplexních vlastností, napomůže vývoji léčiv a v blízké budoucnosti umožní přizpůsobenou přesnou medicínu.