Informace

Jak určit směr regulace genu porovnáním genových expresí?


Právě se učím o genových expresích a regulaci. Několik výzkumů se zaměřuje na nalezení genů změněných genových expresí na mikročipu, aby tvrdili, že mají korelaci s konkrétním onemocněním.

Jsem zmatený z toho, jak lidé mohou určit, zda je gen jeho genovou expresí down-regulovaný nebo up-regulovaný.

Předpokládejme, že máme několik vzorků genu: některé ze vzorků jsou vzorky normálních pacientů a zbytek jsou vzorky infikované nemocí. Určujeme směr regulace genu poměrem genové exprese vzorků infikovaných normálními/nemocnými?

Pokud je například poměr výrazů záporný, řekneme, že gen je down-regulovaný gen, jinak je to up-regulovaný gen?


Pokud máte hodnoty ovládacího výrazu $ c $ a např. hodnoty výrazu nemoci $ d $, vezmete poměr: $ frac {d} {c} $. Pokud je tato hodnota větší než jedna, je up-regulována. Poměr log se obvykle vypočítá: $ log frac {d} {c} $. Pokud je to pozitivní, gen je up-regulován.

Hodnoty genové exprese se obvykle měří v celém genomu a poté se normalizují před výpočtem poměrů. Málokdy se tedy zabýváte jednotlivými hodnotami surového výrazu.


Genový výraz

Genová exprese je složitý proces zahrnující koordinaci dynamických událostí, které podléhají regulaci na více úrovních: transkripční úroveň (zahájení transkripce, prodloužení a ukončení), posttranskripční úroveň (translokace RNA, sestřih RNA, stabilita RNA), translační úroveň (zahájení translace, prodloužení a ukončení translace) a posttranslační úroveň (sestřih proteinu, translokace, stabilita a kovalentní modifikace).


Biologická interpretace údajů o genové expresi

Mnoho z metod pro vizualizaci a interpretaci údajů o genové expresi lze použít jak pro experimenty s mikroarrayem, tak pro RNA-seq. Některé z nejběžnějších metod jsou popsány níže.

Tepelné mapy a klastrování

Běžnou metodou vizualizace dat genové exprese je jejich zobrazení jako tepelná mapa (obrázek 12). Tepelná mapa může být také kombinována s klastrovacími metodami, které seskupují geny a/nebo vzorky dohromady na základě podobnosti jejich vzorce genové exprese. To může být užitečné pro identifikaci genů, které jsou běžně regulovány, nebo biologických podpisů spojených s konkrétním stavem (např. Nemocí nebo stavem prostředí) (4).

V tepelných mapách jsou data zobrazena v mřížce, kde každý řádek představuje gen a každý sloupec představuje vzorek. Barva a intenzita políček se používá k vyjádření změn (nikoli absolutních hodnot) genové exprese. V níže uvedeném příkladu červená představuje up-regulované geny a modrá představuje down-regulované geny. Černá představuje nezměněný výraz.

Obrázek 12 Příklad teplotní mapy, ve které byly geny seskupeny na základě jejich vzorce genové exprese.

Analýza obohacení genové sady a analýza dráhy

Běžným přístupem k interpretaci údajů o genové expresi je analýza obohacení genové sady založená na funkční anotaci diferenciálně exprimovaných genů (obrázek 13). To je užitečné pro zjištění, zda jsou různě exprimované geny spojeny s určitým biologickým procesem nebo molekulární funkcí.

K tomuto účelu se běžně používá genová ontologie obsahující standardizovanou anotaci genových produktů. Funguje to tak, že se srovnává frekvence jednotlivých anotací v seznamu genů (např. Různě exprimovaných genů) s referenčním seznamem (obvykle všechny geny v mikročipu nebo v genomu). Obohacení biologických drah dodávaných KEGG, Ingenuity, Reactome nebo WikiPathways lze provést podobným způsobem (12,13).

Mezi oblíbené nástroje pro obohacení sady genů a analýzu dráhy patří:

Obrázek 13 Příklad cesty z Wikipathways.

Analýza sítě

Síťová analýza je komplementární k analýze cest a může být použita k ukázce interakce klíčových složek různých cest. To může být užitečné pro identifikaci regulačních událostí, které ovlivňují více biologických procesů a cest (12,13).


Výsledek

Sestava transkriptomu

Prozkoumat změny v globálním transkriptomickém profilu v triploidu Ctenopharyngodon idellus a Megalobrama amblycephala (GB), získali jsme devět jaterních transkriptomů od matky Ctenopharyngodon idellus (GC), otcovský Megalobrama amblycephalae (BSB), a triploidní potomci GB (obr. 1).

Chromozomální znak a vzhled amura (mateřský GC = 48), tupý rypák (otcovský BSB = 48) a jejich triploidní potomci (GB = 72)

Sekvenování s párovaným koncem (PE × 90) proběhlo na základě devíti knihoven obou rodičů a jejich triploidních potomků. Základní informace byly shrnuty v tabulce 1. Po počátečním oříznutí adaptéru a kvalitním filtrování jsme shromáždili všech 299,03 milionu vyčištěných čtení z devíti knihoven (tabulka 1). Potom jsme pomocí Trinity samostatně shromáždili 100,14 (BSB), 96,77 (GC) a 102,12 (GB) milionů vyčištěných čtení (42,23 Gb). Mezi 157 878 ​​sestavenými kontigy ve třech druzích byl počet kontigů (≥ 1 000 bp) 11 190 v otcovské BSB, 9 873 v mateřské GC a 11 005 v triploidních GB (tabulka 1).

Funkční analýzy

Použití BLASTX (e-hodnota ≤ 1e −6) proti databázím NCBI-NR, Swiss-Prot, Kyoto Encyclopedia of Genes and Genomes (KEGG), Clusters of Orthologous Groups (COG) and Gene Ontology (GO) (zarovnání délka ≥100 bp ), 28 950 sekvencí z otcovské BSB, 29 110 sekvencí z mateřské GC a 29 255 sekvencí z triploidního GB bylo identifikováno jako komentované sekvence. Distribuce sekvencí komentovaných sekvencí ve výše uvedených pěti veřejných databázích a distribuce e-hodnot komentovaných genů jsou uvedeny v doplňkovém souboru 1. Po zarovnání BLASTX jsme provedli GO analýzu (úroveň 2). Distribuce anotací genů ukázala funkční rozdíly mezi rodiči a jejich hybridy (doplňkový soubor 2). Abychom získali přesnější informace o genové expresi u těchto tří druhů, naše další analýza byla zaměřena na 13 893 sdílených genů (další soubor 3).

Diferenciální vyjádření mezi diploidními a triploidními druhy

Aby se prozkoumala úroveň exprese u dvou diploidních rodičů a jejich triploidních potomků, bylo pomocí CD-HIT seskupeno celkem 157 878 ​​kontigů od devíti jedinců a ze shlukování bylo získáno 95 702 referenčních transkriptů (doplňkový soubor 4). Poté byly celkové hodnoty z devíti vzorků mapovány na 95 702 referenčních transkriptů pomocí nástroje BLAST-like alignment tool (Blat) (doplňkový soubor 5) [33]. Podle výsledků mapování jsme u triploidních potomků detekovali umlčené geny (GB = 0, GC> 10 a BSB> 10) a nové geny na základě počtu čtení (GB>> 10, GC = 0 a BSB = 0) Zdálo se, že 27 genů bylo umlčeno a dva geny vykazovaly nový expresní vzorec (další soubor 6).

K detekci významné diferencované exprese, falešné rychlosti zjišťování (FDR) <0,001 a absolutní hodnoty log2 poměr> 1 byl použit jako prahové hodnoty ve srovnání dvou rodičů a jejich triploidních potomků. Ve všech srovnání je procento genů vykazujících rozdílnou expresi mezi F1 triploidi a oba rodiče byli asymetrickí (P & lt 0,05 Fisherův přesný test). Porovnání úrovně exprese u dvou rodičů ukázalo, že 2 446 genů bylo up-regulováno v otcovské BSB a 2 376 genů bylo up-regulováno v mateřském GC (obr. 2a a d). Porovnali jsme genovou expresi v otcovské BSB a triploidní GB a zjistili jsme, že 2 138 genů bylo up-regulováno v BSB a 1 257 genů bylo up-regulováno v GB (obr. 2b a d). Poté jsme porovnali expresi mateřských GC a triploidních GB 2 483 genů bylo up-regulováno v GC a 1 516 genů bylo up-regulováno v GB (obr. 2c a d).

Diferenciálně exprimované geny v mateřských GC, otcovských BSB a triploidních potomcích GB. A. Je ukázána různá úroveň exprese mezi BSB a GC. b. Je ukázána různá úroveň exprese mezi BSB a GB. C. Zobrazí se různá úroveň výrazu mezi GC a GB. Červené (modré) body v grafu (MA-plot) jsou geny, které byly identifikovány jako diferencovaně exprimované. Zelené body v grafu (MA-plot) jsou geny, které se významně nelišily. Diferenciálně exprimované geny byly identifikovány pomocí metod založených na MA grafu s modelem náhodného odběru a prahovou hodnotou p 0,001. d. Diferenciálně exprimované geny v každém kontrastu mezi triploidními potomky a jejich původními rodiči. Tučný text ukazuje celkový počet a zlomek genů odlišně vyjádřených v každém kontrastu. U každého kontrastu je také ukázáno rozdělení celkového počtu různě exprimovaných genů na směr upregulace. Například 4 822 genů je označeno jako různě exprimovaných mezi M. amblycephala a C. idellus. Z toho je 2 376 upregulovaných v C. idellus, a 2 446 genů je upregulováno v M. amblycephala

Aby se zjistilo, zda se jev účinku dávkování vyskytl u triploidstriploidu, srovnání hodnoty predikované úrovně exprese triploidu (PT-ELV, také známý jako v silico nevlastní rodiče C.2 + B) a byla provedena hodnota skutečné úrovně triploidní exprese (AT-ELV) GB (viz metody). 4048 genů (29,1%) vykazovalo up-regulovanou expresi v PT-ELV GB a pouze 81 genů (0,6%) vykazovalo up-regulovanou expresi v AT-ELV GB (obr. 3a a c). Výše uvedené výsledky zjevně ukazovaly, že u triploidních potomků došlo k negativnímu účinku dávkování mateřských GC-homoeologních chromozomů. Na základě existence účinku dávkování jsme hypotetizovali hodnotu predikované hladiny diploidní exprese (PD-ELV, také známý jako v silico poloviční rodiče C + B) a porovnali jej s AT-ELV. 2 441 genů, které byly významně rozdílně exprimovány v triploidech, zahrnovalo 2 232 (16,1%) up-regulovaných genů v PD-ELV GB a 209 (1,5%) up-regulovaných genů v AT-ELV GB (obr. 3b a c). Naše výsledky vrhají pohled na to, že jak mechanismus negativních účinků dávkování, tak další neznámý mechanismus vedou k tomu, že úroveň exprese triploidu klesá do diploidního stavu.

Distribuce různě exprimovaných genů ve srovnání AT-ELV s PT-ELV (A) a porovnal AT-ELV s PD-ELV (b) v grafu MA. A. Ve srovnání s AT-ELV a PT-ELV představují černé tečky mezi dvěma modrými linkami geny bez významného rozdílu a jiné vykazují významně diferenciální expresi (> 2násobná změna a FDR <0,05). b. Ve srovnání s AT-ELV a PD-ELV představují černé tečky mezi dvěma modrými linkami geny bez významného rozdílu a jiné vykazují významně diferenciální expresi (> 2násobná změna a FDR <0,05). C. Tučný text ukazuje celkový počet a zlomek genů odlišně vyjádřených mezi expresemi triploidních potomků s predikovanou expresí středních rodičů v silico modul C.2 + B a C + B

Expresní vzorce pod dávkovým efektem

Jako předpoklad účinku dávkování nalezeného u triploidu nám to umožnilo nahlédnout do úrovně exprese zvýšené z jedné otcovské sady chromozomů a jedné mateřské sady chromozomů v triploidu. Pro lepší pochopení účinků ELD a HEB při dávkování jsme stanovili 12 kategorií včetně středních rodičů (XI a XII), výrazu nahoru/dolů (I, II, III, IV, V a VI) a ELD (VII, VIII (IX, X a X) k posouzení diferenciální genové exprese (viz metody). Mezi 13 893 sdílenými geny bylo jako kategorie ELD detekováno 2749 genů (19,8%) (obr. 4a). Mateřský GC-ELD zahrnující 1645 genů (11,8% všech genů, kategorie IX a X) vykazoval větší vliv než otcovský BSB-ELD (1 104 genů, 7,9% všech genů, kategorie VII a VIII) v triploidu (obr. 4a) . Kategorie VII a X (GC vs BSB = 1,8 vs 1) představovaly up-regulovanou ELD, zatímco down-regulovaná ELD (GC vs BSB = 1,3 vs 1) byla detekována v kategoriích VIII a IX u triploidu (obr. 4a). Výsledky ukázaly, že počet genů HEB byl v triploidu nevyvážený vzhledem k původnímu rodiči, byl nakloněn genomu GC matky (zkreslení otcovské BSB vs zaujatost matky GC = 1 104 vs. 1645) (obr. 4a). Abychom porovnali triploidní GB s otcovskou BSB, zkoumali jsme 1536 up-regulovaných genů (IV, V, VI, X a XII) a 2170 down-regulovaných genů (I, II, III, IX a XI). Ve srovnání s mateřskou GC bylo na triploidu zkoumáno 1 144 g upregulovaných genů (IV, V, VI, VII a XI) a 2 021 down-regulovaných genů (I, II, III, VIII a XII) (obr. 4a) . Počet genů vztahující se k down-nebo up-regulaci měl globální preferenci mRNA směrem k down-regulaci (up-regulace vs. down-regulace = 70 vs. 586). Navíc 65,4% (9083 genů, kategorie beze změn) vykazovalo podobné úrovně exprese u rodičů.

Rozdělení expresních vzorců v triploidu. A. 12 možných diferenciálních výrazových stavů v triploidu. Římské číslice označují stejné kategorie, jaké byly použity v Rappet et al. (2009) [32]. Příslušné vzorce genové exprese pro diploidní rodiče a jejich triploidní potomky jsou uvedeny ve schematických grafech. b. Úrovně výrazu GB (Černá bod v tečkované čáře), když otcovská BSB (♂) má vyšší expresi než mateřská GC (♀). Významně odlišné hladiny exprese v triploidu, které byly nižší než v otcovské BSB a vyšší než v mateřském GC, ukazují expresní vzor středních rodičů (XI). Pokud se však výraz GB výrazně nelišil (prahová hodnota log2Poměr ≤ 1) od poměru rodičů (zelená skvrny), ELD ve směru otcovské BSB nebo mateřské GC lze vysvětlit zvýšenou nebo nižší regulací homoeologu BSB (VII a IX). Významně odlišné úrovně exprese, ve kterých byla triploidní exprese vyšší než u otcovské BSB nebo mateřské GC (Červené místo nad středem) nebo nižší než u otcovské BSB nebo mateřské GC (Červené bod pod středem) odpovídal vzorkům upregulace (V) a downregulace (I). C. Úrovně výrazu GB (Černá bod v tečkované čáře), pokud mateřská GC (♀) má vyšší expresi než otcovská BSB (♂). d. Úrovně výrazu GB (Černá bod v tečkované čáře), pokud se hladiny exprese otcovské BSB nebo mateřské GC významně nelišily

Úroveň exprese růstových genů v hybridu

K analýze úrovně exprese pomocí modelu 12 kategorií srovnání GB s oběma rodiči ukázalo, že hybridizace a triploidizace vedly nejen k up-regulaci některých genů (70 genů, 0,6%, kategorie IV-VI), ale také vedly na down-regulaci ve velkém počtu genů (586 genů, 29,1%, kategorie I-III). Pro studium funkce růstu regulovaného u triploidu jsme v následující analýze získali 57 sdílených růstových genů mezi triploidními potomky a jejich rodiči (obr. 4a). Analýza diferenciální exprese genů souvisejících se růstem mezi sdílenými růstovými geny odhalila, že 7,0% (4 geny, kategorie IV-VI) genů bylo up-regulováno a 10,5% (10 genů, kategorie I-III) genů bylo nefunkčních -regulované (tabulka 2, obr. 4a). Poměr počtu up-regulovaných genů v kategorii růstových funkcí byl vyšší než celkový poměr up-regulovaných genů (P & lt 0,05 Fisherův přesný test).

Po detekci ELD růstově regulovaných genů v triploidu vykazovalo jedenáct genů otcovskou BSB-ELD a 13 genů vykazovalo mateřskou GC-ELD (obr. 4a). Procento mateřských GC-ELD (22,8%) růstových genů bylo vyšší než u celkových genů (11,8%). Procento otcovských BSB-ELD (19,3%) růstových genů bylo vyšší než u celkových genů (8,9%). Procento rodičovské ELD v genech souvisejících s růstem bylo více než u jiných genů v triploidu. Jedenáct genů bylo považováno za geny středního rodiče a zbývajících 12 genů souvisejících s růstem nevykazovalo žádnou změnu v hladinách exprese (obr. 4a). 21,1% genů souvisejících s růstem v kategorii „beze změny“ bylo nižší než 65,4% celkových genů v této kategorii (další soubor 7). Tyto výsledky naznačují, že existuje více změn v genové expresi související s růstem v triploidu než v jiných genových funkcích.

Ověření kvantitativní PCR (qPCR) v reálném čase

Abychom ověřili kvalitu dat sekvenování RNA (RNA-Seq) a spolehlivost úrovně triploidní exprese ve srovnání s oběma rodiči, vybrali jsme 10 reprezentativních diferenciálně exprimovaných genů (igfbp2b, igfbp5a, smad7, gdf6a, igf1, ctnnb1, igf2b, ppm1bb, gdf2, a insra) a provedl qPCR na biologických replikátech trojmo. Pomocí qPCR byly detekovány stejné trendy v hladinách exprese těchto genů, jaké byly získány z datové analýzy RNA-Seq (obr. 5). Tyto výsledky naznačují, že data RNA-Seq a související analytické metody lze použít k přesné detekci diferenciálně exprimovaných genů.

Analýza PCR v reálném čase pro deset různě exprimovaných genů: A. igf2b„Růstový faktor podobný inzulínu 2. b. igf1„Růstový faktor podobný inzulinu 1. C. gdf2. Faktor diferenciace růstu 2. d. ctnnb1Catenin (protein spojený s kadherinem), beta 1. E. gdf6aFaktor diferenciace růstu 6. F. igfbp2b, Protein vázající růstový faktor podobný inzulinu 2 (G). igfbp5aProtein vázající růstový faktor podobný inzulínu 5. h. insraReceptor inzulínu. . ppm1bb, Proteinfosfatáza, závislá na Mg2+/Mn2+, 1B. j. smad7, SMAD člen rodiny 7


Genová regulace, modulace a jejich aplikace v analýze dat genové exprese

Běžná analýza mikročipů a sekvenování dat nové generace se zaměřuje na klasifikaci podtypů nádorů, detekci markerů a objev regulace transkripce během biologických procesů zkoumáním korelovaných vzorců genové exprese a jejich sdílených funkcí. V mnoha velkých studiích byly použity přístupy založené na genetické regulační síti (GRN) za účelem zkoumání dysregulace a potenciálních kontrol léčby. Kromě regulace genů a konstrukce sítě byl navržen koncept síťového modulátoru, který má významný systémový dopad, a v minulých letech byly vyvinuty detekční algoritmy.Zde poskytujeme jednotný matematický popis těchto metod, následovaný krátkým průzkumem těchto identifikačních algoritmů modulátoru. Jako raný pokus rozšířit koncept na nový mechanismus regulace RNA, kompetitivní endogenní RNA (ceRNA), do rámce modulátoru, poskytujeme dvě aplikace pro ilustraci konstrukce sítě, efektu modulace a předběžného zjištění z těchto sítí. Tyto metody, které jsme zkoumali a vyvinuli, se používají k pitvě regulované sítě pod různými modulátory. Koncept „modulace“ se může neomezovat na tyto, přizpůsobit se různým biologickým mechanismům, aby objevil nové mechanismy regulace genů.

1. Úvod

S vývojem microarray [1] a v poslední době sekvenační techniky příští generace [2] bylo za účelem studia vzorku provedeno transkripční profilování biologických vzorků, jako jsou vzorky nádorů [3–5] a vzorky z jiných modelových organismů. podtypy na molekulární úrovni nebo transkripční regulace během biologických procesů [6–8]. Zatímco běžné metody analýzy dat využívají k prozkoumání korelovaných genů a jejich funkcí hierarchické shlukovací algoritmy nebo klasifikaci vzorů, ke zkoumání dysregulace mezi různými skupinami nádorů nebo biologickými procesy byly použity přístupy genetické regulační sítě (GRN) (viz recenze [9–12]) .

Při konstrukci sítě je většina výzkumu zaměřena na metody založené na datech genové exprese odvozených z vysoce výkonných technologií pomocí metrik, jako je Pearsonova nebo Spearmanova korelace [13], vzájemné informace [14], metoda spolurozhodování [15, 16 ], Bayesovské metody [17, 18] a pravděpodobnostní booleovské sítě [19]. Nedávno byla navržena nová transkripční regulace prostřednictvím kompetitivní endogenní RNA (ceRNA) [20, 21], která zavádí další dimenzi do modelování genové regulace. Tento typ regulace vyžaduje znalost cílů vázajících se na mikroRNA (miRNA) [22, 23] a hypotézu regulací RNA prostřednictvím kompetice vazby miRNA. Běžná konstrukce GRN se pokouší omezit regulátory na proteiny transkripčního faktoru (TF), což je primární programovací stroj pro transkripci, který se spoléhá na vazebná místa specifická pro sekvenci v promotorových oblastech cílových genů. Naproti tomu ceRNA zprostředkovávají genovou regulaci prostřednictvím konkurenčních vazebných míst miRNA v cílové oblasti 3'UTR, které existují ve více než 50% mRNA [22, 24]. V této studii rozšíříme současné metody výstavby sítě začleněním regulace prostřednictvím ceRNA.

V tumorigenezi je hlavní příčinou rakoviny genová mutace [25]. Mutace se nemusí přímo odrážet ve změně na úrovni genové exprese, ale naruší regulaci genu [26–28]. V Hudson et al., Zjistili, že mutovaný myostatin a MYL2 vykazovaly různé koexprese ve srovnání s divokým typem myostatinu. Chun a kol. také ukázal, že onkogenní KRAS moduluje HIF-1α a HIF-2α cílové geny a zase moduluje metabolismus rakoviny. Stelniec-Klotz a kol. představil komplexní hierarchický model modulované sítě KRAS následovaný experimenty dvojité poruchy. Shen a kol. [29] ukázali časovou změnu GRN modulovaných po stimulaci estradiolem, což ukazuje na důležitou roli estrogenu při modulaci GRN. Funkčně, modulační efekt vysoké exprese ESR1 byl také hlášen Wilsonem a Deringem [30], kde studovali dříve publikovaná data microarray s buňkami ošetřenými agonisty a antagonisty hormonálních receptorů [31–33]. V této studii byl poskytnut komplexní přehled stávajících algoritmů k odhalení modulátorů. Vzhledem k tomu, že stav exprese mutace nebo proteinu nebyl v mnoha hlášených studiích znám, problém, jak rozdělit různé vzorky s různými podmínkami, jako je aktivní nebo neaktivní stav onkogenu (a možná kombinace více mutací), a predikce domnělý modulátor genové regulace zůstává obtížným úkolem.

Kombinací genové regulace získané z koexpresních dat a ceRNA zde uvádíme raný pokus matematicky sjednotit dva systémy za předpokladu známého modulátoru, estrogenového receptoru (ER). Použitím dat o expresi genu tumoru prsu TCGA [3] a jejich klinickým testem (stav ER) demonstrujeme přístup získávání GRN prostřednictvím ceRNA a novou prezentaci efektů modulace ER. Díky integraci údajů o rakovině prsu do naší jedinečné webové stránky o objevu ceRNA máme jedinečnou pozici k dalšímu prozkoumání regulační sítě ceRNA a dalšímu vývoji objevovacích algoritmů za účelem detekce potenciálních modulátorů regulačních interakcí.

2. Modely genové regulace a modulace

2.1. Regulace genové exprese

Složité vztahy mezi geny a jejich produkty v buněčném systému lze studovat pomocí genetických regulačních sítí (GRN). Sítě modelují různé stavy nebo fenotypy buněčného systému. V tomto modelu jsou interakce běžně modelovány jako páry regulátor-cíl s hranami mezi regulátorem a cílovým párem představujícím jejich směr interakce, jak je znázorněno na obrázku 1 (a). V tomto modelu je cílovým genem gen, jehož exprese může být změněna (aktivována nebo potlačena) regulačním genem. Tato definice cílového genu naznačuje, že jakýkoli gen může být v určitém okamžiku cílovým genem nebo přímým nebo nepřímým regulátorem v závislosti na jeho poloze v genetické regulační síti. Regulační gen je gen, který řídí (aktivuje nebo potlačuje) expresi svých cílových genů. Důsledky těchto aktivovaných (nebo potlačených) genů se někdy podílejí na specifických biologických funkcích, jako je buněčná proliferace při rakovině. Příklady dvojice regulátor-cíl v biologii jsou běžné. Například cílový gen CDCA7 (protein 7 spojený s cyklem dělení buněk) je gen reagující na c-Myc (regulátor) a je součástí transformace lymfoblastoidních buněk zprostředkované c-Myc. Kromě toho, jak je ukázáno na obrázku 1 (b), regulační gen může také působit jako cílový gen, pokud existuje upstream regulátor.


(A)
b)
(A)
b)

Materiály a metody

Hmyz

Sedmý instary Z. nevadensis byly odebrány vzorky ze tří zralých kolonií, které byly shromážděny v prefektuře Hyogo v Japonsku v květnu 2015 a 2016 a udržovány při ~ 25 ° v konstantní tmě, dokud nebyly provedeny následující experimenty. Mladé instarové nymfy [šířka hlavy = 1,31–1,57 mm, třída 1 (třetí nebo čtvrtý instar) a šířka hlavy = 1,91–2,12 mm, třída 2 (pravděpodobně pátý instar) (Nalepa 1984, 1990)] C. punctulatus byly shromážděny na biologické stanici Mountain Lake, Giles County, VA, v dubnu 2015–2017. Tito jedinci byli až do použití drženi při 15 ° v konstantní tmě.

Léčba JHA

v Z. nevadensis, podle metod Saiki a kol. (2014), filtrační papír byl ošetřen 0 (pro kontrolu) nebo 10 μg JHA (pyriproxyfen Wako, Osaka, Japonsko) rozpuštěným ve 400 μl acetonu a umístěn do 90 mm Petriho misky s 10 jednotlivými sedmými instary. v C. punctulatusfiltrační papír a 200 mg celulózového prášku (Wako) byly ošetřeny 0 (pro kontrolu) nebo 100 ug pyriproxyfenu rozpuštěného v 200 μl acetonu a umístěny do 60 mm Petriho misky s 10 nymfami třídy 1 nebo -2. Všechny Petriho misky byly uchovávány v inkubátoru při 25 ° (Z. nevadensis) nebo 15 ° (C. punctulatus) v neustálé tmě po dobu 30 dnů. Pokrmy byly každých 24 hodin kontrolovány na mrtvé a nově pokládané jedince. Rychlost tavení u každého druhu byla porovnána mezi ošetřením JHA a acetonem. Fisherův přesný test byl proveden pomocí Mac Statistical Analysis verze 2.0 (Esumi, Tokio, Japonsko).

RNAi experiment

Každá dvouvláknová RNA (dsRNA) byla generována sekvencemi částečné komplementární DNA (cDNA) amplifikovanými genově specifickými primery (doplňkový materiál, tabulka S1) za použití T7 RNA polymerázy s MEGAscript T7 Transcription Kit (Ambion, Austin, TX) . Stejně jako v předchozích studiích (Masuoka a kol. 2015, 2018 Masuoka a Maekawa 2016a, b), GFP byl vybrán jako kontrolní gen a dsRNA byla generována pomocí GFP vektoru pQBI-polII (Wako). Specifické primery následujících genů Z. nevadensis byly navrženy z genomových sekvenčních dat pomocí softwaru Primer3Plus (Untergasser a kol. 2007): ZnMet (identifikátor genu Znev_09571 Terrapon a kol. 2014), ZnSRC (Znev_05083), ZnKr-h1 (Znev_04171), ZnShr (Znev_16529), ZnSpo (Znev_04417), ZnEcR (Znev_13925), ZnE74 (Znev_00833), ZnE75 (Znev_11406), ZnHR3 (Znev_14707) a ZnHR39 (Znev_00332). Specifické primery následujících genů C. punctulatus byly navrženy z transkriptomových sekvenčních dat (Hayashi a kol. 2017 DNA Database of Japan Sequence Read Archive database accession number DRA004598) using Primer3Plus: CpMet (vyjádřený identifikátor značky sekvence Cp_TR6397) a CpKr-h1 (Cp_TR7552). Každá dsRNA [500 ng ve 136 nl (Z. nevadensis) 4 μg v 272 nl (C. punctulatus)] byl injikován do boku hrudníku jedinců pomocí mikroinjektoru Nanoliter 2000 (World Precision Instruments, Sarasota, FL). Do 24 hodin po injekci byli všichni jedinci umístěni do Petriho misky s filtračním papírem (a také celulózovým práškem pro C. punctulatus) ošetřené pyriproxyfenem nebo acetonem a miska byla uchovávána v inkubátoru jako v předchozí části. Rychlost tání byla porovnána mezi ošetřeními a Fisherův přesný test byl proveden pro statistickou analýzu pomocí statistického softwaru R verze 3.1.2 (Ihaka a Gentleman 1996). Vyhodnocení účinků ZnMet načasování injekce dsRNA, dsRNA byla injikována každých 24 hodin po ošetření JHA (do 120 hodin, den 0–5).

Analýza genové exprese

Tři jednotlivci byli odebráni 3 dny po injekci dsRNA. Celková RNA byla extrahována z celého těla každého jednotlivce pomocí ISOGEN (NipponGene, Tokio, Japonsko). Extrahovaná RNA byla přečištěna působením DNázy a použita pro syntézu cDNA pomocí vysokokapacitní cDNA reverzní transkripční sady (Applied Biosystems, Foster City, CA). Specifické primery genů souvisejících s 20E Z. nevadensis a C. punctulatus (Nvd: Znev_04416 a Cp_TR25860 Shr: Znev_16529 a Cp_TR25505 Spo: Znev_04417 a Cp_TR54771 Phm: Znev_00957 Dib: Znev_08701 a Cp_TR16740 Smutný: Znev_14659 Shd: Znev_02808 EcR: Cp_TR4152 USP: Znev_11534 Br-C: Znev_09723 E63: Znev_06687 a Cp_TR16589 E74: Znev_00833 a Cp_TR3685 E75: Cp_TR8108 E93: Znev_02008 HR3: Znev_14707 a Cp_TR38613 HR4: Znev_17691 HR38: Znev_16131 HR39: Znev_00332 a Cp_TR1259 HR78: Znev_03071 HR96: Znev_06284 a Cp_TR49824 FTZ-F1: Znev_18259) byly nově navrženy tak, jak je uvedeno v předchozí části (tabulka S1). Signálové geny JH z C. punctulatus (CpMet: Cp_TR6397 a CpKr-h1: Cp_TR7552) byly také nově navrženy, jak je uvedeno v předchozí části. Primery signálních genů JH (ZnMet, ZnSRC, a ZnKr-h1) a 20E signální geny z Z. nevadensis (ZnEcR, ZnBr-C, ZnHR4, a ZnE75) byly dříve popsány (Masuoka a kol. 2015 Masuoka a Maekawa 2016a). Úroveň exprese každého genu byla kvantifikována pomocí THUNDERBIRD SYBR qPCR Mix (TOYOBO, Osaka, Japonsko) a detekčního systému MiniOpticon Real-Time System (Bio-Rad, Hercules, CA). Endogenní kontrolní gen byl vybrán z následujících tří genů, EF1-α (Zn: přístupové číslo AB915828 Cp: přístupové číslo AFK49795), β-aktin (Zn: č. AB915826 Cp: Cp_TR19468), a NADH-dh (Zn: no. AB936819 Cp: Cp_TR49774), using GeNorm (Vandesompele a kol. 2002) a NormFinder (Andersen a kol. 2004). EF1-α byl vybrán ve všech analýzách kvantitativní PCR (qPCR) v reálném čase provedených v této studii (tabulka S2). Analýza qPCR v reálném čase byla provedena v biologických triplikátech. Statistická analýza byla provedena pomocí Mann -Whitney’s U-test pro srovnání mezi cílovým genem a GFP Zpracování RNAi pomocí statistického softwaru Mac Statistical Analysis verze 2.0 (Esumi). Pro Z. nevadensis, před použitím ANOVA jsme provedli Browne – Forsythův test na odchylku pomocí statistického softwaru R verze 3.1.2 (Ihaka a Gentleman 1996).

Dostupnost dat

Autoři prohlašují, že všechny údaje nezbytné pro potvrzení závěru článku jsou obsaženy v článku a doplňkovém materiálu. Doplňkový materiál je k dispozici na Figshare: https://doi.org/10.25386/genetics.6564572.


Prokaryotická versus eukaryotická genová exprese

Abychom pochopili, jak je regulována genová exprese, musíme nejprve pochopit, jak gen kóduje funkční protein v buňce. Proces se vyskytuje v prokaryotických i eukaryotických buňkách, jen v trochu odlišných způsobech.

Prokaryotické organismy jsou jednobuněčné organismy, které postrádají definované jádro, jejich DNA se tedy volně vznáší v buněčné cytoplazmě. K syntéze proteinu dochází k procesům transkripce (DNA na RNA) a translace (RNA na protein) téměř současně. Když výsledný protein již není potřeba, transkripce se zastaví. Regulace transkripce je tedy primární metodou ke kontrole, jaký typ proteinu a kolik z každého proteinu je exprimováno v prokaryotické buňce. Všechny následující kroky proběhnou automaticky. Když je zapotřebí více bílkovin, dochází k větší transkripci. V prokaryotických buňkách je proto kontrola genové exprese většinou na transkripční úrovni.

Eukaryotické buňky mají naopak intracelulární organely, které jim přidávají na složitosti. V eukaryotických buňkách je DNA obsažena uvnitř jádra buňky a rsquos, kde je přepsána do RNA. Nově syntetizovaná RNA je poté transportována z jádra do cytoplazmy, kde ribozomy překládají RNA do proteinu. Procesy transkripce a translace jsou fyzicky odděleny nukleární membránovou transkripcí dochází pouze v jádře a translace probíhá pouze mimo jádro v cytoplazmě. Regulace genové exprese může nastat ve všech fázích procesu. K regulaci může dojít, když je DNA odvinuta a uvolněna z nukleosomů za účelem vazby transkripčních faktorů (epigenetika), když je RNA transkribována (transkripční úroveň), když je RNA zpracována a exportována do cytoplazmy poté, co je transkribována (posttranskripční úroveň) , když je RNA přeložena na protein (translační úroveň), nebo poté, co byl protein vytvořen (posttranslační úroveň).

Obrázek ( PageIndex <1> ): Prokaryotická vs. eukaryotická genová exprese: Prokaryotická transkripce a translace probíhají současně v cytoplazmě a regulace probíhá na transkripční úrovni. Exprese eukaryotického genu je regulována během transkripce a zpracování RNA, které probíhá v jádru, a během translace proteinu, která probíhá v cytoplazmě. K další regulaci může dojít posttranslačními modifikacemi proteinů.


Výsledek

Vlastní sítě

Mnoho metod detekce modulů identifikuje skupiny genů, jejichž expresní profily jsou vysoce korelované. U takových modulů lze shrnout profil exprese modulu jedním reprezentativním genem: modul eigengene. Intuitivní vysvětlení modulů eigengenes je uvedeno na obrázcích 1C – E. Specificky definujeme modul eigengene jako první pravo-singulární vektor standardizovaných dat výrazu modulu (Methods, Eq. 29). Eigengeny různých modulů často vykazují korelace, které používáme k definování vlastní sítě. Obrázek 1A nastiňuje náš přístup ke konstrukci vlastní sítě odpovídající modulům jedné genové koexpresní sítě. Eigengeny indexujeme velkými písmeny , J.. například, E J.označuje (modul) vlastní modul J.-th modul. Definujeme sílu spojení (sousedství) mezi eigengeny a J. tak jako

Přehled vlastních sítí. A. Vývojový diagram konstrukce a analýzy vlastní sítě založené na jediném souboru dat. B. Analogický vývojový diagram pro konstrukci a analýzu konsensu vlastní sítě založené na více souborech dat. C.–E. Ilustrující pojem eigengene jako zástupce celého modulu genové koexprese. C. Úrovně výrazu (y-osa) genů modulu (šedé čáry) a eigengenu (černá čára) napříč vzorky mikroarray (X-osa). Graf ukazuje, že eigengen vysoce koreluje s expresními profily genů v modulu. D. Tepelná mapa genových expresí (řádky odpovídají genům, sloupce vzorkům, červená označuje nadměrnou expresi, zelená nedostatečnou expresi). E. Úrovně výrazu (y-osy) odpovídajícího eigengenu napříč vzorky (X-osa). Kdykoli je exprese genů modulu vysoká (červená), modul eigengene je vysoký a podobně pro nízké (zelené) genové exprese.

Tedy vlastní síť A Eigen= (AEigen,IJ) je speciální případ signované vážené genové koexpresní sítě (β = 1 v ekv. 26, Metody). Používáme podepsanou koexpresní síť, protože znak korelace mezi eigengeny nese v našich aplikacích důležité biologické informace. Používáme a vážený síť pro koexpresi genů k popisu vztahů mezi moduly, protože to udržuje kontinuální povahu informací o společné expresi. Příklady dvou různých vizualizačních metod vlastních sítí jsou uvedeny na obr. 2C, D a 2E, H.

Diferenciální analýza vlastní sítě ve vzorcích mozku člověka a šimpanze. A. Hierarchický shlukovací dendrogram genů pro identifikaci konsensuálních modulů (viz text). Větve dendrogramu, zaříznuté na červené čáře, odpovídají konsensuálním modulům. Génům v každém modulu je přiřazena stejná barva, zobrazená v barevném pásmu pod dendrogramem. Geny, které nejsou přiřazeny žádnému z modulů, jsou zbarveny šedě. B., C. Seskupování dendrogramů vlastních modulů konsensu pro identifikaci meta-modulů. V obou dendrogramech jsou evidentní stejné tři meta-moduly (hlavní větve). D. Tepelná mapa eigengenových sousedství v konsensuální eigengenské síti v lidských vzorcích. Každý řádek a sloupec odpovídá jednomu eigengenu (označeno barvou modulu konsensu). Jak ukazuje barevná legenda, červená barva v teplotní mapě označuje vysokou sousednost (pozitivní korelace) a zelená nízkou sousednost (negativní korelace). G. Odpovídající graf pro vzorky šimpanzů. E. Ochranné opatření pro každý konsensuální eigengen. Každý barevný pruh odpovídá eigengenu odpovídající barvy. Výška lišty (y-axis) udává opatření pro zachování eigengenu (16). D označuje celkové zachování vlastních sítí, rov. (17). F. Tepelná mapa přilehlostí v konzervační síti Zachovat člověk,šimpanz , Rov.(15). Každý řádek a sloupec odpovídá konsensuálnímu nasycení modulu červené barvy souseděním podle barevné legendy. H. Charakterizace konsensuálních modulů diferenciálním vyjádřením jejich odpovídajících eigengenů v různých oblastech mozku, ze kterých byly odebrány vzorky. Červená znamená nadměrný výraz, zelená čísla pod expresí v každé buňce dávají odpovídající t-test p-hodnota. Každý sloupec odpovídá eigengenu a každý řádek odpovídá oblasti mozku. Caudacc, jádro caudate a přední cingulární kůra cerebcort, mozeček a cortex caudate, jádro caudate.

Pro -th eigengene modul, definujeme škálovanou konektivitu (stupeň) C (A Eigen) jako střední síla spojení s ostatními eigengeny:

kde N. označuje počet vlastních modulů. Všimněte si, že škálované připojení C (A Eigen) se blíží 1, pokud -eigengen má vysokou pozitivní korelaci s většinou ostatních eigengenů.

Hustota D(A Eigen) vlastní sítě je definována jako průměrná škálovaná konektivita (rovnice 9):

Hustota D(A Eigen) se blíží 1, pokud má většina eigengenů navzájem vysoké pozitivní korelace.

Meta-moduly v jediné vlastní síti

Protože eigengenové tvoří síť, lze k identifikaci modulů složených z eigengenů použít postup detekce modulů. Moduly v vlastní síti označujeme jako meta-moduly. Meta-moduly mohou odhalit organizaci vyššího řádu mezi moduly genové koexprese. Průměrné hierarchické seskupování vazeb používáme k definování meta-modulů jako větví výsledného klastrového stromu (Methods, Eq. 21). Výsledné meta-moduly jsou sady pozitivně korelovaných eigengenů.

Diferenciální analýza vlastní sítě

Několik nedávných prací popsalo metody analýzy diferenciální sítě pro sítě genové koexprese [11–13]. Zde navrhujeme metody pro diferenciální analýzu vlastních sítí. Přehled je uveden na obrázku 1B. Začínáme definováním a zjišťováním konsensuálních modulů, tj.moduly, které jsou sdíleny dvěma nebo více genovými koexpresními sítěmi. Konsensuální moduly mohou představovat biologické cesty, které jsou sdíleny mezi srovnávanými soubory dat. Studium jejich vztahů, reprezentovaných konsensuálními eigengenskými sítěmi, může odhalit důležité rozdíly v regulaci dráhy za různých podmínek. Detekce konsensuálních modulů probíhá definováním vhodné konsensuální odlišnosti (metody, ekv. 22) a jejím použitím jako vstupu do hierarchického shlukování. Pro srovnání shoda eigengene sítě (rovnice. 1) ze dvou souborů dat, jejichž sousedů matrice jsou AE igen (1) MathType @ výdajovém @ 5 '5 + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGacaGaaiaabeqaaeqabiWaaaGcbaGaemyqae0aa0baaSqaaiabdweafjabdMgaPjabdEgaNjabdwgaLjabd6gaUbqaaiabcIcaOiabigdaXiabcMcaPaaaaaa @ 362A @ a AE igen (2) MathType @ výdajovém @ 5 '5 + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGacaGaaiaabeqaaeqabiWaaaGcbaGaemyqae0aa0baaSqaaiabdweafjabdMgaPjabdEgaNjabdwgaLjabd6gaUbqaaiabcIcaOiabikdaYiabcMcaPaaaaaa @ @ 362C, využíváme z konzervační síť Zachovat (1,2) = Zachovat(AE igen (1) MathType @ výdajovém @ 5 '5 + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGacaGaaiaabeqaaeqabiWaaaGcbaGaemyqae0aa0baaSqaaiabdweafjabdMgaPjabdEgaNjabdwgaLjabd6gaUbqaaiabcIcaOiabigdaXiabcMcaPaaaaaa @ 362A @, AE igen (2) MathType @ výdajovém @ 5' 5 + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGacaGaaiaabeqaaeqabiWaaaGcbaGaemyqae0aa0baaSqaaiabdweafjabdMgaPjabdEgaNjabdwgaLjabd6gaUbqaaiabcIcaOiabikdaYiabcMcaPaaaaaa @ @ 362C), ve které jsou definovány jako adjacencies

Zde E I (y) MathType @ výdajovém @ 5 '5 + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGacaGaaiaabeqaaeqabiWaaaGcbaGaemyrau0aa0baaSqaaiabdMeajbqaaiabcIcaOiabdohaZjabcMcaPaaaaaa @ @ 314F označuje eigengene z i-tého konsenzuální modulu v datové sadě s. Vysoké hodnoty P r e d e r v i J (1, 2) MathType @ výdajovém @ 5 '5 + = feaagaart1ev2aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacPC6xNi = xH8viVGI8Gi = hEeeu0xXdbba9frFj0xb9qqpG0dXdb9aspeI8k8fiI + FSY = rqGqVepae9pg0db9vqaiVgFr0xfr = XFR = xc9adbaqaaeGacaGaaiaabeqaaeqabiWaaaGcbaGaemiuaaLaemOCaiNaemyzauMaem4CamNaemyzauMaemOCaiNaemODay3aa0baaSqaaiabdMeajjabdQeakbqaaiabcIcaOiabigdaXiabcYcaSiabikdaYiabcMcaPaaaaaa @ @ 3C39 ukazují silnou korelaci mezi zachování eigengenes a J. napříč oběma sítěmi. Rozšířená konektivita C (Zachovat (1,2)) je dán

a je blízko 1, pokud jsou korelace mezi -eigengene a ostatní eigengeny jsou zachovány v obou sítích. Hustota D(Zachovat (1,2)) je dán

Větší hodnoty D(Zachovat (1,2)) naznačují silnější zachování korelace mezi všemi páry eigengenů v obou sítích. Opatření (5, 6) jsou intuitivní, popisná opatření pro posouzení míry zachování mezi sítěmi. Dosáhnout úrovně statistické významnosti (p-hodnota), lze použít test permutace (popsaný v Metodách). Bylo navrženo mnoho statistických testů pro testování rozdílů mezi korelacemi, např., [14–16].

Aplikace 1: Diferenciální analýza eigengenové sítě dat exprese mozku člověka a šimpanze

Zde uvádíme výsledky naší diferenciální analýzy eigengenové sítě v mozkových datech mikročipů člověka a šimpanze. Data mikročipů byla původně publikována v [17]. Genová koexpresní analýza těchto dat je uvedena v [11]. Abychom usnadnili srovnání s původní analýzou okrajových modulů, použili jsme geny vybrané touto prací. Data, kód R a další podrobnosti této analýzy lze nalézt v doplňkovém souboru 1 a na naší webové stránce.

K nalezení konsensuálních modulů jsme použili měřítko konsensuální odlišnosti (rovnice 22) a hierarchické shlukování průměrných vazeb. Geny daného konsensuálního modulu byly přiřazeny ke stejné barvě, zatímco nepřiřazené geny byly označeny šedě. Našli jsme 7 konsensuálních modulů uvedených na obr. 2A: černý (41 genů), modrý (40 genů), hnědý (294 genů), růžový (41 genů), červený (78 genů), tyrkysový (884 genů) a žlutý (151 genů). Analýza funkčního obohacení těchto konsensuálních modulů je popsána níže. Pro každý soubor dat jsme reprezentovali konsensuální moduly jejich odpovídajícími moduly eigengenes a vytvořili mezi nimi vlastní síť (rovnice 1).

Analýza diferenciální eigengenové sítě přináší dvě hlavní nová zjištění, která nebylo možné získat pomocí standardní okrajové metody. Nejprve zjistíme, že vztahy mezi modulem jsou vysoce chráněni vlastní obyvatelé. Obr. 2E a 2H ukazují vlastní sítě AEigen,člověka AEigen,šimpanz, resp. Je zřejmé, že lidské a šimpanzí vlastní sítě konsensuálních modulů jsou vysoce zachovány. Jak je popsáno v ekv. (4), definovali jsme síť pro uchování Zachovat člověk,šimpanz = Zachovat(AEigen,člověk, AEigen,šimpanz) mezi 7 konsensuálních eigengenů.

U každého jednotlivého eigengenu zjišťujeme, že jeho vztahy s ostatními eigengeny jsou vysoce zachovány, což se odráží ve vysoké konektivitě v ochranné síti (rovnice 5): C Červené(Zachovat člověk,šimpanz ) = 0.94, C Černá= 0.95, C žlutá= 0.92, C tyrkysový= 0.95, C růžový= 0.91, C modrý= 0.91, C hnědý= 0,94. Nalezli jsme vysokou celkovou ochranu (rov. 6) mezi oběma sítěmi, což se odráží ve vysoké hustotě konzervační sítě D(Zachovat člověk,šimpanz ) = 0,93. Obr. 2F, G shrnují naše zjištění o vztazích konsensuálních modulů.

Druhým novým zjištěním je, že konsensuální eigengeny v souboru lidských dat spadají do tří větví (meta-moduly), viz obr. 2C. První meta-modul se skládá z červených, černých a žlutých eigengenů, druhý metamodul obsahuje tyrkysový eigengen a třetí meta-modul obsahuje růžové, modré a hnědé eigengeny. Je pozoruhodné, že tyto 3 meta-moduly lze detekovat také v datech šimpanze, viz obr. 2D. Zatímco definice konsensuálních modulů triviálně naznačuje, že jsou zachovány mezi dvěma datovými sadami, je netriviálním výsledkem, že v této aplikaci jsou zachovány i metamoduly.

Abychom porozuměli biologickému významu konsenzuálních modulů, studovali jsme diferenciální expresi vlastních modulů konsensuálního modulu v oblastech mozku, ze kterých byly odebrány vzorky microarray. Výsledky jsou shrnuty na obr. 2, který ukazuje t-test p-hodnoty diferenciální exprese modulních eigengenů v různých oblastech mozku, ze kterých byly odebrány vzorky. Je zřejmé, že eigengeny lze charakterizovat jejich rozdílnými expresními vzory v různých oblastech mozku. Tato analýza dále umožňuje biologicky smysluplnou charakterizaci meta-modulů. První meta-modul (složený z černého, ​​žlutého a červeného eigengenu modulu) představuje 270 genů, které bývají různě exprimovány v jádru caudate. Druhý meta-modul (složený pouze z tyrkysového eigengenu) představuje 884 genů, které bývají různě exprimovány v mozečku. Třetí meta-modul (složený z růžových, modrých a hnědých eigengenů modulu) představuje 375 genů, které jsou různě exprimovány v kortikálních vzorcích. Meta-moduly této aplikace tedy odpovídají biologicky smysluplným super-sadám modulů a genů.

Vzhledem k silným vztahům mezi moduly v každém meta-modulu je přirozené se ptát, zda jsou moduly konsensu skutečně odlišné. Například černý a červený modul vykazují velmi podobné úrovně diferenciálního výrazu, viz obr. 2B. V tomto případě informace o ontologii genu naznačují, že tyto dva moduly jsou skutečně odlišné. Černý modul je obohacen o geny související s bílou hmotou, zatímco u červeného modulu nelze takovéto obohacení nalézt [11]. Podobně genová ontologie naznačuje, že žluté a černé moduly jsou odlišné, přestože jejich modulové eigengeny jsou v korelaci.

V souhrnu analýza eigengenské sítě odhaluje organizaci vyššího řádu konsensuálních modulů v transkriptomu.

Porovnání našich zjištění se standardní analýzou okrajových modulů

Standardní přístup ke srovnávání modulů mezi několika sítěmi je identifikovat moduly v „referenční“ síti a studovat zachování přiřazení modulů v ostatních sítích [7]. V původní analýze Oldham et al zvolila jako referenční síť lidskou koexpresní genovou síť, protože jak zachování, tak nezachování lidských modulů byly předmětem zájmu. Tato okrajová modulová analýza je vhodná, když jsou cílem analýzy moduly jedné datové sady, ale nejsou určeny k identifikaci konsensuálních modulů, které tvoří zaměření našeho článku. Abychom mohli porovnat analýzu analýzy diferenciální vlastní sítě se standardní metodou okrajových modulů, porovnali jsme naše konsensuální moduly se 7 lidskými moduly nalezenými v [11]. Použili jsme párový Fisherův přesný test, abychom zjistili, zda existuje významné překrývání mezi konsensem a lidskými moduly. Výsledky jsou shrnuty v doplňkovém souboru 2. Celkově nacházíme dobrou shodu mezi konsensuálními moduly a moduly specifickými pro člověka, což odráží skutečnost, že většina lidských modulů je zachována u šimpanzů. Většinu lidských modulů lze přiřadit modulu konsensu a naopak, s výjimkou modulů lidská modrá (360 genů) a zelená (126), které z konsensu většinou vymizely. Je zajímavé, že malé zbytky (24, respektive 12 genů) těchto dvou modulů tvoří většinu jediného modulu konsensu (označeného růžovým, 41 genů), který nemá jasný lidský protějšek. Další malý zbytek (33 genů) modulu lidské modré tvoří většinu modulu konsensuální modře (40 genů).

Bylo zjištěno, že zelené a modré lidské moduly představují převážně kortikální vzorky (a mozeček pro zelený modul) a byly nejméně zachovány u šimpanzů [11]. To je v souladu s naším zjištěním o jejich nedostatečné ochraně pomocí metody modulu konsensu. Jedním z možných vysvětlení absence těchto modulů u šimpanzů je, že do značné míry odrážejí genovou expresi v mozkové kůře, oblasti mozku, která se v lidské linii dramaticky rozšířila. Standardní analýza okrajové diferenciální sítě také identifikovala několik genů - LDOC1, EYA1, LECT1, PGAM2 - jejichž konektivity (rovnice 8) byly v šimpanzí síti výrazně nižší. Žádný z těchto genů není přítomen v našich konsensuálních modulech, což poskytuje další důkaz shody metody s výsledky [11].

Detekce konsensuálních modulů je podle definice navržena tak, aby našla moduly, které jsou sdíleny mezi datovými sadami. Očividně bude existovat mnoho aplikací, kde jsou zajímavé moduly specifické pro datovou sadu. V takových aplikacích bude preferována standardní analýza detekce okrajových modulů.

Aplikace 2: Diferenciální analýza eigengenové sítě čtyř myších tkání

Analyzovali jsme data genové exprese získaná z myších samic křížení myší F2 [18]. Data z mikročipů měřila úrovně genové exprese ve čtyřech různých myších tkáních: játrech, mozku, tucích a svalech. Další podrobnosti týkající se údajů jsou uvedeny v doplňkovém souboru 3 a na naší webové stránce. Konsensuální odlišnost (Methods, Eq. (22)) byla použita jako vstup do hierarchického shlukování průměrných vazeb. Ve výsledném dendrogramu byly konsensuální moduly identifikovány metodou řezání větví Dynamic Tree Cut [19]. Našli jsme 11 konsensuálních modulů (obr. 3A): černý (50 genů), modrý (149 genů), hnědý (125 genů), zelený (59 genů), zeleno-žlutý (25 genů), purpurový (36 genů), růžový (44 genů), purpurový (27 genů), červený (55 genů), tyrkysový (162 genů) a žlutý (87 genů). Níže je uvedena analýza funkčního obohacení těchto modulů.

Diferenciální analýza eigengenové sítě ve čtyřech tkáních u samic myší. A. Hierarchický shlukovací dendrogram genů pro identifikaci konsensuálních modulů (viz text). Větve dendrogramu, zaříznuté na červené čáře, odpovídají konsensuálním modulům. Génům v každém modulu je přiřazena stejná barva, zobrazená v barevném pásmu pod dendrogramem. Geny, které nejsou přiřazeny žádnému z modulů, jsou zbarveny šedě. Biologický význam nalezených modulů byl hodnocen analýzou funkčního obohacení, uvedenou v hlavním textu a v doplňkovém souboru 4. B.–E. Seskupování dendrogramů vlastních modulů konsensu pro identifikaci meta-modulů. F.–U. Matice grafů zobrazujících konsensuální vlastní sítě ve čtyřech tkáních. Každý řádek a sloupec odpovídá jedné tkáni, jak je uvedeno na diagonálních grafech. Diagonální grafy F., K., P., U. ukazují grafy tepelné mapy vlastních sousedství v každé eigengenské síti. Každý řádek a sloupec odpovídá jednomu eigengenu (označeno barvou modulu konsensu). V každé teplotní mapě červená barva označuje vysokou přilnavost (pozitivní korelace) a zelená nízkou sousednost (negativní korelace), jak ukazuje barevná legenda. Každý z grafů horního trojúhelníku (G., H., I., L., M., Q.) ukazuje barplot zachování zachování konsensuálních eigengenů, ekv. (16) mezi dvěma tkáněmi (odpovídající řádek a sloupec) a také celkovým opatřením pro zachování sítě D pro tento pár tkání, rov. (17). Grafy dolního trojúhelníku (J., N., O., R., S., T.) ukazují sousední tepelné mapy pro párové konzervační sítě tkání odpovídající řádku a sloupci, ekv. (15). Na tepelné mapě každý řádek a sloupec odpovídá nasycení konsensuálního modulu červené barvy sousedí podle barevné legendy.

Obrázky 3F, K, P a 3U ukazují vlastní sítě AEigen,mozek, AEigen,sval, AEigen, liver, a A Vlastní, tukové, resp. Abychom posoudili zachování konsensuálních modulů napříč páry tkání, definovali jsme ochranné sítě (rov. 15), např., Zachovat sval,tukové = Zachovat(AEigen,sval, AEigen,tukové). Mezi eigengenskými sítěmi nalezneme následující celkové hodnoty zachování: D(Zachovat mozek,sval ) = 0.93, D mozek,játra = 0.88, D mozek,tukové = 0.85, D sval,játra = 0.88, D sval,tukové = 0.85, D játra,tukové = 0,87. Na úrovni tkání tedy pozorujeme dobré uchování mezi konsensuálními vlastními sítěmi s nejvyšším zachováním mezi mozkovými a svalovými tkáněmi. Je zajímavé, že tyto dva soubory dat také ukazují nejsilnější vztahy mezi eigengeny v každé sadě dat (nejsilnější červené a zelené vzory v grafech tepelné mapy). To lze měřit hustotou absolutních hodnot korelací ME, DkorD(| cor (E , E J.) |). Pro svalovou a mozkovou síť nacházíme Dcor,sval= 0,45 a Dcor,mozek= 0,45. Eigengeny v játrech ukazují, jako soubor dat, vztahy poněkud podobné vztahům mozku a svalů, ačkoli vzorce v grafu tepelné mapy nejsou tak silné, Dcor,játra= 0,37. Tuková tkáň ukazuje nejslabší vztahy mezi modulem eigengenes, Dcor,tukové= 0,31. Eigengenské konzervace, např., C Červené(Zachovat sval,tukové ) lze nalézt na obr. 3, v horním trojúhelníku matice pozemků F-U.

Kromě toho zmiňujeme, že opatření pro zachování párových sítí jsou přímo srovnatelná pouze tehdy, když srovnávané konzervační sítě zahrnují stejný soubor konsensuálních eigengenů, jako je tomu v případě této aplikace ve čtyřech tkáních.

Zjistili jsme, že vlastní sítě obsahují meta-moduly, tj., skupiny vysoce korelovaných eigengenů (obr. 3B – E). Jako příklad se zaměřujeme na meta-moduly v síti eigengene mozku. Jak je patrné z obr. 3, konsensuální eigengeny v mozkové tkáni tvoří 3 meta-moduly, které jsou částečně zachovány v ostatních tkáních. Konkrétně první mozkový meta-modul se skládá z černých, modrých, purpurových a červených konsensuálních eigengenů. Je vysoce zachován ve svalech a tucích, ale méně v játrech. Druhý metamodul mozku se skládá ze zeleno-žlutých, růžových a žlutých konsensuálních eigengenů. Tento meta-modul je vysoce zachován ve svalech a játrech, ale méně v tucích.Třetí mozkový meta-modul se skládá z tyrkysových, zelených a purpurových eigengenů. Je vysoce konzervován v játrech a tucích, ale méně ve svalech. Tyto výsledky ukazují, že meta-moduly mohou nebo nemusí být zachovány v různých eigengenských sítích.

Abychom porozuměli biologickému významu konsensuálních modulů, použili jsme analýzu funkčního obohacení pomocí informací o genové ontologii [20]. Podrobné výsledky včetně alternativních metod pro úpravu pro vícenásobná srovnání lze nalézt v tabulce obohacení funkcí uvedené v doplňkovém souboru 4. Celkově jsme zjistili, že většina modulů je významně obohacena o známé genové ontologie. Konkrétně je černý modul vysoce obohacen ribozomálními geny (Fisherův přesný Bonferroniho p-hodnota p = 8 × 10-10) modrý modul s imunitní/stimulační/obrannou reakcí (p & lt 3 × 10-17 pro každý ze tří termínů) hnědý s aktivitou regulátoru translace (p = 4 × 10-3) a vazba nukleotidů (p = 5 × 10-3) purpurová se stimulační/obrannou reakcí (p & lt 2 × 10-6) a signální dráhy (p & lt 2 × 10-3) červená s buněčným cyklem (p = 1,4 × 10-19) a také vazba nukleotidů/ATP (p & lt 10-8) tyrkysová s vazbou na bílkoviny (p = 6 × 10-3) žlutá s uhlovodíkovým metabolismem (p = 3 × 10-4) růžová a zelenožlutá s lokalizací proteinů (p = 0,003 a p = 0,004) a zelené s alternativním sestřihem/intracelulárními organelami (p = 4 × 10 -4 ).

Naše metoda detekovala dva moduly transportu a lokalizace proteinů (růžový a zeleno-žlutý) a lze se ptát, zda jsou tyto moduly skutečně odlišné. Tyto dva moduly spolu úzce souvisejí ve 3 ze 4 datových souborů, ale v tukové tkáni mají slabou (a negativní) korelaci -0,24. Z hlediska konsensu tedy jde o dva odlišné moduly. Dále si všimněte, že zelené a černé moduly jsou velmi blízké konsensuálnímu dendrogramu a jejich korelace mezi modulem eigengene (ME) je vysoká v absolutní hodnotě, ale negativní. Analýza funkčního obohacení naznačuje, že moduly jsou různé, i když některé termíny spolu souvisejí (ribozomy pro černý modul a intracelulární organela pro zelené), toto je známkou toho, že znak korelace eigengenů má biologický význam.

Zatímco standardní mezní modulová analýza by uspěla ve studiu zachování jednotlivých modulů datové sady, analýza konsensuálních vlastních modulů nám umožňuje najít sdílené moduly a studovat vztahy vyššího řádu mezi konsensuálními moduly. Meta-moduly v mozkových tkáních naznačují následující vztahy: první (černý, modrý, purpurový, červený) naznačuje vztah mezi ribozomální, imunitní/obrannou/stimulační reakcí a cestami buněčného cyklu druhý (zeleno-žlutý, růžový, žlutý) mezi lokalizací proteinů a metabolizmem uhlovodanů třetí (tyrkysová, zelená, purpurová) mezi vazbami na bílkoviny a alternativními spojovacími/intracelulárními organelními cestami.

Data také zahrnují informace o klinických vlastnostech myší (např.(hladiny cholesterolu a inzulínu, tělesná hmotnost atd.), a lze se ptát, zda některé z modulů konsensu (nebo přesněji jejich eigengenů) významně souvisí s některým ze znaků. Nenašli jsme žádnou významnou korelaci mezi eigengeny konsensuálního modulu a rysy. V aplikaci 3 uvádíme významné vztahy mezi moduly konsensu a klinickými znaky.

Permutační test členství v modulu konsensu

Použili jsme data z mozku a svalových tkání k provedení permutačního testu (popsaného v metodách) detekce konsensuálního modulu. Definovali jsme kombinovaný počet genů přiřazených konsensuálním modulům jako testovací statistiku. Tato statistika testu byla velmi významná (p ≤ 0,001), což ukazuje, že počet genů v konsensuálních modulech byl velmi významný. Tyto výsledky však závisí na úrovni přísnosti pro definování konsensuálních modulů. Obr. 4 ukazuje, že jak se zvyšuje výšková mez pro detekci větví v konsensuálním dendrogramu, zvyšuje se pravděpodobnost nalezení falešných konsensuálních modulů (a genů v nich) u příliš vysokých úrovní mezních větví, pravděpodobnost nalezení co nejvíce genů v permutovaných datech sady jako u neproměněných se stávají nepřijatelně vysokými.

Výsledky testů permutace, které ukazují, že počet genů v konsensuálních modulech je velmi významný. Zde používáme mozek a svalové tkáně myších samic. Velikost konsensuálního modulu závisí na výškové hranici použité k ořezání větví z dendrogramu. Počet genů v konsensuálním modulu (osa y) tedy závisí na výškové hranici (osa x). Červené vodorovné čáry představují pozorovaný počet genů v konsensuálních modulech pro původní (nepermutovanou) sadu dat. Boxplots (černý) shrnuje počet genů přiřazených konsensuálním modulům poté, co byl seznam genů permutován mezi dvěma datovými soubory (1 000 náhodných permutací). U výškových limitů nižších než 0,99 je pozorovaný počet konsensuálních genů velmi významný (p = 0.001).

Aplikace 3: Konsensuální moduly napříč tkáněmi jater a samic myší

Zde aplikujeme diferenciální analýzu vlastní sítě na data exprese jater samic a samců myší výše uvedeného interkrosu myší F2. Metoda detekce konsensuálního modulu identifikovala 11 konsensuálních modulů, znázorněných na obr. 5A: černá (182 genů), modrá (444 genů), hnědá (439 genů), zelená (207 genů), zeleno-žlutá (82 genů), purpurová (105 geny), růžové (168 genů), purpurové (83 genů), červené (203 genů), lososové (58 genů), opálené (67 genů), tyrkysové (605 genů) a žluté (302 genů). Celkově existuje vynikající ochrana mezi eigengenskými sítěmi žen a mužů, D(Zachovat ženský,mužský ) = 0,94 (obr. 5E, F). Modul vlastních dendrogramů modulu na Obr. 5B, C a také na tepelných mapách vlastní sítě na obr. 5D, G indikují, že tyto dvě datové sady sdílejí tři meta-moduly. První obsahuje modrý a tyrkysový modul (1049 genů), druhý obsahuje zelený, purpurový a růžový modul (480 genů) a třetí obsahuje černý, hnědý, opálený, zeleno-žlutý a červený modul (466 geny).

Diferenciální analýza vlastní sítě v tkáních jater samic a samců myší. A. Hierarchický shlukovací dendrogram genů pro identifikaci konsensuálních modulů (viz text). Větve dendrogramu, zaříznuté na červené čáře, odpovídají konsensuálním modulům. Génům v každém modulu je přiřazena stejná barva, zobrazená v barevném pásmu pod dendrogramem. Geny, které nejsou přiřazeny žádnému z modulů, jsou zbarveny šedě. PŘED NAŠÍM LETOPOČTEM. Seskupování dendrogramů vlastních modulů konsensu pro identifikaci meta-modulů. D.–G. Matice pozemků zobrazujících konsensuální vlastní sítě. Diagonální grafy D., G. ukazují teplotní mapy grafů eigengenských přilehlostí v každé eigengenské síti. Každý řádek a sloupec odpovídá jednomu eigengenu (označeno barvou modulu konsensu). Jak ukazuje barevná legenda, červená barva v každé teplotní mapě označuje vysokou sousednost (pozitivní korelace) a zelená nízkou sousednost (negativní korelace). E. Barplot o zachování vztahů konsensuálních eigengenů mezi těmito dvěma soubory dat, rov. (16), jakož i celkové opatření pro zachování sítě D, Rov. (17). Každý barevný pruh odpovídá eigengenu odpovídající barvy. Výška lišty (y-axis) udává opatření pro zachování eigengenu (16). F. Teplotní mapa sousedství pro konzervační síť mezi eigengenskými sítěmi konsensu žen a mužů, rov. (15). Každý řádek a sloupec odpovídá konsensuálnímu nasycení modulu červené barvy souseděním podle barevné legendy. H., I. Význam modulu konsensu pro klinické znaky, daný korelací odpovídajícího modulu eigengene (řádek) s klinickým znakem (sloupec). Zobrazeny jsou korelace a p-hodnoty barva buňky kóduje korelaci (červená, pozitivní korelace, zelená, negativní korelace podle barevné legendy).

Experimentální data zahrnují klinické znaky, jako je tělesná hmotnost myší, hladiny cholesterolu atd. Jak je podrobně popsáno v doplňkovém souboru 5, vybrali jsme 7 potenciálně zajímavých znaků. Obr. 5H, uvádím korelace a odpovídající p-hodnoty pro přiřazení klinických znaků k modulu eigengenes. Zjistili jsme, že tyrkysový modul (605 genů) vysoce významně koreluje s hmotností u samice (r = 0.5, p = 5 × 10-8) a samčí vzorky (r = 0.47, p = 3,1 × 10-8). Zelený modul (82 genů) se týká hmotnosti se srovnatelnými korelacemi, r = -0.44 (p = 8 × 10-8) a r = -0.50 (p = 4 × 10-9) u žen a mužů. Žlutý modul významně souvisí s hladinami inzulínu v souborech žen i mužů, r = 0.38 (p = 5 × 10-6) a r = 0.35 (p = 7 × 10-5). Korelace mezi eigengeny konsensuálního tyrkysového a zeleného modulu je -0,68 a -0,74 ve vzorcích žen a mužů, respektive modul eigengeny jsou relativně blízké absolutní hodnotou korelace, ale znaménkový rozdíl naznačuje, že se liší. Tento výsledek je další motivací k použití vztahů mezi eigengeny pomocí podepsaných sítí (rovnice 1).

Vzhledem k tomu, že ženské a mužské sítě vypadají podobně, ale ne stejně, lze se ptát, zda analýza modulu konsensu poskytuje informaci o tom, jak se liší. Za tímto účelem jsme porovnali přiřazení modulu ženských jater, jak je uvedeno v [18], k našemu přiřazení modulu konsensu, viz Další soubor 6. Pomocí stejných parametrů pro shlukování a detekci větví jsme zjistili, že dva z 12 modulů (označených lososem) a světle žlutá barva) v této práci nejsou zastoupeny v konsensuálních modulech. Zkoumání funkce těchto dvou modulů přesahuje rámec této práce.

Simulační studie konsensuálních modulů

Abychom posoudili výkonnost metody detekce konsensuálního modulu, provedli jsme simulační studii zahrnující dvě sady dat simulované genové exprese. Tyto dvě datové sady obsahovaly sdílené i nesdílené moduly. Vlastní postup simulace je podrobněji popsán v Dodatkovém souboru 7 a kód R najdete na naší webové stránce.

Stručně řečeno, každý simulovaný modul je postaven na zvoleném profilu osiva (označovaném jako skutečný modul eigengene) přidáním profilů genové exprese se zvyšujícím se množstvím šumu. Studovali jsme výkon detekce konsensuálního modulu při různých úrovních přidaného hluku. Citlivost a specificita jsou určeny z počtu pravdivých a falešně pozitivních výsledků (n TPa n FP) a pravdivé a falešné negativy (n TNa n FN) jako Citlivost = n TP/(n TP+ n FN), Specifičnost = n TN/(n TN+ n FP). Abychom změřili věrnost vypočtených eigengenů modulu ke skutečným eigengenům modulu, uvedeme poměr P0.95 detekovaných modulů, jejichž eigengen má korelaci větší než 0,95 se skutečným modulem eigengene, tj., Věrnost = P0.95. Výsledky simulace jsou shrnuty v tabulce 1. Zjistili jsme, že když je hluk nízký a moduly jsou velmi jasně definovány, citlivost, specificita a věrnost jsou 100%. Stojí za zmínku, že u nízkých a středních úrovní hluku se věrnost podstatně nemění se změnami výšky větví, což naznačuje, že vlastní eigengeny jsou odolné vůči zahrnutí/vyloučení mírného počtu genů v modulu. Se zvyšujícím se šumem klesá citlivost, specifičnost a věrnost. Poznamenáváme, že specificita a citlivost závisí na volbě parametrů řezání pro klastrové stromy. Neprovedli jsme vyčerpávající vyhledávání, abychom identifikovali hodnoty parametrů, které by poskytovaly optimální výkon. Naše výchozí nastavení funguje dobře v celé řadě různých simulačních modelů.


Výkon algoritmů strojového učení je do značné míry závislý na datové reprezentaci (nebo funkcích), na kterých jsou použity. Hluboké učení má za cíl objevit učební algoritmy, které dokážou najít více úrovní reprezentací přímo z dat, přičemž vyšší úrovně představují abstraktnější pojmy. V posledních letech vedla oblast hlubokého učení k průlomovému výkonu v mnoha aplikacích, jako je počítačové vidění, porozumění řeči, zpracování přirozeného jazyka a výpočetní biologie.

DNA je dlouhý řetězec spárovaných chemických jednotek, které spadají do čtyř různých typů (ATCG). DNA nese informace uspořádané do jednotek, jako jsou geny. Soubor DNA v buňce se nazývá její genom.

Genová regulace je proces, kterým buňka kontroluje, které geny v jejím genomu jsou zapnuty (exprimovány) nebo vypnuty (neexprimovány). Lidské tělo obsahuje stovky různých typů buněk, od jaterních buněk přes krvinky až po neurony. Ačkoli tyto buňky obsahují stejný soubor informací o DNA, fungují odlišně.

Regulace různých genů řídí osud a funkci každé buňky.
Které geny buňka exprimuje, může kromě informací o sekvenci DNA ovlivnit mnoho faktorů, zejména faktorů v jejím prostředí (tj. Chromatin). Naše nástroje si kladou za cíl vymyslet nové strojové učení, zejména architekturu založenou na hlubokém učení, abychom se z údajů dozvěděli, jak různé chromatinové faktory, sekvence DNA a další environmentální faktory ovlivňují genovou expresi v buňce. Takové chápání genové regulace může umožnit nový pohled na životní principy, studium nemocí a vývoj léčiv.

„Chromatin“ označuje DNA a její organizující proteiny. Komplex DNA, histonů a dalších strukturálních proteinů se nazývá chromatin. Buňka používá speciální proteiny k uspořádání DNA ve zhuštěné struktuře. Mezi tyto proteiny patří histony, které vytvářejí „korálkovité“ struktury, které DNA obaluje, a následně organizují a činí DNA kompaktnější. Důležitým aspektem histonových proteinů je to, že jsou náchylné k chemickým modifikacím, které mohou změnit prostorové uspořádání DNA, což má za následek, že určité oblasti DNA se stanou přístupnými nebo omezenými, a tudíž ovlivňují expresi genů v sousední oblasti. Vědci vytvořili „hypotézu histonového kódu“, která zkoumá roli modifikací histonu při kontrole genové regulace. Na rozdíl od genetických mutací jsou změny chromatinu, jako jsou modifikace histonu, potenciálně reverzibilní. Díky tomuto zásadnímu rozdílu je pochopení toho, jak chromatinové faktory určují genovou regulaci, ještě působivější, protože znalosti mohou pomoci při vývoji léků zaměřených na genetická onemocnění.

Na celé úrovni genomu se vědci pokoušejí zmapovat umístění a intenzitu všech chemických modifikací, označovaných jako značky, na chromatinu. V biologii se tomuto oboru říká epigenetika. „Epi“ v řečtině znamená konec. Epigenom v buňce je soubor chemických modifikací přes chromatin, které mění genovou expresi. Nedávné pokroky v sekvenování nové generace umožnily biologům profilovat významné množství genové exprese a vzorů chromatinu jako signály (nebo počty čtení) napříč mnoha typy buněk pokrývajících celý lidský genom. Tyto datové sady byly zpřístupněny prostřednictvím rozsáhlých úložišť, nejnovější je projekt Roadmap Epigenome Project (REMC, veřejně dostupný).
REMC nedávno vydal 2 804 genomových datových sad, mezi nimiž je 166 datových sad čtení genové exprese (datové sady RNA-Seq) a zbytek jsou signální čtení různých chromatinových značek ve 100 různých `` normálních '' lidských buňkách/tkáních (1821 datových sad pro značky modifikace histonu ).

Základním cílem zpracování a porozumění tomuto úložišti „velkých“ dat je porozumět genové regulaci. Pro každý typ buňky chceme vědět, které chromatinové značky jsou nejdůležitější a jak spolupracují při kontrole genové exprese. Předchozí studie strojového učení k tomuto úkolu však buď nedokázaly modelovat prostorové závislosti mezi značkovými signály, nebo vyžadovaly další analýzu funkcí k vysvětlení předpovědí


Závěr

Na rozdíl od předchozích zpráv, které naznačují, že dva sousední geny v konfiguraci hlava-hlava mohou být společně regulovány jediným transkripčním faktorem vázajícím se na specifický promotorový segment, zde jsme prokázali, že exprese související s onemocněním PREPL-C2ORF34 obousměrný genový pár je ve skutečnosti závislý na synergické spolupráci dvou transkripčních faktorů interagujících s 405 bp intergenní oblastí DNA. Ačkoli PŘEDPLATIT je přítomen především v mozku a srdci, C2ORF34 je všudypřítomně a hojně exprimován téměř ve všech vyšetřovaných tkáních. Jejich odlišné vzorce exprese nemusí být přímo regulovány methylací DNA, ale mohou být kontrolovány koordinovanou vazbou NRF-2 a YY-1 na asymetrický obousměrný minimální promotor s 243 bp. Další oblast bohatá na GC, od nt -446 do nt -718, pravděpodobně bude sloužit jako represivní prvek potlačující transkripční aktivitu C2ORF34 gen. Nakonec různé analýzy včetně experimentů s aktivitou luciferázy, testů posunu elektroforetické mobility a in vivo chromatinová imunoprecipitace ověřila přímou vazbu NRF-2 a YY-1 na sdílenou intergenovou oblast, čímž potvrdila, že tyto dva transkripční faktory fungují koordinovaně s obousměrným minimálním promotorem, který reguluje transkripce obou PŘEDPLATIT a C2ORF34 geny.


Přidružení

Laboratoř kardiovaskulární patobiologie, chirurgická klinika, Quebecký ústav srdce a plic/Centrum výzkumu, Laval University, Quebec, QC, Kanada

Arnaud Chignon, Valentin Bon-Baret, Marie-Chloé Boulanger, Zhonglin Li, Deborah Argaud & amp; Patrick Mathieu

Katedra molekulární medicíny, Laval University, Quebec, QC, Kanada

Katedra molekulární biologie, lékařské biochemie a patologie, Laval University, Quebec, QC, Kanada

Katedra medicíny, Laval University, Quebec, QC, Kanada

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Příspěvky

A.C. a P.M. navrhl studii. A.C., V.B.-B., Z.L. provedly analýzy mapování, MR a kolokalizace. Z.L. a P.M. provedeny analýzy pro pozitivní výběr. Síťové analýzy provedli P.M., Z.L. a A.C.M.-C.B. provedené grafy a integrativní obrázek. Y.B., S.T., D.A. a B.J.A. poskytovaly důležité intelektuální vstupy. ODPOLEDNE. a A.C. sepsali rukopis.Všichni autoři kriticky zkontrolovali rukopis a poskytli vědecké vstupy.

Odpovídající autor


Podívejte se na video: REGULACIJA GENSKE EKSPRESIJE: LAKTOZNI OPERON, DIFERENCIJACIJA ĆELIJA KOD ČOVJEKA (Leden 2022).