Informace

Může nová proteinová doména vzniknout de novo v přírodě nebo se všechny proteinové domény vyvinuly z jediného předka?


Vím, že existuje rozsáhlý výzkum taxonomie a evoluce proteinových domén a mezi mnoha doménami je a stále je nalezeno mnoho spojení. Pokud však vidím, nové domény vždy vznikají z již existujících. V žádném oboru jsem neviděl papír, který by ukazoval vývoj nové proteinové domény z náhodného kousku DNA, která právě mutuje start kodon a syntetizuje nový protein bez zjevné funkce. Vím, že tohle je teoreticky možné ale viděl někdo nějaké důkaz, že se to stalo v jakékoli formě života v jakémkoli geologickém časovém období? NEBO existují nějaké další mechanismy, které by mohly generovat nové domény z nekódující DNA, které jsem při vyhledávání v časopisech přehlédl?

Myslím si, že pokud de novo nedochází ke generování proteinové domény, znamená to, že všechny proteinové domény jsou jakýmsi „potomkem“ jediné domény, která vznikla na počátku života, jak ho známe (nebo možná dokonce byla první formou života na Zemi). Zdá se mi velmi zvláštní, že na to již nebylo upozorněno, protože je to relativně jednoduchý odpočet. Proto žádám buď o referenční dokument ukazující důkazy o vývoji de novo proteinové domény z náhodného kusu DNA, které se nějakým způsobem podařilo proměnit v gen, nebo pro odkaz na dokument pojednávající o myšlence, že všechny proteiny pocházejí ze společného předka existujícího na počátku života a dokonce možná i z jedné staré domény jako život sám?


Ano. Nové proteinové domény mohou v přírodě vznikat de novo. Důkazy jsou docela solidní, protože tyto nové domény ukazují všechny očekávané vzory mutací a statistické vlastnosti (očekávané u něčeho, co se vyvíjí z DNA, která ještě pro doménu nekóduje). Např. Viz následující metaanalýza, která také popisuje, jak se tyto nové domény chovají ve srovnání se staršími a jak se integrují do proteinů: Toll-Riera et Mar Alba 2013, BMC Evolutionary Biology, „Emergence of new domains in protein“: https://bmcevolbiol.biomedcentral.com/articles/10.1186/1471-2148-13-47

Pokud vás navíc zajímají nové geny, následující minirecenze: http://www.sciencedirect.com/science/article/pii/S0960982214001547#bib20.

Pokud vás navíc zajímá evoluce in vitro, která je přímo pozorovatelná v průběhu života jednotlivých lidí, následující recenze: http://www.sciencedirect.com/science/article/pii/S0022175904001309


Může nová proteinová doména vzniknout de novo v přírodě nebo se všechny proteinové domény vyvinuly z jediného předka? - Biologie

Geny bez trans-druhové podobnosti (sirotci) se objevují ve všech sekvenovaných genomech.

Někteří sirotci se usadili v následujících liniích.

Jak sirotci dospívají, mají tendenci být složitější, propojenější a funkčnější.

Mnoho sirotků funguje v biotickém/abiotickém stresu a vlastnostech specifických pro linii.

Někteří sirotci spojují metabolické reakce se změnami prostředí.

Některé sirotky jsou funkční, když jsou zavedeny do evolučně vzdálených druhů.

Značné menšiny genů kódujících proteiny z každého sekvenovaného eukaryotického a prokaryotického genomu jsou pro tento druh jedinečné. Tyto takzvané „sirotčí geny“ se mohou vyvíjet de novo z nekódující sekvence nebo být odvozeny ze staršího kódujícího materiálu. Často jsou spojeny s reakcemi na stres v životním prostředí a druhově specifickými rysy nebo regulačními schématy. Obtíže ve studiu genů, kde je srovnávací analýza nemožná, a zaujatost vůči široce konzervovaným genům však vedly k podcenění jejich důležitosti. Zkoumáme zde identifikaci, možný původ, evoluční trendy a funkce sirotků s důrazem na jejich roli v biologii rostlin. Ilustrujeme několik evolučních trendů pomocí analýzy Arabidopsis thaliana a přítomný QQS jako modelový sirotčí gen.


Výsledek

Potiskem v jsme identifikovali možný případ evoluce nového genu a nové funkce E-coli K12. Překrývající se geny jsou genem pro pozitivní regulátor promotoru tepelného šoku sigma 32 (htgA) [UniProtKB: P28697] a gen jooo [UniProtKB: P75617], jehož hypotetický proteinový produkt byl v databázi Pfam klasifikován jako neidentifikovaná proteinová rodina 0174 [Pfam: UPF0174] (obrázek 1). Geny jsou kódovány ve fázi 123/213 (htgA v (+) vláknu, a jooo v (-) řetězci), což znamená, že třetí nukleotid (+) kodonu se překrývá s 3 nukleotidem (-) kodonu. Překrývání obsahuje 591 nukleotidů úplného htgA gen.

Překrývající se geny v E-coli. Překrývají se jooo [UniProtKB: P75617] a htgA [UniProtKB: P28697] geny v E-coli. Čísla označují nukleotidový zbytek pro jooo gen. Iniciační kodon hgtA bylo předpovězeno, že bude v nukleotidu 632 [14], a nověji v 527 [23]. Šedé pole označuje oblast, kde jsme zaznamenali snížení rychlosti vývoje jooo sekvence s htgA překrývající se gen.

Ačkoli tabulky anotací genů NCBI poskytují souřadnice polohy genů v genomech, je třeba postupovat opatrně, protože chyby v anotaci a sekvenování mohou uvádění skutečných genů do omylu. Zatímco tam je in vitro experimentální důkazy o existenci htgA [14], to neplatí pro jooo. Proto jsme hledali nepřímé důkazy o jeho existenci otázkou, zda existují: a) jooo homology v jiných genomech b) doménové fúze homologů s jooo proteinový produkt s jinými proteinovými doménami a c) detekovatelné předpojatosti v poměru synonymních (ps) oproti nesynonymním (pn) substituce, tj. odchylky od neutrality (pspn) mezi jooo sekvence, které by naznačovaly působení přirozeného výběru.

Fylogenetická distribuce htgA a jooo geny

Podle anotačních tabulek NCBI genů htgA je přítomen ve třech E-coli a jeden Shigella flexneri kmeny. Dále na základě ) podobnost sekvencí ii) Predikce ORF pomocí ORF Finder a iii) snížené rychlosti vývoje sekvence jooo sekvence obsahující překrývající se htgA geny (viz níže), navrhujeme, aby homologové k htgA jsou také přítomny ve všech ostatních E-coli a Shigella sp. zde analyzované genomy, celkem celkem devět htgA sekvence (obrázek 2). Na druhou stranu, jooo má širší fylogenetickou distribuci. Tento gen je přítomen v 16 y-proteobakteriích a třech e-proteobakteriích. jooo lze identifikovat jako vysoce odlišnou sekvenci v Nostoc sp PCC7120 vláknité sinice a fusobakterie. V kontrastu s htgA, který je přítomen jako jediná kopie, některé zde analyzované genomy mají paralogní kopie jooo homologů. Existují dva genomy vybavené více než jednou kopií jooo Helicobacter pylori J99 má dvě kopie, zatímco H. pylori 26695 má tři kopie. Celkem jsme detekovali 24 homologů jooo. Protože na úrovni nukleotidů existují tři páry identických sekvencí (každý pár je kódován na různých kmenech ze stejného druhu), existuje pouze 21 kódů UniProtKB (obrázek 2). Zarovnání více sekvencí jooo geny kódující proteiny jsou uvedeny v doplňkovém souboru 1. Širší fylogenetická distribuce jooo navrhuje to htgA vzniklo přetištěním v rodové kopii existujících jooo sekvence (Kompletní názvy proteinů jsou uvedeny v doplňkovém souboru 2).

Fylogenetická distribuce jooo a htgA překrývající se geny. Fylogenetická distribuce, otevřené čtecí rámce překrývajících se genů a organizace proteinových domén kódovaných proteinových sekvencí podle databáze Pfam. Struktura ORF: Otevřený čtecí rámec jooo sekvence jsou zobrazeny pomocí levostranně orientovaných tmavě šedých šipek s genomem komentovaných htgA sekvence pomocí pravých orientovaných černých šipek předpovídaly htgA geny v této studii vpravo orientované světle šedé šipky nekódující otevřené čtecí rámce šrafované šipky orientované vpravo. Domény Pfam: Jsou označeny světle šedé rámečky [Pfam: UPF0174] Pfam doména přítomná v jooo proteinové produkty tmavě šedé rámečky označují doménu GTPázy neznámé funkce [Pfam: MMR_HSR1]. V jooo gen kódující [UniProtKB: Q8FLC7] předpokládaný htgA gen je kratší kvůli nesmyslné mutaci. Úplné názvy proteinů jsou uvedeny v doplňkovém souboru 3.

Nezjistili jsme žádné homology mezi viry k proteinovému produktu z htgA v neredundantní databázi. Kromě malé podobnosti proteinu DnaC [UniProtKB: Q9AZV4] z Lactococcus fágu bIL286 (41 identit aminokyselin podél 152 zbytků a BLAST e-hodnota 1,7) do jooo proteinový produkt. To se zdá být falešně pozitivní, protože podobnost nebyla potvrzena databází Pfam. Tyto negativní výsledky to silně naznačují, ale nedokazují jooo a htgA nepocházelo z virového genomu.

Identifikace proteinové domény jooo a htgA kódované proteiny

The jooo kódované proteiny odpovídají profilu [Pfam: UPF0174] v databázi Pfam, jedinou výjimkou je hypotetický protein alr3689 [UniProtKB: Q8YQX2] z Nostoc sp. PCC 7120, která vykazuje mezní hodnotu HMMER E 0,048, obsahující 156 aminokyselin ze 185 (0,01 je v Pfam považováno za významné). Nicméně, RYCHLÉ hledání E. coli yaaW kódovaná proteinová sekvence [UniProtKB: P75617] do naší databáze proteinů z kompletních genomů odpovídá sekvenci alr3689 proteinu sinice s významnou e-hodnotou 2e-05 BLAST na 86 aminokyselinový úsek proteinu. Protein alr3689 se zdá být velmi odlišným homologem jooo s doménou UPF0174. jooo se spojil s doménou GTPase [Pfam: MMR_HSR1] v Shewanella sp. a Campylobacter coli, který má široké fylogenetické rozdělení, ale neznámou funkci. jooo je také fúzován se zlomkem této domény v y-proteobakteriích Idiomarina loihiensis (Obrázek 2). Tato doména GTPázy je fúzována s jinými proteiny s doménou neznámé funkce: [Pfam: DUF933] související s ubikvitinem a s jinou doménou GTPázy [Pfam: GTP1_OBG], které se ukázaly jako důležité pro normální buněčný metabolismus v Schizosaccharomyces pombe [15]. Fúze některých jooo to naznačují homology k doméně GTPase jooo kóduje funkční protein. Na druhou stranu neexistuje žádná dostupná doména Pfam pro htgA gen v tuto chvíli.

Fylogenetická analýza

S výjimkou sekvence z Nostoc sp. která se větví mezi proteobakteriemi, fylogenezí jooo kódované proteiny přibližně odpovídají kanonickému stromu na bázi rRNA (obrázek 3).

Fylogenetická analýza jooo proteinem kódované sekvence. Minimální evoluční strom jooo sekvence kódující protein (počet ve větvích označuje 1000 bootstrapů). Šedá svislá čára označuje větev, kde htgA překrývající se gen hypoteticky vznikl. Hvězdička označuje umístění kořene podle metody root středového bodu. A, B a O označuje skupiny sekvencí použitých k detekci změn ve vývoji rychlosti jooo sekvence mající a překrývající se htgA gen. Uzel C je hypotetická rodová posloupnost. Tmavší větve označují ty sekvence, které mají větší počet statisticky významných testů relativní rychlosti, jsou -li použity jako podskupiny. Čísla za názvy proteinů označují následující: počet statisticky významných srovnání/z celkového počtu srovnání, úroveň významnosti (počet aminokyselin zapojených do chuti relativní rychlosti). NS znamená: nevýznamný.

Synonymní versus nesynonymní substituce

Vztah mezi synonymem (ps) oproti nesynonymním (pn) substituce mezi všemi páry jooo sekvence je ukázán na obrázku 4a. Přerušovaný ovál ukazuje srovnání mezi sekvencemi skupiny A a B (jak je definováno na obrázku 3). Na obrázku 4b jsou hodnoty pn a ps jsou vyneseny proti Kimurovým vzdálenostem pro každý pár jooo sekvence. Jak je ukázáno, přebytek synonymních versus nesynonymních substitucí naznačuje čistící selekci. Tento přebytek je obzvláště důležitý mezi sekvencemi patřícími do skupiny A a skupiny B (obrázek 4c), což naznačuje vyšší stupeň omezení nesynonymních změn uložených htgA na jooo sekvence. Čištění výběru je statisticky významné pro všechny jooo sekvence (tabulka 1).

Synonymní versus nesynonymní substituce. a) Podíl synonym (pn) oproti nesynonymním (ps) náhrady za jooo sekvence. Tečkovaný ovál ukazuje srovnání mezi sekvencemi skupiny A a B (y = 0,649x - 0,045 r 2 = 0,578) b) Distribuce ps (černé tečky) a pn (bílé tečky) proti vzdálenosti Kimury pro jooo geny. Šipky označují srovnání mezi sekvencemi skupiny A a B c) Počet pn proti ps hodnoty jooo sekvence mezi skupinami (A, B a O), sloupce označují standardní odchylku.

Vzorec synonymních a nesynonymních substitucí mezi htgA sekvence také navrhují purifikaci selekce (tabulka 1). Tento vzorec by však mohl být odrazem akumulace purifikačních mutací mezi nimi jooo geny a fáze 123/213 překrývání. Synonymní a nesynonymní mutace v jooo ovlivní podobně jako htgA. Toto je neočekávaný vzorec pro novou sekvenci, protože bylo ukázáno, že nové geny pocházející z přetisku ve virech vykazují přebytek nesynonymních substitucí, což naznačuje působení pozitivního přirozeného výběru [8].

Nižší rychlost vývoje jooo sekvence s překrývajícími se htgA geny

Očekává se, že sekvence DNA kódující překrývající se geny se budou vyvíjet nižší rychlostí než sekvence DNA kódující pouze jeden gen [6, 7]. V souladu s tím jsme analyzovali míry substituce úzce souvisejících jooo geny s a bez překrývání htgA použitím neparametrického testu relativní rychlosti [16] pro všechny kombinace tří sekvencí sestávajících ze sekvence mimo skupinu (O) a dvou sekvencí ve skupině (A a B) (viz metody a obrázek 3).

Ve skupině jooo sekvence postrádající překrývání (B sekvence na obrázku 3) nahromadily více exkluzivních mutací (změny m2 na obrázku 5) v prvních 409 nukleotidech než ve skupině jooo geny vybavené překrytím (sekvence A na obrázku 3 a ml se mění na obrázku 5). To naznačuje htgA vyvíjí evoluční tlak na jooo v jejich prvních 409 nukleotidech. V souladu s tím jsme rozdělili jooo zarovnání ve dvou sekcích. První obsahuje nukleotidy 1 až 408, zatímco druhý obsahuje nukleotidy 409 až 714. Potom jsme na oba řezy nezávisle aplikovali test Tajima [16]. Jak je vidět na obrázku 6, mnoho rozdílů je významných při α = 0,05 pro prvních 408 nukleotidů a pro některá srovnání dokonce při hladině α = 0,01. To platí zejména pro geny kódující proteinové sekvence [UniProtKB: O26107] a [UniProtKB: Q9ZJ24] (také nejlépe odpovídají sekvencím A a B). Ne všechna srovnání však poskytují statisticky významné výsledky. Je pravděpodobné, že eroze signálu v sekvencích, které zažily více substitucí, může částečně vysvětlit nedostatek statisticky významných výsledků v některých testech relativní rychlosti, protože se zdá, že existuje tendence nižších hodnot Chi-square ke zvyšování genetické vzdálenosti (obrázek 6).

Rozdíly v substituci sazeb mezi jooo sekvence. Počet mutací bez sekvencí skupiny A (mutace m1) versus počet exkluzivních mutací sekvencí skupiny B (mutace m2) v jooo geny v okně 102 nukleotidů. Hodnoty X označují střední polohu každého okna v E. coli yaaW sekvence. Souvislá okna překrývají 51 nukleotidů. Silné čáry označují průměrný počet exkluzivních mutací pro změny ml a m2. Přerušované čáry označovaly počet změn m1 a m2 u sekvencí zobrazujících nejextrémnější hodnoty. Každý bod je doprovázen jeho standardní odchylkou.

Statistická analýza. Distribuce Chí-kvadrátových testů relativní rychlosti proti vzdálenosti sekvence mimo skupinu (O) k uzlu C. Černé tečky odpovídají prvním 408 nukleotidům jooo a kříže odpovídají zbytku genu. Úrovně významnosti 0,005 a 0,001 jsou označeny tečkovanými čarami.


Genomická krajina SARS-CoV-2

Abychom porozuměli klinickým důsledkům mutací SARS-CoV-2 a vyvinuli vakcíny a neutralizační protilátky proti viru, potřebujeme znát genomovou krajinu a biologické chování klíčových proteinů SARS-CoV-2. Koronaviry patří do čeledi Coronaviridae (1, 2). SARS-CoV-2 je obalený, jednovláknový a pozitivně sense RNA virus. Virion SARS-CoV-2 se skládá ze čtyř hlavních proteinů včetně hrotu (S), obalu (E), membrány (M) a nukleokapcidu (N). Mezi nimi hrotový protein hraje klíčovou roli při navázání viru, fúzi, vstupu a přenosu (3 𠄵). Protein Spike má dvě funkční části známé jako S1 a S2. Doména SI zprostředkovává vazbu na receptor a S2 zprostředkovává fúzi po proudu membrány. Podjednotka S1 hraje rozhodující roli ve vazbě na virový receptor a podjednotka S2 je zodpovědná za fúzi virových buněk (obrázek 1). Protein SARS-CoV-2 Spike se váže na receptor ACE2 (3 𠄵, 26).

Obrázek 1. Genomická krajina viru SARS-CoV-2. (A) Receptorová vazebná doména (RBD) v špičkovém proteinu je nejproměnlivější částí genomu. Bylo ukázáno, že šest aminokyselin je klíčových pro vazbu na receptory ACE2. Klíčové zbytky v špičkovém proteinu, které jsou v kontaktu s receptorem ACE2, jsou znázorněny modrými rámečky. (B) Polybazické štěpné místo (PRAR) na křižovatce podjednotky S1 a S2 je relevantním znakem virového genomu. To umožňuje účinné štěpení furinem a jinými proteázami a hraje roli při určování virové infekčnosti (3).

Byly hlášeny dva relevantní genomické rysy SARS-CoV-2:

(a) Vazebná doména receptoru (RBD) umístěná v podjednotce SI specificky zapojila receptory ACE2. Podjednotka S2 zprostředkovává fúzi virových a buněčných membrán

(b) SARS-CoV-2 obsahuje funkční polybázické štěpné místo na křižovatce S1 –S2 (3).

RBD v špičkovém proteinu je nejvariabilnější částí genomu koronaviru. Šest RBD aminokyselin má zásadní roli ve vazbě na receptory ACE2 a při určování hostitelského rozsahu virů podobných SARS-CoV (obrázek 2). Jsou to Y442, L472, N479, D480, T487 a Y4911. Bylo ukázáno, že pět ze šesti zbytků se liší mezi SARS-CoV-2 a SARS-CoV. Jak strukturální studie, tak biochemické experimenty prokázaly, že SARS-CoV-2 má RBD, který se s vysokou afinitou váže na ACE2 (3, 5, 27).

Obrázek 2. Životní cyklus koronavirů. Částice koronavirů se vážou na receptor ACE2. TMPRSS2 podporuje vychytávání viru a fúzi na buněčné nebo endosomální membráně. Po vstupu uvolňování a odlupování genomové RNA podrobilo okamžitou translaci dvou velkých otevřených čtecích rámců, ORF1a a ORF1b. Během buněčného životního cyklu koronaviry exprimují a replikují svou genomovou RNA za vzniku kopií plné délky, které jsou začleněny do nově produkovaných virových částic (8).


Nezpracovaná data sekvence a poznámky pro S. cerevisiae genom kmene S228C byl stažen ze SGD 18. října 2009 [85]. Rekonstruovaná evoluční historie mezi S. cerevisiae a předchůdce před WGD odvozený Gordonem et al. [39] byl stažen z prohlížeče Yeast Gene Order Browser (YGOB) verze 3 [86, 87]. Predikované genové rodiny a odpovídající homologní proteiny byly staženy z Princeton Protein Orthology Database [40, 41] 18. října 2009. Databáze PPOD obsahuje předpovědi z OrthoMCL [88], MultiParanoid [89] a přístupu založeného na Jaccardově klastru . Pro klasifikaci subtelomerických genů, které nejsou zahrnuty v rekonstrukci YGOB, sekvence sekvencí S. cerevisiae proteiny s predikovanými ortology ze sedmi příbuzných hub byly staženy ze SGD 24. listopadu 2009 [85].

Údaje o fyzických interakcích byly získány z vydání interakcí z 26. ledna 2009 v databázi interakčních proteinů (DIP) [57]. Při zkoumání robustnosti našich závěrů jsme také zvažovali sítě fyzických interakcí Kim a Marcotte [54], které byly extrahovány z BioGRID [83]. Pro síť DIP byly proteiny s více než 50 fyzickými interakcemi iterativně filtrovány, aby se odstranily experimentální artefakty v důsledku „lepivých“ proteinů. Sítě používané Kimem a Marcottem [54] byly filtrovány, jak je popsáno v Batadě et al. [90] toto vytvořilo sítě, které se snadno rozdělily na soubor interakcí upravený literaturou a soubor určený vysoce výkonnými experimentálními metodami. Hlášené závěry platí pro všechny tyto sítě (oddíl S1.2 v doplňkovém souboru 1), což naznačuje, že zkreslení při studiu určitých typů interakcí není zodpovědné za pozorované vzorce.

Zvažovali jsme několik zdrojů funkčních informací o genech a proteinech. Nejprve byla esencialita genu převzata z údajů o životaschopnosti uvedených v SGD [47, 85]. To zahrnuje data z vysoce výkonné obrazovky knockoutovaných mutantů téměř všech ORF v S. cerevisiae [46] a mnoho studií malého rozsahu. Považovali jsme gen za nezbytný, pokud byl v některé ze studií shledán nezbytným. Znalosti o funkci proteinu byly převzaty z databáze Gene Ontology [48] vedené v SGD. Obohacení funkcí mezi sadami proteinů bylo testováno pomocí nástroje GO: TermFinder [61]. Známé domény přítomné v každém proteinu byly odebrány z uvolnění 24 Pfam-A [45]. Význam pozorovaných rozdílů v těchto vlastnostech mezi skupinami proteinů byl hodnocen Mann-Whitney U test. Provedení obousměrné ANOVA na skupinách také přineslo podobné výsledky.

Klasifikace genů podle věku a mechanismu původu

Každému ned pochybnému jsme přiřadili věk (před WGD, WGD nebo post-WGD) a mechanismus původu (duplicitní nebo nový) S. cerevisiae ORF v SGD. Nejprve popíšeme rodinné schéma použité v hlavní části příspěvku a poté stručně popíšeme alternativní přístupy, které vedly k podobným závěrům.

Pro každý gen byl přiřazen mechanismus původu na základě přítomnosti nebo nepřítomnosti paralogu S. cerevisiae. Geny nalezené v homologní rodině s více než jedním členem S. cerevisiae jak je definováno metodou Jaccardova klastrování v PPOD [40], byly klasifikovány jako duplicitní a osoby bez dalších členů rodiny v S. cerevisiae byly klasifikovány jako nové. Zařazení genů do věkových skupin bylo značně usnadněno nedávnou rekonstrukcí evoluční historie S. cerevisiae těsně před WGD [39]. Tato rekonstrukce byla provedena ručně a zohlednila se sekvenční podobnost a syntéza všech genů u druhů uvedených na obrázku 1. Pokud byl gen přítomen v predikovaném předchůdci před WGD, byl přiřazen skupině pre-WGD. Duplicitní páry genů vytvořené WGD byly přiřazeny WGD/duplikát. Ačkoli je stanovení rozsahu duplikace genů náročné [91], genové duplikáty udržované z WGD mají zřetelný podpis, když se porovnávají jejich genomové kontexty při rekonstrukci. V předchůdci před WGD bude přítomna pouze jedna kopie a tento gen bude mapovat do dvou odlišných oblastí v S. cerevisiae že oba udržují synteny k předkovi [31, 39]. Homologní rodiny obsahující známé paralogy WGD byly sloučeny. Gen, jehož předek nebyl nalezen v předchůdci před WGD, byl přiřazen k post-WGD.

Rodová rekonstrukce YGOB nezahrnuje subtelomerické oblasti genomu kvasinek, protože syntéza se v těchto vysoce druhově specifických oblastech rozpadá. Subtelomery jsou v této studii značným zájmem, protože obsahují téměř 300 genů - z nichž mnohé mají omezenou sekvenční podobnost S. cerevisiae. Abychom rozšířili naši analýzu na tyto geny, uvažovali jsme o fylogenetické distribuci subtelomerických genů v zarovnání ortologů SGD ze sedmi plně sekvenovaných druhů (S. cerevisiae, Saccharomyces paradoxus, Saccharomyces mikatae, Saccharomyces bayanus, Saccharomyces kudriavzevii, Naumovia castellii, Lachancea kluyveri). Tato zarovnání jsou založena na datech a analýze Cliften et al. [92] a Kellis et al. [93] poznamenávají, že obsahují jiný soubor druhů, než jaké byly použity při rekonstrukci předků. Geny s ortologem u druhů, které se před WGD rozcházely, byly přiřazeny k pre-WGD. Všichni ostatní byli zařazeni do post-WGD. Protože tyto předpovědi byly získány pomocí jiné strategie než v YGOB, zopakovali jsme naši analýzu s vyloučením všech subtelomerických genů. Naše celkové závěry jsou zachovány (oddíl S1.1.3 v doplňkovém souboru 1).

Gordon et al. [39] analyzovali 124 genů vytvořených od WGD. Další geny po WGD v naší klasifikaci pocházejí ze dvou zdrojů. Jak je popsáno výše, skupině post-WGD jsme přiřadili téměř 200 subtelomerických genů, které byly vynechány z jejich rekonstrukce. Zbývající další geny byly zahrnuty v datech stažených z Prohlížeče objednávek kvasinkových genů, ale v Gordonu se s nimi nepočítá et al. Mnoho z těchto genů nebylo SGD klasifikováno jako pochybné a mělo fyzické interakce, proto jsme je zahrnuli do naší analýzy. Vynechání každé z těchto skupin genů a opětovné spuštění našich analýz přineslo podobné výsledky (část S1.1.3 v doplňkovém souboru 1).

Zařazení souborů genů do věkových a původních skupin je náročný problém. Testovali jsme citlivost našich závěrů na několik různých odvozovacích metod z rodinné a evoluční historie. Zejména odebrání rodin z MultiParanoid [89] nebo OrthoMCL [88] (viz část 1.1.2 v doplňkovém souboru 1). Rovněž jsme zvažovali klasifikaci původu na základě genových stromů a ortologických skupin definovaných algoritmem Synergy [25, 42, 94] pro každý gen v S. cerevisiae. Pokud měl gen predikovanou duplikaci v kterémkoli bodě cesty ke svému předkovi ve svém genovém stromě nebo homologní ortoskupině, byl přiřazen k duplikaci jinak, byl přiřazen k novému. Tento přístup a rodinná metoda souhlasily s 76% jejich předpovědí a naše hlavní závěry byly s touto definicí původu zachovány. To podporuje naši interpretaci, že ačkoli ztráta genů a rychlá evoluce mohou zavést chyby v jednotlivých klasifikacích, mechanismus vytváření skupin je obohacen o geny příslušného původu. Tyto výsledky jsou uvedeny v oddíle S1.1.1 v doplňkovém souboru 1.

Výše popsané klasifikační přístupy označují všechny geny v rodině homologních proteinů za duplikáty a nesnaží se rozlišit jediný gen jako předchůdce rodiny. Zvolili jsme tento přístup, protože vybrat, který gen ze sady duplikátů je rodová kopie, je často velmi obtížné - zejména v případě tandemových duplikátů [38]. Ve skutečnosti neexistuje žádná záruka, že původní člen rodiny je stále přítomen v genomu. Abychom prozkoumali účinek této volby na naše výsledky, testovali jsme další strategii, ve které jsme vybrali nejstarší gen z každé homologní rodiny (nebo náhodně mezi nejstarší, pokud existuje více než jeden), aby sloužil jako předek rodiny. Podle YGOB byl nejstarší gen definován jako gen v rodině s nejvzdálenějším ortologem. Pro subtelomerické geny jsme použili zarovnání SGD, z nichž každý obsahuje jeden S. cerevisiae gen, určit nejvzdálenější ortolog. Tento gen byl tedy přiřazen k nové skupině. Naše závěry se týkaly této upravené klasifikace (oddíl S1.1.3 v doplňkovém souboru 1).

Analýza vlastností interakční sítě

Integrace proteinu do sítě fyzických interakcí byla kvantifikována jeho stupněm (tj. Počtem interakcí, na kterých se podílí) a ústředností jeho vzájemnosti (tj. Zlomkem všech nejkratších cest mezi páry dalších uzlů v síti které jím procházejí) [95, 96]. Proteiny bez údajů o interakci nebyly při výpočtu statistik sítě brány v úvahu.

Byl vypočítán počet interakcí mezi proteiny ve všech párech skupin věk/původ. Význam pozorovaného počtu interakcí byl kvantifikován porovnáním s počtem interakcí mezi stejnými skupinami v 1 000 randomizovaných sítích, které udržují distribuci stupňů ve skupinách, ale interakce randomizují. Empirický p-hodnota pozorovaného počtu interakcí byla odhadnuta podle podílu náhodných sítí, ve kterých bylo pozorováno nejméně tolik interakcí [97]. Randomizace zachovávající stupeň byly provedeny pomocí algoritmu přepojení pahýlů [98]. Velikost účinku pozorovaného rozdílu byla kvantifikována pomocí Glassova Δ: rozdíl mezi pozorovaným a průměrným počtem interakcí v náhodných sítích děleno standardní odchylkou počtu pozorovaného v náhodných sítích.


Úvod

Bílkoviny jsou základními složkami jakéhokoli biologického organismu, včetně rostlin. Každý protein může být sestaven z menších jednotek, nazývaných domény, a protein může sestávat z jedné nebo více domén [1]. Existuje několik databází pro úložiště proteinových domén nacházejících se v biologických organismech [2]. Například Pfam má aktuálně 19 179 záznamů ([3] Pfam v.34.0, vydáno v březnu 2021). Během evoluce organismu se mohou proteinové domény kombinovat, ale také se vyvíjet de novo. Tyto de novo domény lze dále kombinovat s jinými de novo nebo existující domény k vytvoření nových proteinů [1]. Během evoluce rostlin bylo navrženo, že vzniklo nejméně 500 nových proteinových domén, které jsou jedinečné pro tuto evoluční linii [4]. Hledání Arabidopsis thaliana proteomy navrhly, že 75% jeho proteinů má domény registrované v Pfam [5]. To naznačuje, že stále existuje značné množství neznámých proteinových domén nebo kombinací domén i v dobře studovaných rostlinách, natož v rostlinách obecně. Kombinace domén je pro organismy možná nákladově efektivní způsob, jak vytvářet nové proteiny [1], a in A. thaliana„nejméně 25% proteinů má více domén [5].

Integrální membránové proteiny, které zprostředkovávají toky iontů v reakci na mechanické napětí, včetně dotyku, větru, toku vody, osmotického tlaku, gravitace a sil generovaných dělením buněk a expanzí buněk, se nazývají mechanosenzitivní kanály. K dnešnímu dni se v rostlinách nachází pět skupin mechanosenzitivních kanálů [6]. Jedním z nich je skupina proteinů MID1 -COMPLEMENTARY ACTIVITY (MCA), u nichž je ukázáno, že fungují jako mechanosenzitivní kanály propustné pro Ca 2+ [7, 8]. Geny kódující MCA se nacházejí výhradně v rostlinné říši [7, 9], zatímco geny kódující jiné skupiny mechanosenzitivních kanálů se nacházejí v prokaryotech a/nebo eukaryotech. Proto jsou MCA jedinečné z hlediska molekulární evoluce a je zajímavé zkoumat, kdy a kde MCA geny se objevily během evoluce rostlin.

v A. thaliana, dva paralogní MCA geny, AtMCA1 a AtMCA2 byly izolovány a jejich funkce byly podrobně prozkoumány. Protein AtMCA1 se podílí na dotykovém snímání na špičce kořene a na zvýšení koncentrace Ca 2+ bez cytosolu vyvolané hypoosmotickým šokem [7]. Údajně se AtMCA2 účastní vychytávání Ca 2+ v kořenech [10]. AtMCA1 a AtMCA2 navíc reagují na natažení membrány a generují kationtové proudy, jsou -li vyjádřeny v Xenopus laevis oocyty [8]. Kromě toho se zdá, že kanály MCA mají v rostlinách společné funkce, na základě studií na Oryza sativa OsMCA1 [11–13], Nicotiana tabacum NtMCA1, NtMCA2 [14], Zea mays CNR13 [15], a Streptocarpus MCApodobný gen (jako Saintpaulia v [16] viz [17]).

MCA jsou přibližně 420 aminokyselinových (aa) zbytků dlouhých multidoménových proteinů. Zachovávají prozatímně podporovanou doménu ARPK (aminoterminální doména předpokládaných proteinových kináz Rice 1–143 aa) [7], překrývající se s EF ručně podobnou oblastí v N-koncové oblasti (136–180 aa) (InterPro: IPR002048 ) a dobře kurátorovou doménu PLAC8 (Pfam ID: PF04749) v C-koncové oblasti (příloha S1). Uprostřed proteinů je umístěn motiv stočené cívky. An approximately 170 aa region at the N-terminus, covering the ARPK and the EF hand-like domains, has Ca 2+ influx activity and is proposed to be a functional domain of MCAs [18]. In this study, we defined the N-terminal region as the MCA functional (MCA func ) domain.

In previous work, an MCA Neighbor-Joining tree was published that included only a limited number of plants, .E. one moss, one lycophyte, one gymnosperm, and eight angiosperms. The unrooted tree showed that MCA proteins were mostly grouped following the tree of life (E.G. tolweb.org/tree/), except for Picea sitchensis (gymnosperm) and Linum usitatissimum (angiosperm) [9]. However, information from this tree is insufficient to elucidate the evolutionary history of the protein family or their domains. To better understand the origin and evolution of MCA proteins in plants, a more comprehensive study is required. Thus, in the present study, wide-ranging phylogenetic analyses of MCA proteins were carried out on 25 viridiplantae proteomes and full MCA proteins of 55 streptophyte species. Here, for ranks, we followed the definition by Leliaert et al. [19] and NCBI Taxonomy Browser (https://www.ncbi.nlm.nih.gov/guide/taxonomy/), where viridiplantae include green algae (chlorophytes) and streptophytes, streptophytes include charophytes and embryophytes, and embryophytes (also termed as “land plants”) include bryophytes (Hornworts, Liverworts, Mosses), lycophytes, ferns, gymnosperms and angiosperms. Since MCA is a multidomain protein, we focused on the evolution, origin and fate of each domain (MCA func and PLAC8) as well as the full MCA protein. Comprehensive domain searches were carried out against the viridiplantae proteomes that included two chlorophytes and two charophytes. The study represents an example for the evolutionary dynamics of a multidomain protein in plants.


Poznámky pod čarou

Author contributions: M.W.G., N.L.D., V.A.K., and S.B.C. designed research M.W.G., N.L.D., S.G., V.A.K., and J.E.S. performed research M.W.G. and N.L.D. analyzed data and M.W.G. and S.B.C. napsal papír.

Reviewers: N.R.C., Liverpool School of Tropical Medicine and C.-H.C.C., University of Illinois at Urbana–Champaign.

The authors declare no competing interest.

Data deposition: The assembled sequences have been deposited in GenBank accession numbers are presented in Dataset S1, column E. Raw reads for BAC clones have been deposited in the National Center for Biotechnology Information (NCBI) database under BioProject ID PRJNA613473.


Authors’ contributions

AK, MM, SD, and RCR planned, performed, and analyzed experiments. AK and RCR prepared the manuscript. All authors read and approved the final manuscript.

Poděkování

We thank Dr. Robert Angerer for his careful reading and editing of the manuscript and Dr. Federico Hoffman for his assistance with the phylogenetic analysis. Support for this project was provided to RCR by NIH R15HD088272-01 as well as the Office of Research and Development, and Department of Biological Sciences at Mississippi State University.

Konkurenční zájmy

The authors declare that they have no competing interests.

Availability of data and materials

The datasets used and/or analyzed during the current study are available from the corresponding author on reasonable request.

Consent for publication

Ethics approval and consent to participate

Publisher’s Note

Springer Nature zůstává neutrální, pokud jde o jurisdikční nároky ve zveřejněných mapách a institucionální příslušnosti.


Poděkování

We are very grateful to our funding agencies, principally the Wellcome Trust and an NSERC Discovery grant to JBD who have made this work possible. We also thank members of our laboratories and colleagues who have contributed unpublished data or insights.

Otevřený přístup

Tento článek je distribuován v souladu s licencí Creative Commons Attribution Noncommercial License, která umožňuje jakékoli nekomerční použití, distribuci a reprodukci v jakémkoli médiu za předpokladu, že jsou uvedeni původní autoři a zdroj.


Podívejte se na video: Tvorba webu ve WordPressu - jak na to (Listopad 2021).