Informace

Nástroje BLASTn vs ORF


Sekvenční projekty sekvenují jeden řetězec a nazývají to + vlákno a poté extrapolují sekvenci - řetězce. To znamená, že někdy může být genomová sekvence, kterou stáhnete z databáze, doplňkem skutečné sekvence, kterou hledáte. Nástroje ORF jako exonerate a genewise to zohledňují a hledají tak šest možných čtecích rámců. blastn vzít to v úvahu a provést párové zarovnání pro doplnění skutečné sekvence také?


Záleží na chuti BLAST, kterou používáte. Někdo ano, někdo ne. Konkrétně jsou klasickými příchutěmi BLAST:

  • blastp : porovnává vyhledávací sekvenci aminokyselin s databází proteinových sekvencí
  • blastn : porovnává nukleotidovou vyhledávací sekvenci s databází nukleotidových sekvencí
  • blastx : porovnává šestrámcové koncepční translační produkty nukleotidové vyhledávací sekvence (obě vlákna) s databází proteinových sekvencí
  • tblastn : porovnává sekvenci dotazu na protein s databází nukleotidových sekvencí dynamicky přeloženou ve všech šesti čtecích rámcích (obě vlákna).
  • tblastx : porovnává šestiramenové translace nukleotidové vyhledávací sekvence se šesti rámcovými translacemi databáze nukleotidových sekvencí. (Vzhledem k povaze tblastxu nejsou u této možnosti k dispozici zarovnání s mezerami)

Z nich,tblastn,tblastxablastxvšechny zaškrtněte 6 možných čtecích rámců (oba řetězce). To má smysl pouze pro vyhledávání proteinů, protože to je jediný případ, kdy je čtecí rámec relevantní. Jednoduchý blastn se nezabývá čtecími rámečky, ale zabývá se zásahy do opačného vlákna. Odpovídající vlákno je ve výstupu zvýrazněno a čísla v HSP to odrážejí.

Jedná se například o první a poslední řadu jednoho z zásahů při tryskání reverzního komplementu lidského genu tP53 proti lidským sekvencímčdatabáze:

Rozsah 1: 1 až 2591GenBankGraphics Další zápas Předchozí zápas Statistiky srovnání zápasů pro zápas č. 1 Skóre Očekávejte identity Mezery Vlákno 4673 bitů (5182) 0,0 2591/2591 (100%) 0/2591 (0%) Plus/Mínus dotaz 1 CACCCCTCAGACACAGGTGGCAGCAAAGTTATTGAT || |||||||||||||| |||||||| Sbjct 2591 CACCCCTCAGACACACAGGTGGCAGCAAAGTTTTTTTTTATAAATAAGAGATCGATATAAA 2532 […] Dotaz 2521 AGACTTTTGAGAAGCTCAAAAplikáce |||||||||… Sbjct 71 AGACTTTTGAGAAGCTCAAAACTTTTAGCGCCAGTCTTGAGCACATGGAGAGGGGAAAACC 12 dotaz 2581 CCAATCCCATC 2591 ||||||||||| Sbjct 11 CCAATCCCATC 1

Všimněte si, že 1) řetězce jsou uvedeny jako „Plus/Minus“, což znamená, že sekvence dotazu je zarovnána s - vláknem cíle a 2) že souřadnice předmětné sekvence začínají od konce (2591) a jdou na začátek (1).

Takže ano, dokonce i jednoduché nástroje, jako je nepřeložený BLAST, berou v úvahu dvě vlákna.


Čtecí rámeček

V molekulární biologii, a čtecí rámeček je způsob rozdělení sekvence nukleotidů v molekule nukleové kyseliny (DNA nebo RNA) na sadu po sobě jdoucích, nepřekrývajících se trojic. Tam, kde se tyto triplety rovnají aminokyselinám nebo zastavují signály během translace, se nazývají kodony.

Jedno vlákno molekuly nukleové kyseliny má fosforylový konec, nazývaný 5'-konec, a hydroxylový nebo 3'-konec. Ty definují směr 5 '→ 3'. Existují tři čtecí rámce, které lze číst v tomto směru 5 '→ 3', každý začíná od jiného nukleotidu v tripletu. V dvouvláknové nukleové kyselině lze od tohoto doplňkového řetězce přečíst další tři čtecí rámce z druhého, komplementárního vlákna ve směru 5 '→ 3'. Protože jsou dvě vlákna dvouvláknové molekuly nukleové kyseliny antiparalelní, odpovídá směr 5 '→ 3' na druhém vlákně směru 3 '→ 5' podél prvního vlákna. [1] [2]

Obecně je biologicky relevantní maximálně jeden čtecí rámec v daném úseku nukleové kyseliny (otevřený čtecí rámec). Některé virové transkripty lze přeložit pomocí více překrývajících se čtecích rámců. Existuje jeden známý příklad překrývajících se čtecích rámců v mitochondriální DNA savců: kódující části genů pro 2 podjednotky ATPázy se překrývají.


9.4: K prohledávání databází se používají algoritmy BLAST

  • Přispívá Clare M. O & rsquoConnor
  • Emeritní docent (biologie) na Boston College

Existuje mnoho různých algoritmů pro vyhledávání sekvenčních databází, ale algoritmy BLAST jsou jedny z nejoblíbenějších kvůli jejich rychlosti. Jak uvidíte níže, klíčem k rychlosti BLAST & rsquos je použití místních zarovnání, která slouží jako zárodky pro rozsáhlejší zarovnání. Ve skutečnosti je BLAST zkratka pro základní vyhledávací nástroj pro místní zarovnání (Altschul a kol.(1990). Na místě NCBI je k dispozici sada nástrojů BLAST pro vyhledávání sekvencí nukleotidů a proteinů. Algoritmus BLASTN jste již použili k hledání shody nukleotidů mezi primery PCR a genomem DNA (Kapitola 7). V této laboratoři budete používat algoritmus BLASTP k hledání homologů S. cerevisiae Se setkal bílkoviny v jiných organismech.

Hledání BLAST začíná sekvencí dotazů, která bude porovnána se sekvenčními databázemi určenými uživatelem. Jak algoritmy zpracovávají data, počítají pravděpodobnost, že každá potenciální shoda může vzniknout jen náhodou, což by nebylo v souladu s evolučním vztahem. Algoritmy BLAST začínají rozdělením posloupnosti dotazů na sérii krátkých překrývajících se & ldquowords & rdquo a přiřazením číselných hodnot
slova. Slova nad prahovou hodnotou pro statistickou významnost se pak používají k vyhledávání v databázích. Výchozí velikost slova pro BLASTN je 28 nukleotidů. Protože v DNA jsou pouze čtyři možné nukleotidy, dalo by se očekávat, že se sekvence této délky vyskytne náhodně jednou z každých 428 nebo 1017 nukleotidů, což je mnohem déle než jakýkoli genom. Výchozí velikost slova pro BLASTP jsou tři aminokyseliny. Protože proteiny obsahují 20 různých aminokyselin, dalo by se očekávat, že tripeptidová sekvence vznikne náhodně jednou za každých 8 000 tripeptidů, což je delší než jakýkoli protein. Následující obrázek ukazuje základní strategii používanou algoritmy BLAST.

Přehled strategie používané v algoritmech BLAST

BLASTN a BLASTP používají rolovací okno k rozdělení posloupnosti dotazů na slova a synonyma slov, která tvoří
vyhledávací sada. Alespoň dvě slova nebo synonyma ve vyhledávací sadě musí odpovídat cílové sekvenci v databázi
sekvence, která má být uvedena ve výsledcích.

V této laboratoři použijeme algoritmus BLASTP, který je pro studium evoluce proteinů užitečnější než BLASTN. Na rozdíl od BLASTN přehlíží BLASTP synonymní genové mutace, které nemění aminokyselinu. Synonymní substituce neovlivňují funkci proteinu, a proto by nebyly během evoluce vybrány proti. BLASTP využívá váženou skórovací matici BLOSUM 62 (Henikoff & amp Henikoff, 1999), která určuje frekvence, s nimiž během evoluce proteinu probíhaly konkrétní substituce aminokyselin.

K této diskusi o BLASTP se vrátíme po úvodu a šanci pracovat s maticí BLOSUM62.


Nástroje BLASTn vs ORF - biologie

WormBase je mezinárodní konsorcium biologů a počítačových vědců… Zjistěte více

Chcete se dozvědět více o výzkumu červů?

Začněte zde a získejte přístup k encyklopedickým informacím o genomu červa a jeho genech, proteinech a dalších kódovaných funkcích ... Zjistit více

Začít

  • Podle druhů
    • C. elegans
      [Legacy GBrowse]
    • B. malajský
      [Legacy GBrowse]
    • C. brenneri
      [Legacy GBrowse]
    • C. briggsae
      [Legacy GBrowse]
    • C. japonica
      [Legacy GBrowse]
    • C. remanei
      [Legacy GBrowse]
    • O. volvulus
      [Legacy GBrowse]
    • P. pacificus
      [Legacy GBrowse]
    • S. ratti
      [Legacy GBrowse]
    • T. muris
      [Legacy GBrowse]
    • Více?
    • Databáze
    • Genová třída
    • Laboratoř
    • Metody
    • Motiv
    • Papír
    • Osoba
    • Protokoly
    • Proces a cesta
    • Činidlo
    • Transposonová rodina

    Poslední aktualizace

    Pojďte prozkoumat komplexní sbírku informací WormBase s řadou bioinformatických nástrojů a další… Zjistit více

    Začít

    Obecné vyhledávání

    Pořadí

    Podle výrazu

    Podle literatury

    Těžba dat a dávkové dotazy

    Pro parazity

    Pro vývojáře

    Podle Ontology

    Top 3 nejpoužívanější nástroje

    WormBase poskytuje velké množství předpočtených souborů, které usnadňují následnou analýzu - Zjistěte více

    Začít

    Běžně požadovaná data

    Připojte se a spojte se s odborníky na červy online i mimo ně… Zjistěte více

    Adresáře

    Zapojte se

    externí odkazy

    Vytvořili jsme různé uživatelské příručky pro různé zájmy a úrovně zkušeností… Zjistěte více


    Genomické zdroje


      GenomeNet je japonská síť databázových a výpočetních služeb pro výzkum genomu a související oblasti výzkumu v molekulární a buněčné biologii. GenomeNet byl založen v září 1991 v rámci programu lidského genomu (HGP) ministerstva školství, vědy, sportu a kultury (MESSC).
      Národní centrum pro zdroje genomu (NCGR) obsahuje informace a odkazy na různé projekty související s genomem.
      Softberry, Inc. je přední vývojář softwarových nástrojů pro genomický výzkum. Jejich primární oblasti zájmu a odbornosti jsou v následujících oblastech: *anotace genomu *identifikace funkčních míst v DNA a proteinech *správa sekvenční databáze *porovnávání genomu *analýza údajů o expresi *predikce struktury proteinů. *Predikce proteinového oddílu (destinace).
      Web University of California, Santa Cruz (UCSC) Genome Browser obsahuje referenční sekvenci a pracovní koncepční sestavy pro velkou sbírku genomů.
      Databáze genotypů a fenotypů (dbGaP) byla vyvinuta za účelem archivace a distribuce výsledků studií, které zkoumaly interakci genotypu a fenotypu. Takovéto studie zahrnují asociační studie v celém genomu, lékařské sekvenování, molekulárně diagnostické testy a také asociaci mezi genotypem a neklinickými rysy.
      Projekt Ensembl produkuje genomové databáze obratlovců a dalších eukaryotických druhů a tyto informace volně zpřístupňuje online.

    Co je to BLAST

    BLAST znamená Základní vyhledávací nástroj pro místní zarovnání. Hledá se podobnost mezi vyhledávací sekvencí a sekvencemi uloženými na webových stránkách Národního centra pro biotechnologické informace (NCBI). Předpokládané geny v sekvenci dotazu lze detekovat na základě sekvenční homologie uložených sekvencí. BLAST je populární jako nástroj bioinformatiky díky své schopnosti rychle identifikovat oblasti místní podobnosti mezi dvěma sekvencemi. BLAST vypočítá hodnotu očekávání, která odhaduje počet shod mezi dvěma sekvencemi. Používá lokální zarovnání sekvencí. Webové rozhraní NCBI BLAST najdete zde.

    Obrázek 1: Webové rozhraní NCBI BLAST

    Různé BLAST vyhledávání

    SKVĚLÝ program

    Dotaz a databáze

    Dotaz - nukleotid, databáze - nukleotid

    Dotaz - protein, databáze - protein

    Dotaz - přeložený nukleotid, databáze - protein

    Dotaz - protein, databáze - přeložený nukleotid

    Dotaz - přeložený nukleotid, databáze - přeložený nukleotid


    Malý bonus: prohlížení výsledků pomocí webového prohlížeče

    Práce s těmito soubory se stává těžkopádnou, protože jejich délka snadno přesahuje výřez vašeho terminálu.

    Nebudu se podrobně zabývat tím, jak to funguje, protože by to uniklo účelu tohoto BLAST tutoriálu, ale velmi rychle vám ukážu, jak můžete nastavit server http a zpřístupnit tyto soubory na webu.

    Nenechte si dělat starosti! Budete jediní, kdo je může vidět.

    Stáhněte a nainstalujte nodejs a npm do své instance Exoscale:

    Ověřte, že byly správně nainstalovány:

    Měli byste získat něco jako:

    Nyní přejděte do umístění, kde jsou uloženy soubory, které chcete zobrazit (nebo do vašeho adresáře $ HOME), a spusťte:

    Měli byste vidět něco jako:

    Právě jste ve své instanci nastavili webový server a poslouchali požadavky na portu 8080. Tento port není ve vaší instanci ve výchozím nastavení otevřen, takže není přístupný veřejnosti. Místo toho jej přesměrujeme na váš místní počítač pomocí tunelu SSH.

    Otevřete v počítači nový terminál (poznámka: ne vaše instance Exoscale) a proveďte:

    Pokud chcete vědět, jak to všechno funguje, měli byste si přečíst o SSH tunelech. Ale prozatím jste právě přeposlali port 8080 na instanci Exoscale & rsquos do místního počítače, takže můžete otevřít libovolný webový prohlížeč, přejít na http: // localhost: 8080/a voila, vidět tam své soubory.

    Přejděte do souboru results.txt a vaše práce by se vám měla zobrazovat v mnohem uživatelsky přívětivějším prostředí.

    To prozatím trvá, zůstaňte naladěni na druhou část, kde vám & rsquoll ukážeme, jak nastavit vlastní soukromé databáze BLAST a začít proti nim odesílat dotazy.


    E-hodnota a zesilovač Bit-skóre

    E-hodnota 10 znamená, že lze očekávat, že bude nalezeno až 10 přístupů jen náhodou, vzhledem ke stejné velikosti náhodné databáze.

    E -hodnotu lze použít jako filtr první kvality pro výsledek vyhledávání BLAST, abyste získali pouze výsledky stejné nebo lepší než číslo dané volbou -evalue. Výsledky výbuchu jsou ve výchozím nastavení seřazeny podle hodnoty E (nejlepší zásah v prvním řádku).

    blastn -dotazovací geny.ffn -subjektový genom.fna -hodnota 1e-10

    Čím menší je hodnota E, tím lepší je shoda.

    -hodnota 1e-50

    malá hodnota E: nízký počet zásahů, ale vysoké kvality

    Blastové zásahy s hodnotou E menší než 1e -50 zahrnují velmi kvalitní databázové shody.

    -hodnota 0.01

    Výbuchy s hodnotou E menší než 0,01 lze stále považovat za dobrý zásah pro homologické zápasy.

    -hodnota 10 (výchozí)

    velká hodnota E: mnoho zásahů, částečně nízké kvality

    E-hodnota menší než 10 bude zahrnovat přístupy, které nelze považovat za významné, ale mohou poskytnout představu o potenciálních vztazích.

    E-hodnota (očekávaná hodnota) je opravené bitové skóre přizpůsobené velikosti sekvenční databáze. E-hodnota tedy závisí na velikosti použité sekvenční databáze. Protože velké databáze zvyšují pravděpodobnost falešně pozitivních zásahů, hodnota E koriguje vyšší šanci. Je to oprava pro vícenásobné srovnání. To znamená, že přístup k sekvenci by získal lepší hodnotu E, pokud je přítomen v menší databázi.

    E = m X n / 2 bitové skóre

    n - celková délka databáze (součet všech sekvencí)

    Čím vyšší je bitové skóre, tím lepší je podobnost sekvence

    Bitové skóre je požadovaná velikost sekvenční databáze, ve které lze aktuální shodu nalézt jen náhodou. Bitové skóre je protokol2 zmenšené a normalizované hrubé skóre. Každé zvýšení o jedno zdvojnásobí požadovanou velikost databáze (2 bitové skóre).

    Bitové skóre nezávisí na velikosti databáze. Bitové skóre dává stejnou hodnotu pro přístupy v databázích různých velikostí, a proto je lze použít pro vyhledávání v neustále se zvyšující databázi.


    Poděkování

    Addgene jsme nesmírně vděční za sdílení jejich dat, zodpovídání otázek, které vznikaly, a poskytování zpětné vazby rukopisů. Děkujeme Dr. Alecovi Nielsenovi (MIT), Dr. Darrell Ricke (MIT) a Dr. Jamesovi Comollimu (MIT) za diskuse o BLASTU. Jsme vděční Dr. Nili Ostrovovi (Harvard) a George Chao (Harvard) za diskuze o výpočtech genetické vzdálenosti. A.M.K. byla podpořena stipendiem National Science Foundation Graduate Research Fellowship. P.P. byl podpořen dvěma granty sedmého rámcového programu Evropské unie 7. RP. Společný výzkumný projekt ST-FLOW (KBBE-2011-5 — Grantová dohoda číslo 289326) a Program People (Akce Marie Skłodowska-Curie — Grantová dohoda číslo 612614) a N.C.T. byl podpořen grantem z MPO.


    6 De novo genové zrození a lidské zdraví

    Kromě svého významu pro oblast evoluční biologie, de novo narození genu má důsledky pro lidské zdraví. Spekulovalo se, že nové geny, včetně de novo geny, mohou hrát nadrozměrnou roli v druhově specifických rysech [6, 37, 132], nicméně mnoha druhově specifickým genům chybí funkční anotace [107]. Existují však důkazy, které naznačují, že jsou specifické pro člověka de novo geny se podílejí na chorobných procesech, jako je rakovina. NYCM, a de novo gen jedinečný pro člověka a šimpanze, reguluje patogenezi neuroblastomů v myších modelech [133] a specifický pro primáty ČÁST 1, gen lncRNA, byl identifikován jako nádorový supresor i onkogen v různých kontextech [44, 134, 135]. Několik dalších specifických pro člověka nebo primáty de novo geny, včetně PBOV1 [136], GR6 [137, 138], MYEOV [139], ELFN1-AS1 [140], a CLLU1 [45], jsou také spojeny s rakovinou. Někteří dokonce navrhli považovat za vlastní třídu genetických prvků nádorově specificky exprimované evoluční nové geny s tím, že mnoho takových genů je v pozitivní selekci a v kontextu nádorů mohou být neofunkcionalizovány [140].

    Specifický výraz mnoha de novo geny v lidském mozku [66] také zvyšují zajímavou možnost, že de novo geny ovlivňují lidské kognitivní vlastnosti. Jedním takovým příkladem je FLJ33706, a de novo gen, který byl identifikován v GWAS a vazebných analýzách závislosti na nikotinu a vykazuje zvýšenou expresi v mozku pacientů s Alzheimerovou chorobou [141]. Obecně lze říci, že exprese mladých genů specifických pro primáty je ve fetálním lidském mozku obohacena ve srovnání s expresí podobně mladých genů v myším mozku [142]. Většina z těchto mladých genů, z nichž několik pochází de novo, jsou vyjádřeny v neokortexu, který je považován za zodpovědný za mnoho aspektů lidského specifického poznávání. Mnoho z těchto mladých genů vykazuje znaky pozitivní selekce a funkční anotace ukazují, že jsou zapojeny do různých molekulárních procesů a jsou specificky obohaceny o geny zapojené do regulace transkripce ve srovnání s jinými funkčními třídami [142].

    Kromě jejich role v rakovinných procesech de novo pocházející lidské geny se podílejí na udržování pluripotence [143] a na imunitní funkci [44, 107, 144]. Preferenční výraz de novo geny ve varlatech (viz výše) také naznačují roli v reprodukci. Vzhledem k tomu, že funkce mnoha de novo lidské geny zůstávají necharakterizované, zdá se pravděpodobné, že zhodnocení jejich přínosu pro lidské zdraví a rozvoj bude nadále růst.


    Podívejte se na video: PRACTICAL Blastn (Leden 2022).