Informace

Nejlepší metodologie pro srovnání vypočítaného fylogenetického stromu s taxonomií?


Vypočítal jsem fylogenetický strom pomocí zarovnání sekvencí a chtěl bych:

  1. Porovnejte to se „známou“ taxonomií (uniprot/ncbi, o které vím, že není nejaktuálnější) a extrahujte metriku, jak je „odlišná“.
  2. [Volitelné] Vizualizace rozdílů (Pravděpodobně pro to vymyslím řešení, ale pokud někdo ví o pěkném nástroji, jak to udělat?)

Jaké jsou nejlepší metriky / nástroje / metodiky k provedení takového srovnání?

Dík !


Podívejte se naopicebalíček v R. Má funkci s názvemcophyloplotcož vám umožňuje vizualizovat dva stromy takto:

Což je v této otázce dobře popsáno (také zdroj obrázku).

K dispozici je takédist. topofunkce, která produkuje metriku, která popisuje topologickou vzdálenost mezi dvěma fylogenetickými stromy. Nevím, jestli je to to, co máte na mysli pod pojmem „rozdílné“, ale doufám, že to pomůže.


Nejlepší metodologie pro srovnání vypočítaného fylogenetického stromu s taxonomií? - Biologie

Poznámky ke kapitole 10:
Klasifikace a fylogeneze zvířat

Kliknutím na odkaz se vrátíte do rozvrhu přednášek
zpět na předchozí kapitolu
nebo před kapitolou 6

Ch. 10: 196-207 RQ10: 2-7, 9
zde naleznete nápovědu k RQ10: 7

Úvod: Pořádek v rozmanitosti
Doporučené zvíře: kuželová skořápka,
Conus sp.
(jedná se o chladné šneky se smrtícími toxiny - podívejte se na jeden hřebík a pohlcujte procházející rybu se svým hvězdicovým zubem podobným harpuně stažením filmu na odkazu 8)
Odkazy: 1 - 2 - 3 - 4 - 5 - 6 - 7 - 8 - 9

I. Linnaeus a vývoj klasifikace

Klíčové pojmy: hierarchický systém, taxony (taxony), taxonomické pozice, binomická nomenklatura, rod, druh


A. Objevování vzoru a klasifikace

1. Systematici mají tři cíle:

A. objevit všechny druhy
b. rekonstruovat fylogenezi (genealogické vztahy)
C. zařadit podle fylogeneze

2. Taxonomie: systém pro pojmenování a klasifikaci
3. Systematika: zahrnuje taxonomii, ale také fylogenetické a evoluční studie

B. Linnaeus a linenský systém

1. Klasifikace dat přinejmenším zpět do Aristotela ve starověkém Řecku
2. John Ray (anglicky) upřesnil klasifikaci a pojmy druhů
3. Současný binomický klasifikační systém zavedený Linnaeem

A. Linnaeus byl švédský botanik, jehož specialitou byly kvetoucí rostliny
b. Jeho ambicióznější Systema Naturae klasifikovaná zvířata a rostliny

4. Linnaeus představil koncept taxomické hierarchie (tabulka 10-1)

A. Měl 7 hlavních hodností: království, kmen, třídu, řád, rodinu, rod, druh.
b. Taxony (singulární: taxon) jsou jména v jakékoli hodnosti (např. Animalia)
C. Dnes se taxony obvykle dělí (např. Nadtřída, podřád atd.)
d. Některé skupiny jsou rozděleny do mnoha úrovní (30 pro hmyz)

5. Linnaeus zavedl binomickou nomenklaturu

A. Každé zvířecí jméno má dvě slova (binomická) jako v Turdus migratorius.
b. Rod je velkými písmeny, malá písmena
C. Podle konvence vždy kurzíva (Turdus migratorius) nebo podtrženo
d. Nikdy nepoužívejte pouze název druhu, vždy zahrňte rod
E. U zvířat musí být rodová jména jedinečná
F. Taxony vyšší úrovně nejsou kurzívou, ale velkými písmeny (např. Reptilia).
G. Trinomiální jména se někdy používají k označení geografických poddruhů

II. Taxonomické znaky a fylogenetická rekonstrukce

Klíčové pojmy: fylogeneze, postavy, homologie, homoplasie

A. Použití variace znaků k rekonstrukci fylogeneze

Klíčové pojmy: rodové vs. odvozené charakterové stavy, polarita (rodový stav je obecně ten, který je také přítomen v outgroup, ve srovnání outgroup), clade (předek plus všichni jeho potomci), synapomorphy (odvozená novinka, která nám pomáhá rozpoznat clade, např. peří u ptáků), plesiomorphy (stav předků nebo „primitivní“ stav, ne nutně nejjednodušší a nejjednodušší stav), vnořená hierarchie, symplesiomorfní (sdílené & „primitivní“ podobnosti - ty nám NEPOMŮŽUJÍ rozpoznat klady, např. nedostatek páteře u mouchy a hlemýžď), cladogram vs. fylogenetický strom (podobný, ale & quoty -osa & cladogram nic neznamená, zatímco ve fylogenetickém stromu, např. geologický čas) - Poznámka: Nebojte se, tyto termíny jsou zpočátku obtížné a budeme je posilovat po celý semestr - viz cvičení s kladogramem 1.

1. Odhad fylogeneze závisí na postavách (vlastnostech)

A. zajímavé jsou pouze postavy, které se liší
b. různé formy charateru se nazývají státy


2. Člověk pozoruje podobnosti, které by mohly být homologní

A. A homologie je podobnost kvůli společnému původu
b. to znamená, že společný předek měl stejný stav
C. homologní podobnost se musí vyvinout pouze jednou


3. Alternativně se podobnosti mohly vyvinout samostatně (konvergentně)
4. Jakákoli podobnost ne kvůli homologii se nazývá a homoplasy (zahrnuje konvergenci)
5. The kritérium šetrnosti slouží k výběru některých stromů jako lepších než jiných

A. Nejšetrnější strom vysvětluje co nejvíce homologií
b. Strom vyžaduje více střídmosti než jiný, když vyžaduje méně změn
C. Nejšetrnější strom je strom s nejméně homoplasií
d. Důvodem je, že homoplasie vyžadují další změny, homologie ne

B. Studium variací znaků může odhalit rodové poměry

1. Vzhledem k fylogenezi lze určit, který charakterový stav je rodový
2. Stav předků postavy je stav nalezený u předka
3. Stavy znaků vzniklé později se nazývají odvozené stavy
4. V praxi nemůžeme normálně pozorovat společného předka

A. Místo toho používáme úzce související taxon jako podskupinu pro odhad stavu předků
b. Můžeme také použít více skupin
C. Příklad: u ptáků nepozorujeme žádné zuby a u ještěrek zuby, které jsou primitivní?

1) Všimli jsme si, že všechny skupiny (např. Savci, mloci a ryby) mají zuby
2) Společný předek ptáků a ještěrek měl tedy pravděpodobně zuby
3) Přítomnost zubů u ještěrek je tedy primitivní stav
4) Nedostatek zubů u ptáků je tedy odvozeným stavem


5. Clade je přirozený taxon organismů vázaných v prostoru a čase

A. A kladu je definován jako společný předek a všichni jeho potomci
b. V praxi clade poznáme podle odvozených podobností
C. Příklad: clade - ptáci zahrnují předchůdce ptáků a všechny jeho potomky
d. Peří je odvozená podobnost nalezená pouze u ptáků (žádná žijící skupina nemá peří)
E. Je nanejvýš šetrné předpokládat, že společný předek ptáků byl opeřený
F. Protože ještěrkám chybí peří, peří pravděpodobně vzniklo poté, co se ještěrky a ptáci rozešli
G. Jinými slovy, poslednímu společnému předkovi ještěrek a ptáků chybělo peří

6. Technicky se odvozený stav charakteru označuje jako apomorfie
7. Sdílený stav odvozeného znaku se nazývá synapomorfie
8. Synapomorphies jsou typicky vnořeny hierarchicky

A. Příklad: Všichni placentální savci mají placentu placenta je synapomorphy
b. Všichni vačnatí savci mají vačnatý vak a postrádají placentu
C. Placenty i vačnatci mají vlasy a mléčné žlázy (stejně jako všichni savci)
d. savci a ještěrky mají kolem vajíček amnion (stejně jako všichni amnioti)
E. amnioti a mloci mají oba čtyři končetiny (stejně jako všichni tetrapodi)
F. tetrapodi a žraloci mají čelisti (stejně jako všichni gnathostomes)

9. Rodový (neodvozený) stav se nazývá plesiomorphy
10. Sdílený rodový stav se nazývá symplesiomorphy.

C. Zdroje fylogenetických informací

Klíčové pojmy: srovnávací morfologie, biochemie a cytologie

1. Morfologie: zahrnuje tvar, velikost a vývoj

A. Příklady: Kosti lebky nebo končetin, šupiny, chlupy, peří
b. Lze pozorovat ve zkamenělinách i živých exemplářích

2. Biochemické srovnání (nyní nejpoužívanější důkaz)

A. Příklady: Porovnání proteinů nebo sekvencí DNA
b. Fosilie má příležitostně zachované zbytky DNA, ale není snadné je obnovit

A. Příklady: zkoumá rozdíly v počtu, tvaru a velikosti chromozomů
b. Používá se pouze pro živé organismy

4. Seznamování s fosilií je možné (pomocí radioaktivních metod seznamování)
5. Odhad, kdy se linie rozcházejí, je také možné s porovnáváním sekvencí

Klíčové pojmy: monofylie, paraphyly, polyphyly

1. Rozeznávají se tři typy seskupení

A. Monofyletický: zahrnuje společného předka a všechny jeho potomky
b. Paraphyletic: zahrnuje společného předka a pouze některé z jeho potomků
C. Polyphyletic: nezahrnuje nejnovějšího společného předka svých členů

2. Evoluční a kladističtí systematici nesouhlasí pouze v případě paraphyletických skupin

A. Oba souhlasí, že by měla být uznána monofyletická seskupení
b. Oba souhlasí, že polyphyletická seskupení by měla být odmítnuta
C. Pouze evoluční systematici připouštějí paraphyletické skupiny
d. Naproti tomu kladisté ​​formálně pojmenovávají pouze skupiny, o nichž se předpokládá, že jsou monofyletické
E. Cladistický princip je známý jako & quotvláda monofylie& quot
F. Mnoho taxonů v rozšířeném používání je paraphyletic

Poznámka: Následující část textu, která kontrastuje s evolučními a kladistickými přístupy, je pochopitelně sympatická s tím prvním. Za prvé, evoluční taxonomie je v celém textu všudypřítomná a její odstranění by vyžadovalo značné úsilí autorů při přepisování. Za druhé, autoři pochopitelně nechtějí odcizit ty instruktory, kteří ještě nejsou připraveni striktně dodržovat pravidlo monofylie, jak by vyžadoval zcela kladistický přístup. Chtějí prodat co nejvíce učebnic. Takový přístup je však možný a bylo by podle mě nádherné ho vidět. Důvodem je, že kladistické klasifikace v podstatě převzaly oblast klasifikace zvířat. Jakékoli pochybovače stačí procházet GenBank's Taxonomy Browser, aby viděli funkční systém klasifikace, který zahrnuje všechny organismy a přísně odpovídá pravidlu monofylie. Funguje a je mnohem jednodušší než starší evoluční taxonomie, které nahrazuje. Zdůraznění paraphyletických skupin má navíc dobře zdokumentovanou tendenci zaměňovat fylogenetické chápání, často jemným a zákeřným způsobem. Následující poznámky pod částmi „Klíčové termíny“ by měly postačit k charakterizaci rozdílů mezi těmito školami, které je třeba prostudovat především proto, aby bylo možné rozpoznat rozdíl mezi starším přístupem evoluční taxonomie (stále velmi populární díky společnému používání názvů paraphyletických skupin běžným používáním a neochotou autorů učebnic houpat loď) a současným kladistickým přístupem, který používá většina praktikujících systematiků.

Zde také naleznete pomoc se souvisejícím RQ 10: 7.

A. Tradiční evoluční taxonomie

Klíčové pojmy: evoluční taxonomie (tj. Starší přístupy, které jsou v tomto textu běžné, ale nejsou v této třídě zdůrazněny, bude se od vás očekávat, že rozpoznáte, když známka nemusí být nutně clade), adaptivní zóna (staromódní přístup, kdy skupina zvířat je & quotelevated & quot; na vyšší pozici v klasifikaci, protože se diverzifikovala do nové ekologické oblasti, např. ptáků, lidí), fenetické taxonomie (seskupování podle celkové podobnosti, jak synapomorphies, tak symplesiomorphies - tento přístup byl většinou opuštěn - současní systematici souhlasí s tím, že pouze synapomorfie mohou poskytnout důkaz o monofylii skupiny)

B. Fylogenetická systematika/kladistika

Klíčové pojmy: sesterská skupina, kladistika (toto je dnes nejčastěji zdůrazňovaný přístup a ten, který bude použit v této třídě, ale všimněte si, že existuje poměrně malá polemika o tom, jak najít nejlepší fylogenetický strom pro skupinu, ale mnohem více polemika o tom, jak tento strom proměnit v klasifikaci, např. zda povolit nebo ne mít známým paraphyletickým taxonům formální jména taxonů - v této třídě říkáme NE, pouze monofyletické skupiny by měly mít formální jména - toto je & quot; pravidlo monofylie & quot; )

C. Současný stav taxonomie zvířat

IV. Druh (Přečtěte si prosím - toto by mělo být přezkoumáno z Biol. 131)

V. Hlavní divize života (skip - strom má velké nedostatky)

VI. Hlavní členění říše zvířat (přeskočit - velmi staromódní)

Kliknutím na odkaz se vrátíte do rozvrhu přednášek
zpět na předchozí kapitolu
nebo před kapitolou 6


Fylogeneze, taxonomie a názvosloví - základní nátěr

Fylogeneze nebo fylogenetický strom je hypotéza („nejlepší odhad“ vědce) o evolučních vztazích mezi druhy. Fylogenezi všech druhů označujeme jako Strom života. Fylogenetické stromy ukazují hypotetické vztahy mezi druhy jako rozvětvený vzor předků a potomků. V těchto stromech, linie (větve) vycházejí z uzly (kde se setkávají větve), které představují předky aktuálně žijících organismů (obrázek 1). Rodové linie vycházející ze stejného uzlu nebo předchůdce jsou si navzájem bližší než s jinými liniemi ve fylogenezi. Konec větve, ať už je to rodina (jako v rodokmenu obojživelníků) nebo druh nebo konkrétní jedinec, se nazývá spropitné nebo list (viz obr. 1). Sekce větví, které nevedou přímo ke špičce, jsou „vnitřní větve“, které současně představují potomky a předky ve fylogenezi, to znamená, že sestupují z rodových uzlů a vedou do potomkových uzlů.

II. Proč je důležité porozumět fylogenezi?

Fylogeneze nám ukazují evoluční vztahy mezi druhy, což nám umožňuje studovat, jak se vyvíjejí určité rysy (např. Barva, jed, velikost těla). Vědci studují, jak se ve fylogenezi mění vlastnosti podél větví, aby pochopili, jak se zvířata v průběhu času diverzifikují a přizpůsobují svému prostředí. Fylogenie také poskytují důležité informace pro zachování. Pochopením evolučních vztahů mezi druhy se můžeme pokusit předpovědět, které linie mohou být nejzranitelnější vůči degradaci životního prostředí způsobené člověkem, jako je změna klimatu nebo znečištění. Někteří biologové ochrany se také snaží zaměřit na zachování největší evoluční rozmanitosti a zajistit, abychom chránili druhy, které představují mnoho různých větví Stromu života, než abychom chránili mnoho blízce příbuzných druhů.

III. Jak se vyrábějí fylogenie?

Fylogenie lze odhadnout na základě jakýchkoli informací o organismech. Mohli jsme porovnat rozdíly a podobnosti ve velikosti (např. Velká versus malá zvířata) nebo barvě (např. Zelená versus černá zvířata) a ve skutečnosti byla zvířata původně seskupena podle aspektů jejich fyzického vzhledu nebo chování. Například plazi a obojživelníci byli historicky považováni za jedinou skupinu, protože byli všichni považováni za „plazivá zvířata“ (herpeton je řečtina pro plazivé zvíře). Nyní tento způsob organizace plazů a obojživelníků považujeme za nepřesný, protože přísnější analýzy anatomie a genetiky odhalily, že plazi jsou blíže příbuzní savcům než obojživelníkům.

Vědci dnes odhadují příbuznost (fylogenezi) mezi organismy primárně pomocí rozdílů v sekvencích DNA živých zvířat a v anatomii jejich fosilních předků. Příklad toho, jak vědci porovnávají sekvence DNA, viz obrázek 2, který je zarovnáním mitochondriální DNA z pěti Rana druh. Jednoduchý způsob, jak posoudit příbuznost, je spočítat počet rozdílů v sekvencích DNA, jako je C proti T v konkrétním místě (sloupci), mezi druhy. Podívejte se na úplné sekvence DNA na GenBank pomocí následujících odkazů: Rana palustris KX269207.1, Rana pipiens KY677811.1, Rana clamitans KY677765.1, Rana catesbeiana KY677760.1, Rana sylvatica KY677767.1.

Vztahy zobrazené ve stromu jsou „nejlepším odhadem“ vědců, protože jak tyto linie souvisejí na základě údajů použitých v analýze. Jak se objevují nové informace s novými studiemi, například prostřednictvím nových metod, a jak jsou objevovány nové druhy, mohou tyto analýzy poskytnout různé výsledky. To vede ke změnám v odhadech vztahů mezi studiemi v závislosti na použitých typech dat a analýz. Proto je nejlepší považovat fylogenezi za reprezentující naše současné chápání a s novými objevy se může změnit.

Další informace o tom, jak číst a používat fylogenie, najdete v části Principy evoluce.

IV. Klíčové fylogenetické termíny

Monofylie: Když skupina rodů ve Stromu života zahrnuje předka a všechny jeho potomky. Tato skupina se nazývá monofyletická (což znamená „jedna větev“) nebo kladu. Clades lze seskupit do sebe v hierarchii. Například na obrázku 3 jsou mloci a žáby monofyletické skupiny, které jsou spolu s caecily obsaženy v kladu „obojživelníci“ (rodový uzel = 3) obojživelníci spolu s plazy plazů, savců a ryb jsou obsaženy uvnitř kladu známého jako „obratlovci“ (rodový uzel = 1). Všimněte si, že v tomto stromu jsou přítomny další clades.

Paraphyly (non-monophyly): Pokud skupina organismů zahrnuje předka a pouze některé z jejích potomků, tato skupina se nazývá paraphyletic nebo non-monophyletic. Vědci se starají o rozlišení paraphyletických a monofyletických skupin, protože monofyletické skupiny poskytují informace o tom, jak došlo k evoluci (z jakých uzlů se rodí linie), zatímco parafýlie nikoli. Herpetologie, studium obojživelníků a neptačích plazů - společně známé jako „herpetofauna“ nebo „herps“ - je studium paraphyletické skupiny, protože tato skupina vylučuje savce a ptáky, z nichž posledně jmenovaní jsou ve skutečnosti plazi. Skupina obsahující herpy, ptáky a savce by byla monofyletická a tato sbírka zvířat by měla společného předka v uzlu 2 (obrázek 3). Tato kladu je známá jako „Tetrapodi“. Pochopení, že plazi jsou monofyletická skupina obsahující ptáky, nám pomohla zjistit, že peří se vyvinulo z šupin, které byly přítomny u jiných plazů, ale u obojživelníků chybí.

Polytomie: Když má rodová větev jen dva potomky, nazýváme tento rozdělovací vzor dichotomií. Pokud má rodová větev více než dva potomky, jedná se o polytomii (to znamená rozřezanou na mnoho částí). Polytomie znamená, že vztahy mezi těmito potomky jsou nejisté. Na obrázku 4 jsou žáby, mloci a caeciliáni zobrazeni jako polytomie, což znamená, že nevíme, které dva jsou nejblíže příbuzné (sdílejí společného předka). Nejistoty ve fylogenetických stromech mohou existovat, protože jsme dosud nebyli schopni shromáždit dostatek dat, abychom jasně rozdělili nebo určili vztahy mezi těmito liniemi.

V. Taxonomie

Způsob, jakým řadíme linie a klady ve Stromu života do pojmenovaných skupin, se nazývá taxonomie.Dnes se biologové obecně shodují na tom, že bychom organismy měli seskupovat podle toho, jak spolu evolucí souvisí. To znamená, že taxonomie, kterou používáme, by měla odrážet sdílené předky (tj. Fylogenezi), ideálně organizováním jednotlivců a druhů do monofyletických skupin.

Taxonomie je organizována jako hierarchie. AmphibiaWeb převážně používá čtyři vnořené taxonomické úrovně, které popisují klady na Stromu života: objednat, rodina, rod, a druh (Obrázek 5). Pokud je to vhodné (viz Aspekty taxonomie), také používáme podrod nebo podčeledi jména, která poskytují další evoluční informace týkající se podmnožin linií v určitých clades.

Dobrým příkladem je žába severního leoparda, jejíž vědecký název je Rana pipiens. Žába severního leoparda rod Jmenuje se Rana a jeho druh jméno (nebo „konkrétní epiteton“) je pipiens. Tento druh spadá do širší rodiny na kladu Ranidae, známých jako pravé žáby, které spadají do řádu Anura (obrázek 5). Rod Rana je velmi velký (> 100 druhů), takže někdy také používáme podskupinová seskupení, abychom pomohli klasifikovat vztahy mezi těmito druhy. Podrod název žába severního leoparda je Pantherana, což doslova znamená „leopardí žába“ Pantherana zahrnuje také další blízce příbuzné druhy, jako je žába Pickerel (Rana palustris) a nedávno objevený druh, žába leoparda na pobřeží Atlantiku (Rana kauffeldi). Dalším známým členem čeledi Ranidae je americký skokan volský (Rana catesbeiana), který spadá do jiného podskupiny zvané Aquarana, což znamená „vodní žába“. Zelené žáby (Rana clamitans) jsou také v podrodu Aquarana. Člen rodu Rana kterému v současné době nebyl přiřazen podrod, je žába lesní (Rana sylvatica).

VI. Nomenklatura

Nomenklatura odkazuje na pravidla, jak upravujeme názvy pro linie a klady. Nomenklatura nemusí nutně odrážet evoluční vztahy nebo biologii, ale je to prostě soubor pravidel pro udržení stabilní taxonomie. AmphibiaWeb podporuje dlouhodobou stabilitu v nomenklatuře a taxonomii, protože pomáhá snadno organizovat informace o druzích. To znamená, že dáváme přednost tomu, aby názvy rodových linií nebo taxonomických kmenů byly v průběhu času konstantní, i když o nich shromažďujeme nové informace. AmphibiaWeb se rozhodne přijmout nebo odmítnout navrhované taxonomické změny pro konkrétní linie v závislosti na tom, zda navrhované změny poskytují užitečné informace pro klasifikaci organismů a podporují taxonomickou stabilitu skupiny. Běžná mylná představa je, že nejnovější taxonomie je nejlepší taxonomie. Vědci mohou technicky svobodně přijmout nebo odmítnout nově publikované taxonomické změny. AmphibiaWeb dodržuje řadu kritérií, která naší komunitě pomáhají pracovat s biologicky nejinformovanější a nejužitečnější taxonomií a nomenklaturou. Zde můžete vidět různá kritéria taxonomie a nomenklatury AmphibiaWeb a zde Mezinárodní kodex zoologické nomenklatury, který stanoví pravidla pro pojmenování druhů. Příklad rozhodovacího stromu pro změnu nomenklatury viz obrázek 6 převzatý z Hillis (2019).

VII. Proč se fylogeneze v průběhu času mění?

Získáváme další údaje (přidáváme informace o liniích): Snad nejběžnější změna fylogenií nastává, když získáme nová data o liniích, která mění naše chápání jejich vztahů. Fylogenie například dříve vycházela převážně z anatomie, ale nyní jsou často založeny na kombinovaném hodnocení DNA a anatomie, které pomohlo vyřešit dříve neznámé vztahy ve Stromu života.

Přidávají se druhy (nalézáme nové linie!): Neustále se objevují noví obojživelníci! Ve skutečnosti jsou do obojživelného stromu života každý týden přidány 2–3 nové obojživelníky. Když jsou objeveny nové druhy, umístíme je do Stromu života. Někdy zahrnutí těchto druhů mění způsob, jakým jsme dříve chápali vztahy mezi liniemi, a může vyžadovat reorganizaci taxonomie.

Druhy se rozdělí (zjistíme, že jedna linie je ve skutečnosti dvě nebo více různých linií!): Někdy jsou jeden druh obojživelníků ve skutečnosti dva nebo více různých druhů, které zabírají různé oblasti nebo stanoviště v původním druhu. Když je tato „záhadná rozmanitost“ odhalena, taxonomové často tento druh rozdělí na více druhů.

Druhy se spojují (zjistíme, že dvě nebo více linií jsou stejné): Někdy jsou dva nebo více druhů obojživelníků jen jedním druhem obojživelníků, který může žít na různých místech, vypadat odlišně nebo mít prostě jiná jména, přestože jsme o nich mnoho nevěděli. Když se zjistí, že více druhů je ve skutečnosti jen různě vypadajících verzí stejného druhu, lze tyto linie spojit do jedné linie. Když se spojí více druhů do jednoho, názvy druhů se synonymizují (stejným způsobem, že dvě nebo více slov znamená totéž, dva nebo více názvů druhů znamená totéž) a převládá pouze starší název druhu.

VIII. Cvičné otázky

Správné čtení fylogeneze, dovednosti, které říkáme „stromové myšlení“, vyžaduje trochu praxe. Zde je několik cvičení, která zdokonalí vaše dovednosti.

1. Pravda nebo lež: Fylogeneze A ukazuje, že lidé a žáby jsou si bližší než fylogeneze B.

2. Tetrapoda je název kladu obratlovců se čtyřmi končetinami. Ačkoli společný předek Tetrapody (reprezentovaný níže označeným uzlem) měl čtyři končetiny, končetiny byly evolučně několikrát ztraceny v rodových liniích, které pocházejí z tohoto předka. V naší fylogenezi jsou zastoupeny dvě linie bez končetin: hadi a caeciliani. Na základě vztahů mezi rodovými liniemi v Tetrapodě, kolikrát se v této fylogenezi vyvinula bezohlednost?

3. U každé označené skupiny (1, 2 a 3) na níže uvedené fylogenezi si všimněte, zda číslo označuje monofyletickou skupinu, paraphyletickou skupinu nebo polytomii. Tip: z každého je alespoň jeden!

Jste připraveni na odpovědi?

IX. Procvičte si odpovědi

1. Falešné! Tyto stromy ve skutečnosti zobrazují stejnou fylogenezi. Představte si otáčení větve vedoucí k předkovi savců a plazů v každé fylogenezi. Rotující větve kolem jejich spojovacího uzlu mění vzhled fylogeneze, ale nemění žádné vztahy mezi liniemi v tomto stromu. Evoluční vzdálenost mezi dvěma liniemi se měří trasováním od jednoho hrotu ke společnému předkovi obou špiček (uzel) a zpět nahoru k druhému hrotu. Sledujte červené čáry a sledujte původ mezi žabami a lidmi v obou stromech, abyste zjistili, že evoluční vzdálenost je stejná.

2. Dvě linie v této fylogenezi, které přišly o končetiny (hadi a caeciliani), se nacházejí v různých kladech stromu. V každé z těchto fylogenií tedy existují dva počátky bezohlednosti. Zde zobrazujeme tyto dvě události s červenými čtverečky na větvích vedoucích k těmto dvěma clades, což naznačuje, že bezkončetnost se vyvinula v rodové linii každého z těchto clades.

Všimněte si, že níže uvedená fylogeneze je přesně stejná jako výše, a zobrazuje tedy dva počátky bezohlednosti. Jediným rozdílem mezi fylogenezí nahoře a dole je to, že jsme otočili jednu větev, abychom změnili pořadí špiček zprava doleva, jak bylo provedeno v otázce 1.

3. V této fylogenezi číslo 1 označuje a paraphyletic skupina (lidé, psi a ryby), protože zahrnuje předka, ale ne všechny její potomky (obojživelníky, plazy a ptáky). Číslo 2 označuje a monofyletický skupina nebo kladu, protože zahrnuje předka a všechny její potomky. Číslo 3 označuje a polytomie. I když vztahy mezi liniemi, které sestoupily z uzlu číslo 3, jsou nejasné, uzel 3 také označuje kladu nebo monofyletickou skupinu.


Nejlepší metodologie pro srovnání vypočítaného fylogenetického stromu s taxonomií? - Biologie

Jak jsou klasifikovány organismy?

    je obor biologie, který klasifikuje živé a vyhynulé organismy podle souboru pravidel.

    Taxonomie vytváří hierarchii skupin organismů, do nichž jsou organismy přiřazovány do skupin na základě podobností a odlišností jejich charakteristik.

    Fylogenetický strom je hypotéza, která zobrazuje evoluční vztahy mezi skupinami organismů v podrobných fylogenetických stromech, body větví ukazují, kdy se nové druhy odchylovaly od společného předka.

Jak se konstruují fylogenetické stromy?

    Fylogenetické stromy jsou obvykle založeny na morfologické nebo genetické homologii.

    Srovnání anatomických vlastností může odhalit evoluční vztah mezi druhy.

    Sdílené, odvozené charakteristiky se používají ke konstrukci stromu zvaného cladogram.

Jak mění molekulární systematika náš pohled na taxonomii?

    Taxonomie je nedokončená práce.

    Jak se objevují nové druhy, taxonomické skupiny již nemusí být monofyletické.


Přidružení

Australian Center for Ecogenomics, School of Chemistry and Molecular Biosciences, University of Queensland, Queensland, Australia

Donovan H Parks, Maria Chuvochina, David W Waite, Christian Rinke, Adam Skarshewski, Pierre-Alain Chaumeil & amp Philip Hugenholtz

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Tohoto autora můžete také vyhledat v PubMed Google Scholar

Příspěvky

D.H.P., D.W.W. a P.H. napsal článek a všichni ostatní autoři poskytli konstruktivní návrhy. D.H.P. a P.H. navrhl studii. M.C. a P.H. provedl taxonomickou kuraci. D.H.P., D.W.W., C.R., A.S. a P.-A.C. provedl bioinformatické analýzy. P.-A.C. navrhl web.

Odpovídající autor


Co je klasifikace, taxonomie, fylogeneze, systematika a kladistika?

    Klasifikace je velmi široký pojem, který jednoduše znamená zařazovat věci do tříd. Klasifikací je jakýkoli druh organizačního schématu: například třídění chytrých předmětů podle barev, mincí podle průměru nebo měst podle počtu obyvatel. Zdá se, že lidé nejsou schopni odolat nutkání klasifikovat. Je to jedna z nejzákladnějších činností každé vědy, protože je snazší přemýšlet o několika skupinách věcí než o spoustě samostatných věcí.

Bohužel význam slova `` cladistics '' je poněkud zmaten skutečností, že se zdá, že nese filozofii a metodologii. Filozofie spočívá v tom, že jediným seskupením, o kterém se bude diskutovat, jsou klady - tedy skupiny skládající se z předka a všech jeho potomků. Například kladisté ​​nepřijímají starý koncept `` plazů '', protože vynechává dinosaury a ptáky, kteří jsou potomky plazů, jak je běžně chápáno. Zda je to rozumný postoj, je samostatná otázka (viz `` Co znamenají pojmy jako kmen, řád a rodina? ''), Ale to, co to má co do činění s kladistickou metodou, je hádání kohokoli.

Z této `` kladistické filozofie '' pochází fráze jako `` přísný kladistický význam Reptilia '' na rozdíl od `` tradičního významu Reptilia ''. Co se tím myslí?

Když byla třída Reptilia poprvé postulována, sestávala z několika skupin zvířat, která byla zjevně příbuzná kvůli rysům, jako je jejich šupinatá kůže: ještěrky a hadi, želvy, krokodýli atd. Když byli dinosauři objeveni, byli přidáni do Reptilia , protože mají mnoho společných kosterních rysů s jinými plazy.

Od té doby stále sofistikovanější analýzy ukazují, že nejnovějším společným předkem těchto skupin je také předek savců (synapsidních plazů) a ptáků (což jsou dinosauři). Lze tedy říci, že skupina sestávající z ještěrky, hadi, želvy, krokodýli, dinosauři atd., ale nikoli savci a ptáci, je nepřirozené (konkrétně je paraphyletické - viz `` Co znamenají pojmy jako monofyletický, paraphyletický a polyphyletický? '') Někteří lidé tvrdí, že by takové nepřirozené skupiny neměly být používány ve vědecké literatuře a že by měl být změněn význam slova Reptilia, aby zahrnoval savce a ptáky. Tato nová interpretace Reptilia je někdy označována jako `` kladistický význam ''.

Analogicky, nyní, když je víceméně prokázáno, že ptáci jsou dinosauři (ale viz `` Existuje nějaká zbývající pochybnost, že ptáci pocházejí z dinosaurů? ''), Většina vědců dává přednost použití `` kladistické '' interpretace třídy. Dinosauria, která zahrnuje ptáky.

Tento spor o `` kladistickou '' terminologii má opět jen málo nebo vůbec nic společného s procesem kladistické analýzy a odvozením domnělých fylogenií.


Výsledky a diskuse

K porovnání UPP se stávajícími metodami MSA jsme použili řadu simulovaných a biologických datových souborů z předchozích publikací (podrobnosti viz „Materiály a metody“). Simulované datové sady zahrnují ROSE NT (sbírka nukleotidových datových sad 1000 sekvencí), Indelible 10K (sbírka 10 000 sekvenčních nukleotidových datových souborů), RNASim (sbírka datových sad v rozsahu od 10 000 do jednoho milionu sekvencí) a ROSE AA (a sbírka datových sad simulovaných aminokyselin o 5000 sekvencích). Biologické datové soubory zahrnují CRW (tři největší datové sady, 16S.3, 16S.T a ​​16S.B.ALL, ze srovnávací ribozomální webové stránky [21] s až 27 643 sekvencemi), 10 AA (deset datových sad aminokyselin s kurátorem MSA s až 807 sekvencemi) a HomFam (19 velkých datových sad HomFam [22], až 93 681 sekvencí). U některých z těchto datových souborů jsme vygenerovali fragmentované verze, takže 12,5 %, 25 %a 50 %sekvencí bylo fragmentárních, abychom vyhodnotili odolnost vůči fragmentárním datům. Simulované datové sady mají skutečná zarovnání a stromy dostupné z předchozích publikací. Biologické datové soubory mají referenční zarovnání na základě strukturálních vlastností a datové sady CRW a 10 AA mají také referenční stromy vypočítané pomocí referenčních zarovnání, která jsou také dostupná z předchozích publikací. Referenční zarovnání pro datové sady HomFam jsou příliš malá (5–20 sekvencí, medián 7) a stromy vypočítané na těchto referenčních zarovnáních byly příliš špatně podporovány, než aby byly užitečné pro účely hodnocení.

Vypočítali jsme ML stromy na odhadovaných zarovnáních a nahlásili stromovou chybu pomocí sazby falešně negativních (FN) (také známé jako míra chybějící větve) a ΔMíra FN, což je rozdíl mezi sazbami FN stromů vypočítaných na odhadovaných a pravdivých nebo referenčních zarovnáních. Uvádíme chybu součtu párů zarovnání (SP), což je průměr součtu dvojic falešně negativních (SPFN) a falešně pozitivních (SPFP) [19]. Uvádíme také celkové skóre sloupců (TC), což je procento zarovnaných sloupců (tj. Sloupců s alespoň jednou homologií) ve skutečném nebo referenčním zarovnání, které se objevují v odhadované MSA.

Návrh algoritmu UPP

Zkoumali jsme úpravy designu UPP, ve kterém jsme měnili velikost páteře, místo souboru jsme použili jeden HMM, stavěli soubory založené na cladech v rámci stromu páteře, stavěly soubory založené na nesouvislých podmnožinách po deseti sekvencích, používaly různé metody MSA k vypočítat zarovnání páteře, použít MAFFT namísto hmmalign k přidání sekvencí k zarovnání páteře a spustit hmmbuild pomocí různých možností pro výpočet HMM na každé zarovnání podmnožiny. Tyto předběžné studie odhalily následující trendy:

(1) Použití malých páteřních řetězců (100 sekvencí) spíše než velkých páteřních řetězců (1 000 sekvencí) obvykle přineslo vyšší míru chyb SP pro zarovnání a chybovost stromů jak pro přístup HMM, tak pro přístup jediného HMM (Další soubor 1: Sekce S2 .1). Použití menších páteřních řetězců zkrátilo dobu běhu pro soubor přístupu HMM a mělo zanedbatelný dopad na dobu běhu pro jediný přístup HMM (Další soubor 1: Sekce S2.1).

(2) Použití souboru HMM spíše než jediného HMM s páteři 1000 sekvencí mělo různý dopad. Jak je uvedeno v tabulce 1, dopad na chybu SP zarovnání se pohyboval od neutrální (změny nejvýše 0,3 % pro skóre SP zarovnání nebo chybu stromu) po prospěšnou, například chybu SP zarovnání pro datové sady HomFam využívající soubor HMM bylo 23,0 %, zatímco použití jediného HMM způsobilo chybu SP zarovnání 25,4 % (tabulka 1). Dopad na skóre TC se také lišil: TC skóre bylo lepší, když byly pro simulovatelné datové sady Indelible použity jednotlivé HMM, a jinak byly lepší, když byly použity soubory (tabulka 1). Rozdíly ve skóre TC byly obecně malé (např. Průměrný rozdíl byl menší než 0,5 %). U datových sad HomFam s použitím souboru HMM poskytlo skóre TC 46,6 %, zatímco jeden HMM měl skóre TC 44,5 % (rozdíl 2,1 %). U datových sad Indelible 10 000 M4 s použitím jediného HMM bylo skóre TC 30,5 %a pomocí souboru HMM bylo skóre 27,4 %(rozdíl 3,1 %).

A konečně, použití souboru HMM namísto jediného HMM obecně snižuje stromovou chybu (tabulka 1). Výsledky pro datové sady CRW například ukazují, že soubor HMM měl průměrnou stromovou chybu 7,8 %, ale použití jednoho HMM mělo průměrnou stromovou chybu 16,5 % (tj. Více než dvojnásobek stromové chyby). Podstatné snížení stromové chyby bylo také pozorováno u datových sad RNASim 10K. V několika případech (tj. Datové sady ROSE AA a Indelible) s použitím jediné HMM vylepšené stromové chyby, ale rozdíly byly velmi malé (tabulka 1). Dopad použití souboru HMM namísto jediného HMM byl u páteří se 100 sekvencemi snížen a v některých případech dokonce vedl k malým vylepšením (Další soubor 1: Sekce S2.1 a Další soubor 1: Tabulka S2.1) . Nejlepší výsledky však byly stále získány s použitím páteřních řetězců 1000 se souborem HMM.

(3) Použití souborů HMM vypočítaných pro clades v páteřním stromu vytvořilo zarovnání a stromy, které byly obecně stejně přesné (podle chyb SP a chyb stromů) a měly různý dopad na skóre TC (obecně snižující skóre, ale v některých případech jejich vylepšení) jako soubory vytvořené pomocí souborů založených na dekompozicích těžiště na hraně (Další soubor 1: Sekce S2.6 a Doplňkový soubor 1: Tabulka S2.1). UPP využívající soubory založené na kladech však zabralo více času (Další soubor 1: Sekce S2.6).

(4) Použití souborů HMM na základě disjunktních podmnožin (každá s nejvýše deseti sekvencemi) mělo proměnlivý dopad. U mnoha datových sad (např. Datových sad ROSE AA, RNASim, CRW a HomFam) byl dopad používání nesouvislých podmnožin velmi malý a v některých případech dokonce mírně příznivý (další soubor 1: oddíl S2.1 a další soubor 1 : Tabulka S2.1). U některých jiných datových sad však použití disjunktních podmnožin výrazně snížilo přesnost.

Například u datových sad Indelible 10000M2 měla výchozí UPP chybu SP zarovnání 3,5 %, skóre TC 1,2 %a ΔChyba FN 0,6 %, ale při použití nesouvislých podmnožin měla chyba SP 28,2 %, skóre TC 0,3 %a ΔChyba stromu FN 19,9 % (další 1: tabulka S1).Ačkoli tedy použití disjunktních souborů HMM zkracovalo dobu běhu (Další 1: Sect. S2.1), výchozí soubor HMM byl spolehlivější technikou než použití souborů založených na disjunktních podmnožinách.

(5) Technika použitá k odhadu zarovnání páteře měla velký dopad na konečné zarovnání a strom (další 1: sekce S2.3), takže chyba SP konečného zarovnání velmi těsně odpovídala počáteční chybě SP zarovnání páteře (Další 1: Sekce S2.4). K vytvoření zarovnání páteře jsou tedy zapotřebí nejlepší způsoby zarovnání.

(6) Použití MAFFT k přidání sekvencí k zarovnání páteře namísto výchozí techniky UPP (hmmalign, příkaz v rámci HMMER) snížilo přesnost (Další 1: Sekce S2.5).

(7) Použití různých možností hmmbuild (například vypnutí příznaku vážení entropie) nezlepšilo přesnost (Další 1: Sekce S2.7).

Celkově byly nejspolehlivější výsledky získány použitím velkých páteřních řetězců (1 000 sekvencí), použitím souboru HMM, výpočtu páteře pomocí PASTA a pomocí hmmalign k přidání sekvencí do zarovnání páteře. Tato nastavení byla použita pro výchozí verzi UPP. Pro účely běhu (aby ultra velké datové sady mohly být rychle analyzovány) však prozkoumáme UPP (Fast), variantu UPP, která používá páteře 100 sekvencí, ale jinak používá všechna výchozí nastavení (tj. Omezuje páteř do sekvencí plné délky, používá soubor HMM, používá PASTA k zarovnání podmnožin atd.).

Srovnání s jinými metodami MSA pro sekvence plné délky

Pro výpočet MSA jsme použili Clustal-Omega [22], MAFFT [23], Muscle [24], PASTA [16, 17] a UPP.

Řadíme metody podle úrovní, kde první vrstva obsahuje metodu, která měla nejlepší výkon, a jakoukoli jinou metodu, která byla v rámci 1 % nejlepšího výsledku pro datovou sadu. Podobně druhá vrstva obsahuje metodu, která není v první vrstvě, která měla nejlepší výkon, a všechny metody v rámci 1 % této metody (a tak dále pro zbývající úrovně). Je také identifikována metoda, která měla celkově nejlepší výkon v rámci kolekce. Popisujeme obecný výkon každé metody u datových sad plné délky (tabulka 2) a fragmentárních datových sad (tabulka 3). U fragmentárních výsledků vezmeme průměrný výkon každé metody v celém rozsahu fragmentovaných datových sad.

Většina experimentů probíhala na homogenním clusteru Lonestar v Texas Advanced Computing Center (TACC). Vzhledem k omezením uloženým společností Lonestar jsou tyto analýzy omezeny na 24 hodin, přičemž použití 12 jader s 24 GB paměťových metod, které se nepodařilo dokončit do 24 hodin nebo bylo ukončeno chybovou zprávou o nedostatečné paměti, bylo označeno jako selhání. Pro experimenty s milionovou sekvencí datové sady RNASim jsme metody provozovali na vyhrazeném počítači s 256 GB hlavní paměti a 12 jádry, dokud nebylo vygenerováno zarovnání nebo metoda selhala. Provedli jsme také omezený počet experimentů na TACC s interním mechanismem kontrolních bodů UPP, abychom prozkoumali výkon, když čas není omezen. Všechny metody jiné než Muscle měly paralelní implementace a dokázaly využít výhod 12 dostupných jader.

U datových sad plné délky (tabulka 2), kde bylo možné dokončit téměř všechny metody, byla PASTA téměř vždy v první vrstvě s ohledem na chybu SP zarovnání, stromovou chybu a skóre TC (jedinou výjimkou jsou datové sady RNASim 10K, kde PASTA byla ve druhé vrstvě kvůli chybě SP zarovnání a datové sady HomFam (17), kde byla PASTA ve druhé vrstvě pro skóre TC). UPP (výchozí) měl druhý nejlepší výkon: byl v první vrstvě, pokud jde o chybu SP, s výjimkou datových sad Indelible 10K a HomFam (2), kde byl ve druhé vrstvě (s 1,2 % a 3,4 % vyšší chybou než nejlepší metoda), to bylo v první nebo druhé vrstvě pro chybu stromu a v první až třetí úrovni pro skóre TC. MAFFT byl na třetím místě, byl v první až třetí úrovni pro chybu SP zarovnání, první přes třetí úroveň pro chybu stromu a první až čtvrtou úroveň pro skóre TC. Za MAFFT stál Muscle a Clustal-Omega. Sval byl v druhé až páté vrstvě s ohledem na chybu SP zarovnání, první až čtvrtá vrstva s ohledem na chybu stromu a druhá až čtvrtá vrstva s ohledem na skóre TC. Clustal-Omega byla na první až čtvrté úrovni s ohledem na chybu SP zarovnání, druhá až čtvrtá na chybu stromu a první až čtvrtá na skóre TC. Obecně se zdálo, že relativní výkonnost Muscle a Clustal-Omega závisí na typu dat, přičemž Muscle si vede lépe v sadách nukleotidových dat a Clustal-Omega lépe v sadách aminokyselin.

U sekvencí v plné délce, ať už s ohledem na chybu SP, chybu stromu nebo skóre TC, byla v průměru na prvním místě PASTA, na druhém UPP a na třetím MAFFT, zatímco za nimi byly Muscle a Clustal-Omega metody.

Porovnání s jinými metodami na datových sadách s fragmentárními sekvencemi

Dále jsme zkoumali výkon pro datové sady s fragmentárními sekvencemi. Jak ukazuje tabulka 3, UPP byla v první vrstvě metod pro všechny fragmentární datové sady s ohledem na chybu SP zarovnání a v první vrstvě metod pro tři ze čtyř kolekcí (kromě CRW) s ohledem na chybu stromu , kde je ve druhé vrstvě. PASTA nebyla v první vrstvě pro žádnou kolekci s ohledem na žádné z těchto kritérií a byla místo toho ve druhé až čtvrté úrovni pro zarovnání chyby SP a druhá a třetí úroveň pro chybu stromu. MAFFT byl ve druhé a třetí úrovni pro chybu SP zarovnání, ale vedl si dobře pro chybu stromu: v první vrstvě pro CRW a jinak ve druhé a třetí úrovni. Stejně jako dříve si Muscle a Clustal-Omega vedli méně dobře než ostatní metody ve třetí až páté úrovni. Clustal-Omega nedokázala analyzovat alespoň jeden soubor dat. Všimněte si také, že absolutní chyba se obecně zvýšila a že pouze UPP měla rozumně nízkou chybu SP zarovnání a chybu stromu ve všech těchto fragmentárních datových sadách. Mezi úplnými a fragmentárními daty se tedy změnil relativní a absolutní výkon metod.

Obrázek 3 ukazuje detailně dopad fragmentace. Má výsledky pro ROSE NT 1000M2 (velmi náročný stav kvůli vysokému počtu indelů a substitucí), s různou úrovní fragmentace.

Dopad fragmentárních sekvencí na chybu SP zarovnání a chybu stromu. Ukazujeme průměr A chyba zarovnání a b ΔMíra chyb FN pro různé metody pro datové sady ROSE NT 1000M2, ale zahrnuje výsledky, kde je procento sekvencí fragmentováno, měnící se procento od 0 % do 50 %. Fragmentární sekvence mají průměrnou délku 500 (tj. Zhruba polovinu průměrné délky sekvence pro ROSE 1000M2)

Chyba SP při zarovnání UPP se zvyšovala jen nepatrně s nárůstem fragmentace, dokonce až do nejvyššího stupně fragmentace (50 %). Všechny ostatní metody vykazovaly větší nárůst chyby SP zarovnání nebo chyby stromu než UPP, protože se zvýšilo množství fragmentace.

Abychom lépe porozuměli tomu, proč je UPP robustní vůči fragmentaci, prozkoumali jsme varianty UPP (nazývané UPP-random), ve kterých jsme neomezovali páteř na pouze sekvence plné délky. Také jsme se zabývali tím, zda použití souboru HMM místo jediného HMM přispívá k robustnosti fragmentace. Tato srovnání (obr. 4) odhalila některé zajímavé trendy ohledně dopadu těchto parametrů návrhu algoritmu. Za prvé, jediné varianty UPP, které dokázaly sladit všechny datové sady, byly dvě, které používaly soubor HMM, varianty, které používaly jeden HMM, nedokázaly zarovnat několik datových sad, protože HMMER nebyl schopen zarovnat některé sekvence dotazů na zarovnání páteře (obr. 4).

Porovnání variant UPP na fragmentárních datových sadách. Ukazujeme průměr A chyba zarovnání a b ΔChyba FN stromu pro UPP (výchozí), UPP (výchozí, NoDecomp), UPP-random (výchozí) a UPP-random (výchozí, NoDecomp) pro fragmentární datové sady. Páteř není omezena na sekvence plné délky v UPP-random, a proto umožňuje fragmentární sekvence v sadě páteře. Náhodné UPP (výchozí, NoDecomp) se nepodařilo zarovnat alespoň jednu datovou sadu z každé z podmínek modelu RNASim 10K, Indelible 10K a CRW. UPP (výchozí, NoDecomp) se nepodařilo zarovnat alespoň jednu datovou sadu z každé podmínky modelu ROSE NT, RNASim 10K a Indelible 10K. ML stromy byly odhadnuty pomocí FastTree podle obecného časově reverzibilního modelu

Za druhé, srovnání mezi UPP-random (Default) a UPP (Default)) upřednostňovalo UPP (Default), takže zatímco v některých případech byly zanedbatelné až malé rozdíly, UPP (Default) byl dramaticky přesnější než UPP-random (Default) ) pro datové sady ROSE NT pro chybu SP zarovnání i chybu stromu (obr. 4). Omezení páteře na sekvence v plné délce je tedy velmi důležitým příspěvkem k odolnosti fragmentárních sekvencí.

Omezení páteře na sekvence v plné délce a použití pouze jednoho HMM však vedlo k mnohem vyšší stromové chybě než při použití souboru HMM (obr. 4), což ukazuje, že použití souboru HMM také přináší výhody. Tyto dvě algoritmické techniky (omezení páteře na sekvence plné délky a použití souboru HMM) jsou tedy užitečné při zlepšování odolnosti vůči fragmentárním sekvencím, ale řeší různé analytické výzvy.

Dopad vzorkování taxonů

Vyhodnocovali jsme schopnost různých metod analyzovat velmi velké datové sady (až jeden milion sekvencí), pomocí podmnožin milionové sekvence datové sady RNASim toto srovnání také odhaluje dopad vzorkování taxonů na metody zarovnání. Zkoumali jsme výkon pro UPP (Fast), rychlou verzi UPP, která se liší od výchozího nastavení UPP pouze v tom, že používá menší páteře (100 sekvencí místo 1000). Obrázek 5 ukazuje výsledky pro 10 000 až 200 000 sekvencí a porovnává UPP (rychlé), UPP (výchozí), PASTA, MAFFT, Muscle a Clustal-Omega, omezující analýzy na 24 hodin na 12jádrovém 24 Gb stroji. Zatímco všechny uvedené metody dokázaly dokončit analýzy pro 10K datovou sadu, pouze UPP (Fast) a PASTA dokončily analýzy pro 100K a 200K datové sady.

Porovnání datové sady RNASim 200K. Ukazujeme A zarovnání SP-chyba, b Chyba stromu FN a C ΔMíra chyb stromu FN pro datové sady RNASim s až 200 000 sekvencemi. Výsledky, které nejsou uvedeny, jsou způsobeny tím, že metody nevracejí zarovnání během 24hodinového časového období na TACC pomocí 12 jader. ML stromy byly odhadnuty pomocí FastTree podle obecného časově reverzibilního modelu

Jak se počet sekvencí v datových sadách RNASim zvyšoval, SP chyba zarovnání PASTA klesla z 15,0 % u 50 000 sekvencí na 12,2 % u 200 000 sekvencí. UPP (Fast) měl stabilní chybu SP zarovnání napříč všemi soubory dat, která se pohybovala mezi 12,5 % a 13,3 %. Stromy pro UPP i PASTA se zlepšily zvýšeným vzorkováním taxonů, přičemž stromy PASTA se blíží přesnosti ML pro skutečné zarovnání (0,1 % až 0,2 % ΔFN) a stromy UPP byly těsně za sebou (1,2 % až 1,4 % ΔFN, obr. 5 c).

Poté jsme porovnali UPP (Fast) s PASTA pro celou datovou sadu RNASim s milionovou sekvencí. Spustili jsme UPP (Fast) a PASTA na vyhrazeném počítači s 12 jádry a 256 GB paměti, aby analýzy mohly překročit 24hodinový časový limit v TACC. UPP (rychlé) dokončeno za 12 dní s chybami zarovnání a stromu podobnými předchozím výsledkům (chyba SP 12,8 % zarovnání a 2,0 % ΔFN). PASTA dokončena za 15 dní a přinesla mnohem horší zarovnání, ale lepší chyby stromu (18,5 % chyba SP zarovnání a 0,4 % ΔFN). Protože jsme použili jiný stroj s jinou architekturou, nelze doby běhu pro milionovou sekvenci datové sady RNASim přímo porovnávat s dobami běhu pro jiné datové sady RNASim, které byly spuštěny na TACC.

Výpočtové problémy

Tabulka 4 porovnává doby běhu nástěnných hodin pomocí 12 jader pro ty datové sady, kde všechny metody dokázaly dokončit v rámci 24hodinového omezení na Lonestaru, takže zobrazujeme výsledky pro všechny datové sady kromě datových sad RNASim s 50K nebo více sekvencemi. Všimněte si toho, že všechny metody kromě Muscle měly paralelní implementace a byly schopné využít výhod 12 dostupných jader, relativní výkonnostní rozdíly mezi metodami se mohou na jednojádrovém stroji značně lišit, v závislosti na tom, jak dobře je každá metoda schopna využít výhody paralelismu.

Rozdíly v průměrné době běhu pro tyto datové sady byly někdy malé (např. Všechny metody dokončily analýzy za 0,4 až 0,6 hodiny času nástěnných hodin pro datové sady ROSE NT s 1000 sekvencemi a za méně než 0,2 hodiny času nástěnných hodin po dobu 10 Datové sady AA s méně než 1000 sekvencemi). U datových sad CRW, které mohly být docela velké (téměř 28 tisíc sekvencí), byly rozdíly v průměrné době běhu velké: UPP (výchozí) používalo 11,6 hodiny, Muscle 5,9 hodiny, PASTA 3,2 hodiny, Clustal-Omega 2,8 hodin a MAFFT používal pouze 0,4 hodiny. Celkově byl u těchto datových sad obecně MAFFT nejrychlejší (nebo téměř) a UPP (výchozí) obecně nejpomalejší.

Porovnali jsme čas běhu nástěnných hodin pro každou fázi algoritmu UPP pro UPP (výchozí) a UPP (rychlý) pro dvě velké nukleotidové datové sady: datovou sadu RNASim 10K s 10 000 sekvencemi a datovou sadu CRW 16S.B.ALL s 27 643 sekvencemi (Tabulka 5). Pouze dva kroky - výpočet zarovnání páteře a stromu a hledání nejlepšího HMM - trvaly déle než několik minut, a to i u největší datové sady. Výpočet zarovnání páteře a stromu trval méně než hodinu pro UPP (výchozí) a méně než 8 minut pro UPP (rychlý). Nejvíce času však zabralo hledání nejlepšího HMM pro sekvence dotazů. U UPP (výchozí), který měl desetkrát tolik HMM jako UPP (rychlý), tento krok trval téměř 16 hodin u 16S.B.ALL a 7 hodin u datové sady RNASim 10K, zatímco UPP (rychlý) používal méně než 1,8 hodiny pro datový soubor 16S.B.ALL a 0,8 hodiny pro datový soubor RNASim 10K. Drtivá většina času pro velké soubory dat se tedy stráví hledáním nejlepšího HMM. U velmi malých datových sad je rozdíl v době běhu mezi UPP (výchozí) a UPP (rychlý) malý, ale u velmi velkých datových sad jsou rozdíly v době běhu podstatně větší - téměř řádově v rozdílu.

Poté jsme zkoumali, jak se doba běhu UPP (měřená pomocí času na nástěnných hodinách) škálovala s velikostí datové sady, prozkoumáním podmnožin datové sady RNASim s 10 000 až 200 000 sekvencemi pomocí 12 jader. Doby běhu pro UPP (Fast) pro datové sady RNASim vykazovaly téměř lineární trend, takže UPP (Fast) byl dokončen pro 10K sekvence za 55 minut, 50K sekvence za 4,2 hodiny, 100K sekvence za asi 8,5 hodiny a 200K sekvence za přibližně 17,8 hodin (obr. 6).

Doba běhu pro UPP (Fast) pro datové sady RNASim. Ukazujeme dobu běhu, abychom vygenerovali zarovnání pro UPP (Fast) pro datové sady RNASim s 10K, 50K, 100K a 200K sekvencemi. Všechny analýzy byly provedeny na TACC s 24 GB paměti a 12 CPU


Taxonomie, fylogeneze a ekologie heliobakterií

Heliobacteria jsou nedávno objevenou skupinou anoxygenních fototrofních bakterií, poprvé popsaných v roce 1983. Heliobacteria obsahují bakteriochlorofyl G, pigment jedinečný pro druhy této skupiny, a syntetizují nejjednodušší fotosyntetické komplexy ze všech známých fototrofů. Také, na rozdíl od všech ostatních fototrofů, heliobacteria postrádají mechanismus pro autotrofii a produkují endospory. Jsou známy čtyři rody heliobakterií, které obsahují celkem 10 druhů. Druhy rodů Heliobacterium, Heliobacillus, a Heliophilum rostou nejlépe při neutrálním pH, zatímco druhy Heliorestis jsou zásadotvorné. Heliobacterium, Heliobacillus, a Heliophilum druhy tvoří jeden fylogenetický kladu heliobakterií, zatímco Heliorestis druhy tvoří vteřinu v kmeni Firmicutes domény Bakterie. Heliobacteria mají jedinečnou ekologii, protože jsou primárně pozemské než vodní fototrofy, a mohly si vyvinout vzájemný vztah s rostlinami, zejména s rostlinami rýže. Sekvence genomu termofila Heliobacterium modesticaldum podporuje hypotézu, že heliobacteria jsou „minimalistické fototrofy“ a že mohly hrát klíčovou roli ve vývoji fototrofních bakterií.

Toto je náhled obsahu předplatného, ​​přístup prostřednictvím vaší instituce.


Výsledky a diskuse

Každé nastavení simulace je zkráceno čtyřmi písmeny odpovídajícími hodnotám pro každou ze čtyř kategorií parametrů simulace (tabulka 3).

Kompletní údaje (S, c, E, n)

První a nejjednodušší simulace spočívá v tom, že topologie a parametry stromového stromu jsou stejné jako u skutečných genových stromů a délka každého zarovnání genu je převzata z původního souboru dat. V 500 replikacích SA téměř vždy rekonstruuje skutečný strom, tj. RF = 0 (obrázek 4a). Metody MR a přechodné metody vykazují průměr RF vzdálenosti menší než 2%. Naproti tomu průměrná vzdálenost odvozeného jediného genového stromu ke stromu skutečných druhů je 16,5%. Tuto hodnotu lze považovat za průměrnou vzdálenost, pokud je rekonstrukce založena pouze na informacích o sekvenci jednoho genu. Proto tomu budeme říkat základní vzdálenost. QILI překvapivě vykazuje průměrnou RF vzdálenost 35%, což je mnohem větší než 16,5%. Přesností se tedy ztrácí kombinace genových stromů s touto metodou.

Distribuce normalizovaných RF vzdáleností (500 simulací) pro nastavení simulace S, c, E, n a S, m, E, n. Rekonstruované stromy byly porovnány s modelovým stromem pomocí vzdálenosti RF (podrobnosti viz metody). Zobrazí se rozdělení vyplývající z 500 opakování. Políčka označují 1/4- a 3/4-kvantily, svislá čára se zářezy je medián s 95% spolehlivým zásahem pro srovnání dvou mediánů. Svislá čára bez zářezů je průměr dat. Svislá černá čára nakreslená v diagramech je průměr RF vzdálenost všech kompletních genových stromů, která slouží jako základní vzdálenost.

Chybějící data (S, m, E, n)

Dále použijeme stejných 500 simulovaných zarovnání jako dříve, ale odstraníme ty sekvence ze zarovnání simulovaného genu, které nejsou přítomny v původním zarovnání (viz obrázek 2a). Výsledné distribuce souboru RF vzdálenosti (obrázek 4b) ukazují, že všechny metody jsou silně ovlivněny chybějícími daty. S průměrem RF vzdálenost asi 6,2%, SA je opět nejpřesnější metoda. Ze zbývajících metod vykazují nejmenší průměr MRP_BR (10,8%) a SuperQP (11%) RF vzdálenosti. Metody řezání, QILI a průměrná shoda ukazují průměrné RF vzdálenosti větší než základní vzdálenost 16,5%. Tyto metody tedy fungují v průměru hůře na neúplných souborech dat než rekonstrukce ML s použitím pouze jednoho genu přítomného ve všech taxonech. Zdá se, že tyto metody nejsou schopny efektivně využít dodatečné informace poskytnuté extra, ale neúplnými, genovými daty.

Velká datová sada (L, m, E, n)

Tato simulace využívá soubor dat 254 genů ze 69 druhů zelených rostlin (viz část metody). Ve srovnání s malým souborem dat obsahuje uspořádání velkého souboru dat více taxonů, více genů, ale menší část genů přítomných na taxon (obrázek 3). Zde studujeme nejjednodušší nastavení simulace s chybějícími daty. I když jsou stromy SA rekonstruovány šetrně, aby byl výpočetní čas přiměřený, stále vykazují nejvyšší přesnost s průměrem RF vzdálenost 4,8% (obrázek 5). Mezi metodami MR již MRP_I (12%) není tak přesný jako ostatní metody MR. MRF_BR (5,7%) a MRF_PU (5,8%) jsou metody supertree s nejvyšší přesností. MinCut (93,9%) rekonstruuje stromy, které jsou velmi vzdálené skutečnému druhovému stromu. Možným důvodem je vysoký podíl chybějících dat. Přesnost MinCut je vylepšena pomocí ModMinCut (54%) a MaxCut (31,5%), ale všechny metody řezání vykazují větší vzdálenosti než průměrný kompletní genový strom (základní vzdálenost, 18,5%). QILI vykazuje mnohem lepší výkon ve srovnání s malým souborem dat, jeho průměrná přesnost (20,4%) je nyní srovnatelná se SuperQP (16,1%) a SDM (20,2%). Tyto metody ukazují hodnoty průměrné vzdálenosti velmi blízko základní vzdálenosti. Ale QILI má stále velký rozptyl, zatímco SuperQP ve většině případů vykazuje dobré výsledky a v několika případech produkuje nevyřešené stromy.

Distribuce normalizovaných RF vzdáleností (200 simulací) pro nastavení simulace L, m, E, n. Velká sada dat s chybějícími údaji podle obrázku 3. „Genové stromy“ ukazují vzdálenosti stromů od úplných zarovnání, nikoli od ořezaných zarovnání, přestože posledně uvedené se používají pro metody kombinování dat.

Obecně platí, že výsledky velkého souboru dat jsou podobné těm pro malý soubor dat: V obou nastaveních jsou metody, které zlepšují základní vzdálenost, stejné, superalignment překonává ostatní metody, metody MR jsou nejlepší metody supertree, a SuperQP je nejlepší metoda střední úrovně. Očekáváme tedy, že výsledky budou podobné i při zavádění odlišných nastavení. V následujícím textu uvádíme pouze výsledky pro malý soubor dat.

Dlouhé sekvence (S, m, E, l)

Testujeme také, zda jsou metody schopné kombinovat vysoce informativní, ale neúplné soubory dat. Minimalizujeme tedy účinek rekonstrukce chybného genového stromu generováním genových sekvencí desetkrát delších než původní genové sekvence, zatímco výskyty taxonů jsou stejné jako na obrázku 2a. Přesnost odvozených druhů stromů a genů je u všech metod podstatně zlepšena (data nejsou uvedena). Vysoký průměr RF vzdálenosti pro QILI (30,3%) a AvCon (8,1%) však ukazují, že tyto metody nedokážou rekonstruovat rozumné stromy z vysoce informativních datových sad s chybějícími daty. Průměrné RF vzdálenosti pro MinCut, SuperQP a SDM jsou mezi 1% a 2% a všechny zbývající metody ukazují průměr RF vzdálenost ≤1%.

Fylogenetické stromy zavěšené v botách

Simulaci jsme rozšířili o chybějící data (S, m, E, n) bootstrapováním superliggnmentu a genových stromů. V tomto případě byly rekonstruované genové stromy většinovým konsensem stromů rekonstruovaných ze zarovnání bootstrapem. Vzhledem k tomu, že větve s nízkou podporou jsou vyřazeny z každého genového stromu, očekává se, že se přesnost metod supertree zlepší. Všimněte si, že tento postup bootstrap neovlivňuje metody střední úrovně. Zde jsme změřili přesnost rekonstrukce pro 200 zarovnání, která byla základem simulací shrnutých na obrázku 4b (S, m, E, n). Bootstrapované genové stromy vedou ke zlepšení přesnosti všech metod supertree ve srovnání s výsledky bez bootstrapingu (data nejsou uvedena). Průměrná RF vzdálenost je nyní 5,6% pro superosazení, mezi 9 a 10,3% pro všechny metody MR a mezi 12 a 22% pro metody řezání.

Genově specifické evoluční rychlosti (S, m, R α, n)

Nyní zavedeme složitější nastavení, kde se evoluční rychlosti mezi geny liší. Skutečné genové stromy byly generovány ze stromu druhů roztažením nebo zmenšením všech délek větví s náhodným faktorem distribuovaným Γ nakresleným nezávisle pro každý gen v každé simulaci. Ve dvou různých nastaveních byl parametr tvaru pro distribuci. α = 3 a α = 1:67. Stejně jako v předchozích simulacích byly substituční parametry pro simulaci sekvence pro každý gen stejné. Genové stromy a SA strom byly také získány bootstrapem. Pro každý výběr α, vypočítali jsme 100 simulovaných zarovnání. U žádného nastavení se výsledky podstatně neliší od předchozí simulace s bootstrappingem (data nejsou zobrazena).

Genově specifické substituční parametry (S, m, P, n)

Zde, stejně jako v předchozím prostředí, se skutečné genové stromy liší od stromů druhů svými délkami větví. Tentokrát však byly délky větví přizpůsobeny původním datům, aby se získaly skutečné genové stromy. Pro každé zarovnání byl druhový strom prořezán na příslušnou sadu taxonů. Poté byly parametry GTR a délky větví namontovány do ořezaného stromu pomocí původního zarovnání. Pokud se délka větve snížila na 10-6, dolní mez v IQPNNI, byla příslušná délka větve nastavena na 1/l, kde l je délka odpovídajícího zarovnání. Takto konstruované stromy byly použity jako skutečné genové stromy pro simulace. Sekvenční simulace používaly odhadované parametry GTR pro každý gen.

Toto nastavení simulace umožňuje pouze simulaci ořezaných datových sad. Základní vzdálenost tedy není použitelná. Výsledky nelze srovnávat přímo s předchozími simulacemi, protože průměrná délka stromu je nyní větší, ale lze porovnat pořadí metod. Obrázek 6 ukazuje, že stromy nadřazenosti zůstávají nejlepší (průměr RF vzdálenost 2,4%), i když se parametry simulace mezi geny liší. SA, metody MR, MaxCut a SuperQP jsou jasně lepší než metody založené na vzdálenosti, MinCut a ModMinCut.

Distribuce normalizovaných RF vzdáleností (500 simulací) pro nastavení simulace S, m, P, n. Simulace s genově specifickými parametry GTR a chybějícími daty. Výchozí vzdálenost zde není použitelná (podrobnosti viz text).

Genově specifické topologie (S, m, G, n)

Zde je předchozí nastavení rozšířeno následovně: Nejen délky větví a substituční parametry jsou specifické pro gen, ale také topologie. Proto byly genové stromy rekonstruované z původních dat použity jako skutečné genové stromy pro tuto simulaci. Stejně jako dříve lze studovat pouze nastavení s chybějícími daty, protože skutečné genové stromy již chybějící data obsahují. Protože neznáme základní topologii druhů, používá se komplikovanější metoda hodnocení: odvozený strom z každé metody se porovnává se stromem rekonstruovaným ze skutečných genových stromů stejnou metodou. např. strom MRP_BR byl rekonstruován ze skutečných genových stromů a byl použit jako modelový strom, když jsou vzdálenosti k MRP_BR vyhodnoceny na obrázku 7. Rovněž stromy z raných a středních úrovní jsou rekonstruovány z původních sekvenčních dat a použity pro výpočty vzdáleností . Pomocí tohoto postupu odhadujeme, jak důsledně každá metoda najde svůj vlastní zrekonstruovaný druhový strom, když jsou simulována sekvenční data podél genových stromů. Je to podobné parametrickému přístupu bootstrapu. Zde se potýkáme s problémem, že některé stromy rekonstruované z původních dat nejsou plně vyřešeny. Také v těchto případech vypočítáme Robinsonovy-Fouldovy vzdálenosti k těmto stromům a normalizujeme je stejným faktorem 2 (n - 3), kde n je počet taxonů. Polytomie v těchto stromech jsou tedy považovány za pravdivé a vzdálenost se zvyšuje, pokud je strom rekonstruovaný v simulaci více vyřešen. Abychom na tento problém upozornili, uvedeme počet větví chybějících ve stromech rekonstruovaných z původních dat na pravém okraji obrázku 7.

Distribuce normalizovaných RF vzdáleností (200 simulací) pro nastavení simulace S, m, G, n. Simulace s genově specifickými topologiemi a chybějícími daty. Všimněte si, že základní vzdálenost je zde definována odlišně: vzdálenosti genových stromů jsou vypočítány porovnáním každého rekonstruovaného genového stromu s odpovídajícím skutečným genovým stromem a normalizovány příslušným počtem taxonů. Čísla vpravo jsou počty nevyřešených větví ve stromu rekonstruovaných z původních dat odpovídající metodou.

Výsledné vzdálenosti jasně ukazují, že SA je nejkonzistentnější metodou, protože má nejmenší průměrnou vzdálenost ke stromu SA od původních dat (7,8%). Následuje MRP_BR se střední RF vzdáleností 13,2%.

Neúplné třídění linií (S, c, T θ, e a S, m, T θ, e)

V tomto nastavení byly skutečné genové stromy generovány ze skutečného modelového stromu koalescentním procesem (podrobnosti zde použitého koalescentního modelu viz Ewing et al. [67]). To může mít za následek různé délky větví, ale také různé topologie. Druhový strom byl zakořeněn podle obrázku 2b. Z tohoto kořenového stromového stromu jsme simulovali genové stromy s různými koalescentními parametry. Koalescentní parametr θ byl použit ke generování nesourodých genových stromů s různým množstvím nesprávných větví. Čím větší θ„čím více nesouladu je způsobeno neúplným tříděním linií. např. θ = 0: 005 má za následek značnou nesoulad mezi genovými stromy: průměr normalizován RF vzdálenost mezi skutečným druhovým stromem a skutečnými genovými stromy je 22% (obrázek 8a).

Distribuce normalizovaných RF vzdáleností (500 simulací) pro nastavení simulace S, c, T 0:005, e a S, m, T 0:005, e. Simulace s genově specifickými stromy generovanými koalescentním procesem (θ = 0: 005) bez chyby rekonstrukce. Metody rané a střední úrovně nelze použít, protože nejsou k dispozici žádné simulované sekvence.

Nejprve zkoumáme výkonnost metod supertree v přítomnosti nesourodých genových stromů bez jakékoli chyby rekonstrukce. Na obrázku 8a vidíme, že metody maticové reprezentace mohou poměrně přesně odhadnout strom druhů v přítomnosti úplných dat, MRP_PU a MRF_PU poskytují nejlepší výsledky se střední chybou rekonstrukce 4,6%, respektive 4,7%. Metody maticové reprezentace v čele s MRF_PU (12,5%) jsou také nejlepšími metodami, když chybí data (obrázek 8b).

Neúplné třídění linií a rekonstrukce genových stromů (S, c, T θ , n a S, m, T θ , n)

Genové stromy z předchozí části jsou brány jako skutečné genové stromy. Kromě toho jsou simulovány sekvence a jsou odvozeny fylogenetie jako dříve. Chyba rekonstrukce se tedy přidá k chybě přítomné kvůli neúplnému třídění linií. Průměrná vzdálenost odvozených genových stromů k druhovému stromu je 32% (obrázek 9a). V případě úplných dat je tato vzdálenost snížena všemi metodami kromě QILI. Distribuce a střední vzdálenosti MRP_BR (8,7%), MRP_PU (9,1%), MRP I (10,5%), MRF_BR (8,9%), MRF_PU (8,6%), MRC (8,2%), MaxCut (11,7%), SuperQP (10%), AvCon (8,5%), SDM (8,5%) a SA (11,1%) jsou si velmi podobné. Rozdíly mezi metodami jsou tedy méně zřetelné. Průměrná vzdálenost superosazení je však nyní větší než průměrné vzdálenosti většiny metod.

Distribuce normalizovaných RF vzdáleností (500 simulací) pro nastavení simulace S, c, T 0:005, n a S, m, T 0:005, n. Simulace s genově specifickými stromy generovanými koalescentním procesem (θ = 0: 005). Skutečné genové stromy se rovnají stromům použitým na obrázku 8. Nyní jsou simulace zarovnání podél těchto stromů a ML stromy jsou rekonstruovány.

Důvodem může být malý počet genů (10) a různé délky sekvence (obrázek 2a). Více než 50% všech poloh v nadřazenosti pochází pouze ze tří genů. Odpovídající tři odvozené topologie genových stromů také ukazují nejmenší průměr RF-vzdálenosti stromu superosazení (čísla nejsou uvedena). Tyto tři geny tedy vedou hlavně k rekonstrukci superligmentu. Pokud jsou jejich genové stromy vzdáleny skutečnému druhovému stromu, odchyluje se také výsledek superosazení.

Metody jsme také testovali na nesourodých genových stromech spolu s chybějícími daty. To znamená, že byla použita stejná zarovnání, ale informace byla oříznuta podle obrázku 2a. Několik metod vykazuje nižší průměrnou přesnost než fylogeneze celého genu, konkrétně MinCut, ModMinCut, QILI a AvCon (obrázek 9b). MRP_BR (20,4%), MRP_PU (21,6%), MRP_I (21,1%), MRF_BR (21,7%) a MRF_PU (22,2%) stále v průměru překonávají superosazení (22,3%), ale rozdíl je okrajový.

Výše uvedené chování však není reprezentativní pro všechny stupně neúplného třídění linií. Na obrázku 10a vidíme, jak se průměrná normalizovaná vzdálenost RF skutečných genových stromů ke stromu skutečných druhů zvyšuje s θ. V důsledku toho se zvětšují i ​​vzdálenosti rekonstruovaných genových stromů. Na nízké úrovni θ (0,001-0,002), chyba rekonstrukce překračuje chybu zavedenou neúplným tříděním linií. V této oblasti parametrů pozorujeme čísla podobná obrázku 4, přičemž SA si v průměru vede lépe (obrázky nejsou zobrazeny). S velmi vysokou θ„Chyba zavedená neúplným tříděním linií je však větší než chyba rekonstrukce přidaná ke skutečným genovým stromům. V této oblasti parametrů pozorujeme, že MRP_BR mírně překonává SA (obrázek 10b). Zde se používá MRP_BR jako reprezentativní metoda supertree, která obvykle funguje dobře ve srovnání s jinými metodami.

Průměr a standardní odchylka RF vzdáleností s různými úrovněmi nesouladu. Výsledky skutečných a rekonstruovaných genových stromů jsou vypočítány z rozdělení středních vzdáleností všech simulací. Všimněte si, že θ nezvyšuje lineárně, ale posledním krokem je zdvojnásobení. Podrobné výsledky pro θ = 0 a θ = 0: 005 jsou zobrazeny na obrázku 4, respektive na obrázku 9. Byl použit různý počet simulačních replikátů: 500 pro θ = 0 a θ = 0: 005 a 200 pro zbývající nastavení.

Všimněte si, že v každém případě se standardní odchylky překrývají s průměrem konkurenční metody (obrázek 10b). Musíme však mít na paměti, že data jsou spárována, tj. Pro každou z 500 simulací s θ = 0, získáme jednu hodnotu vzdálenosti pro SA a jednu pro MRP_BR. Testovali jsme tedy nulovou hypotézu, že mediánový rozdíl v těchto párovaných vzdálenostech je 0 pomocí Wilcoxonova testu se znaménkovou hodností (tabulka 4). Výsledky uvedené v tabulce 4 podporují závěr, že SA je výrazně lepší v oblastech, kde převládá chyba způsobená fylogenetickou rekonstrukcí, zatímco MRP BR je výrazně lepší v oblastech, kde se skutečné genové stromy velmi liší. Pokud tedy chyba rekonstrukce dominuje chybě způsobené neúplným tříděním linií, je SA nejpřesnější metodou minimalizací stochastické chyby. Na druhou stranu, pokud je převládajícím zdrojem nesourodosti genových stromů neúplné třídění linií, je výhodné nejprve rekonstruovat stromy a poté použít metodu supertree. V případě vysokých neúplných efektů třídění linií je však přesnost všech metod rekonstrukce poměrně nízká. Obrázek 9 ukazuje, že asi 8% větví je nesprávně zrekonstruováno s úplnými daty a asi 20% s chybějícími daty pro nejlepší metody rekonstrukce.


Fylogenetická klasifikace

Ve století poté, co Linnaeus zveřejnil svůj systém klasifikace, se představy o klasifikaci organismů začaly měnit. V roce 1859 vydal Darwin své hlavní dílo o evoluci, O původu druhů přirozeným výběrem. Poté byl stále větší zájem o klasifikaci organismů, zahrnující evoluční historii, včetně genetických vztahů, organismů.

Fylogeneze

Evoluční historie skupiny geneticky příbuzných organismů se nazývá a fylogeneze. Zahrnuje druhy předků a potomků. Fylogeneze je obvykle reprezentována stromovým diagramem nazývaným a fylogenetický strom. Časným příkladem fylogenetického stromu je Darwinův „Strom života“ (viz obrázek 1). V tomto diagramu se Darwin pokoušel ukázat, jak si myslel, že došlo k evoluci. Strom ukazuje, jak se druhy vyvíjely v čase, od spodní části stromu k vrcholu. Jak se druhy vyvíjely, vytvářely na stromu života nové větve. Některé z těchto druhů se nakonec rozvětvaly na další potomkové druhy. Ostatní vymřeli nebo vyhynuli, aniž by zanechali potomky.

Obrázek 1: Darwinův strom života. Tento diagram větvení představuje evoluční historii různých druhů. Je to jediný diagram, který se původně objevil ve slavné Darwinově knize z roku 1859, O původu druhů přirozeným výběrem.

Moderní biologové stále používají fylogenetické stromy k reprezentaci evoluční historie. Jednoduchý fylogenetický strom je znázorněn na obrázku 2. Špičky větví představují geneticky příbuzné druhy. Rozvětvovací body představují společné předky. A společný předek je posledním předkovým druhem, který sdílely dva potomkové druhy, než se vydaly různými vývojovými cestami. Na stromě na obrázku 2 druhy 1 a 2 sdílely novějšího společného předka mezi sebou navzájem než s druhem 3. Druhy 1 a 2 jsou si tedy bližší než druh 3.

Obrázek 2: Fylogenetický strom. Tento fylogenetický strom ukazuje, jak jsou hypotetické druhy 1, 2 a 3 navzájem spojeny prostřednictvím společných předků.

Druhy předků jsou jako vaši vlastní předkové. Váš poslední společný předek se všemi sourozenci, které můžete mít, je sdílený rodič. Váš poslední společný předek s bratrancem je společný prarodič. Váš poslední společný předek s druhým bratrancem je společný prarodič. Obecně platí, že čím vzdálenější je vztah mezi vámi a příbuznými ve vaší vlastní generaci, tím dále jste v minulosti sdíleli společného předka. Totéž platí pro příbuzné druhy. Čím vzdálenější byl vztah mezi dvěma příbuznými druhy, tím dále v čase měli společného předka.

Nazývá se nejběžnější způsob začlenění informací do fylogenetických stromů kladistika. Cladistics zobrazuje hypotézy o tom, jak jsou organismy příbuzné, na základě vlastností předků a potomků. Cladistics byl vyvinut v 50. letech 20. století vědcem jménem Willi Hennig. Během několika příštích desetiletí se stal velmi populárním a je stále široce používán dodnes.

Termín kladistika pochází ze slova kladu. A kladu je skupina organismů, která zahrnuje předchůdce a všechny jeho potomky. Diagram ukazující evoluční vztahy v rámci jednoho nebo více kladů se nazývá a kladogram. Clade je relativní pojem. Jak definujete kladu, závisí na tom, které druhy máte zájem klasifikovat. Malé clades může zahrnovat jak málo jak dva druhy a jejich společný předek. Větší klady mohou zahrnovat mnohem více druhů a jejich společné předky.

Jako další příklad zvažte kladogram hmyzí fylogeneze ukázaný na obrázku 3.Podle tohoto kladogramu se brouci nejprve oddělili od společného předka s jiným hmyzem. Poté se rozdělila skupina zahrnující vosy, včely a mravence. Konečně se od jejich společného předka oddělily mouchy s motýly a můrami. Veškerý hmyz lze považovat za kladu, protože mají společného předka. Motýly, můry a mouchy lze také považovat za klad ze stejného důvodu. Můžete na obrázku 3 identifikovat další klady? Dokážete například najít kladu veškerého hmyzu bez brouků?

Obrázek 3: Cladogram hmyzí fylogeneze. Na základě tohoto kladogramu sdílely mouchy novějšího společného předka s motýly a můrami, než kterákoli skupina sdílela s jiným hmyzem. Jaké další evoluční vztahy odhalí kladogram?

Generování kladogramů

Jak vědci konstruují kladogramy, jako je ten na obrázku 4? Výchozím bodem je soubor údajů o vlastnostech skupiny příbuzných druhů. Znaky mohou být fyzické, genetické nebo obojí (viz Důkazy pro evoluční vztahy níže). Dalším krokem je rozhodnutí, které vlastnosti byly zděděny od společného předka a které vlastnosti se vyvinuly pouze u potomků po odtržení od společného předka. Rysy zděděné po společném předkovi se nazývají rysy předků. Rysy, které se vyvinuly, protože dvě skupiny sdílely společného předka, se nazývají odvozené vlastnosti a oba typy vlastností jsou znázorněny na obrázku 4.

Obrázek 4: Rodové a odvozené znaky v kladistické analýze. V tomto cladogramu mají předkové druhy znaky A, B a C, takže se jedná o rodové rysy. Během procesu evoluce se znak A vyvíjí na znak a a znak B se vyvíjí na znak b. Tyto nové vlastnosti (a a b) jsou odvozené vlastnosti. Organismy lze na základě těchto odvozených vlastností klasifikovat do samostatných skupin (druhy č. 1 nebo druhy č. 2).

Zvažte ptáky jako příklad. Odvozenou vlastností u ptáků je peří. Znak je přítomen pouze u ptáků a nebyl zděděn od společného předka ptáků a jiných organismů. Příkladem vlastností předků u ptáků je přítomnost očí. Oči jsou přítomny nejen u ptáků, ale také u mnoha dalších skupin zvířat, která mají s ptáky společného předka. Přítomnost peří tedy může identifikovat organismus jako ptáka, ale přítomnost očí nikoli. V kladistice je sdílení odvozených vlastností nejdůležitějším důkazem evolučních vztahů. Organismy se stejnými odvozenými vlastnostmi (například peří) jsou seskupeny do stejného kladu.

Odvozená vlastnost není nutně zcela novou vlastností. Častěji se jedná o upravenou formu znaku předků. Ptáci například vyvinuli peří z šupin, které již byly přítomny u jejich předka plazů. Podobně se u savců vyvinula srst z šupin jejich předka plazů.

Ze stejné sady dat lze obvykle vytvořit více než jeden možný kladogram. Ve skutečnosti počet možných kladogramů exponenciálně roste s počtem druhů zahrnutých do analýzy. U dvou druhů je možný pouze jeden kladogram. U pěti druhů je možné více než 100 kladogramů. S devíti druhy jsou možné více než dva miliony kladogramů! Obrázek 5 ukazuje pouze šest z mnoha možných kladogramů, které lze generovat pro pět druhů.

Obrázek 5: Šest možných kladogramů pro pět hypotetických druhů. Stejný soubor údajů o pěti příbuzných druzích může generovat více než 100 možných kladogramů. Je zde ukázáno jen šest. V kladogramu 1 (nahoře, vlevo) sdílejí D a E novějšího společného předka, než který sdílí s C. V kladogramu 2 (nahoře, uprostřed) sdílejí C a D novějšího společného předka, než který sdílí s E. Srovnejte, jak každý ze zbývajících kladogramů se liší od ostatních.

Jak vědci vědí, který z mnoha možných kladogramů je ten „správný“? Neexistuje žádný správný nebo špatný kladogram. Některé cladogramy však odpovídají skutečnosti lépe než jiné. Statistické metody lze použít k určení, který kladogram nejlépe vyhovuje konkrétní sadě dat. Důležitým rozhodujícím faktorem je šetrnost. Šetrnost znamená vybrat ze všech možných vysvětlení nejjednodušší vysvětlení. V kladistice znamená šetrnost obvykle výběr kladogramu s nejmenším počtem bodů větvení.

Cladogram ukazuje jen jednu z mnoha možných fylogenií pro skupinu organismů. Může poskytnout přehled o tom, jak došlo k evoluci. Cladogram by však neměl být považován za model skutečných evolučních událostí. Neznamená to nutně, co se skutečně stalo. To jen ukazuje, co se mohlo stát.

Fylogenetická klasifikace

Cladogram ukazuje, jak mohou být druhy příbuzné sestupem ze společného předka. Klasifikace organismů na základě takových vztahů se nazývá a fylogenetická klasifikace. Fylogenetická klasifikace zahrnuje umístění organismů do kladu se společným předkem. Zvažte kladogram na obrázku 6. Seskupuje ptáky ve stejném kladu jako plazi, protože řada důkazů naznačuje, že ptáci se vyvinuli z předka plazů. Cladogram umístí savce do samostatné kladu, protože důkazy naznačují, že savci se vyvinuli z jiného předka.

Obrázek 6: Cladogram plazů, ptáků a savců. Tento cladogram představuje evoluční historii plazů, ptáků a savců. Plazový kladu zahrnuje ptáky. Savci jsou v samostatném kladu.

Obrázek 7 ukazuje fylogenetickou klasifikaci plazů, ptáků a savců podle kladogramu na obrázku 6. Ptáci jsou seskupeni s plazy v jednom kladu, nazývaném Sauropsids. Savci a jejich předci podobní plazům jsou seskupeni do samostatného kladu, který se nazývá Synapsids. Porovnejte tuto fylogenetickou klasifikaci s linnaeanskou klasifikací, která je také uvedena na obrázku 7. V linnaenské klasifikaci jsou plazi, ptáci a savci zařazeni do samostatných tříd na základě rozdílů ve fyzických vlastnostech. Tato klasifikace uměle odděluje ptáky i savce od jejich plazích předků. Také to ilustruje obtížnost ukázání evolučních vztahů s lineánskou taxonomií.

Obrázek 7: Kladistická klasifikace vpravo předpokládá, že savci a ptáci se vyvinuli z různých předků plazů. Savci jsou umístěni v jednom kladu a ptáci jsou umístěni v jiném kladu (s moderními plazy). Porovnejte tuto klasifikaci s linnaeanskou klasifikací vlevo. Proč jsou ptáci a plazi zařazeni do oddělených tříd v linonské taxonomii?

Fylogenetické a linnéské klasifikace plazů, ptáků a savců

Jak fylogenetické, tak linnaovské klasifikační systémy mají výhody i nevýhody (viz bodové srovnání ve dvou seznamech níže). Jako celkový přístup si většina biologů myslí, že je vhodnější fylogenetická klasifikace než lineární klasifikace. Je to proto, že je založeno na evolučních vztazích a ne jen na podobnostech ve fyzických rysech, které mohou, ale nemusí mít evoluční význam. Oba přístupy však mají v klasifikaci organismů své místo. Linnaean binomická jména jsou stále potřebná k identifikaci druhů, protože fylogenetika nezahrnuje způsob pojmenování druhů. Ve fylogenetických klasifikacích navíc zůstává mnoho vyšších taxonů v systému Linnaean, jako jsou ptáci a savci, užitečné. Je to proto, že jsou také klady.

Fylogenetická klasifikace

  1. Zachází se všemi úrovněmi kladogramu jako s ekvivalentem.
  2. Neomezuje počet úrovní v ladogramu.
  3. Primárním cílem je ukázat proces evoluce.
  4. Omezuje se na organismy, které jsou příbuzné podle původu.
  5. Nezahrnuje metodu pojmenování druhů.

Linnaeanova klasifikace

  1. Zachází s každým taxonem jedinečně a má zvláštní název nebo každý (např. Rod, druh).
  2. Má pevná čísla a typy taxonů.
  3. Primárním cílem je seskupit druhy na základě podobností ve fyzických rysech.
  4. Může zahrnovat jakékoli organismy bez ohledu na původ.
  5. Má metodu pro přidělování jedinečných jmen druhům.

Fenetika je starší metoda klasifikace organismů. Fenetika je založena na celkové podobnosti, obvykle v morfologii nebo jiných pozorovatelných rysech, bez ohledu na jejich evoluční vztah. Fenetika byla do značné míry nahrazena kladistikou pro výzkum evolučních vztahů mezi druhy. Fenetické techniky zahrnují různé formy shlukování a ordinaci vlastností. Jedná se o sofistikované způsoby, jak snížit variabilitu zobrazovanou organismy na zvládnutelnou úroveň. Fenetické analýzy nerozlišují mezi rysy, které jsou zděděny po předchůdci, a rysy, které se vyvinuly nově v jedné nebo několika liniích. V důsledku toho mohou být fenetické analýzy uváděny v omyl konvergentní evolucí a adaptivním zářením.

Důkazy pro evoluční vztahy

Důkazy pro evoluční vztahy tradičně zahrnovaly podobnosti ve fyzických rysech formy nebo funkce. Například v lineární taxonomii je homeotermie (teplokrevnost) jedním ze znaků používaných k oddělení ptáků a savců od jiných zvířat (viz obrázek 7). Tento rys však není vhodný k zobrazení evolučních vztahů mezi ptáky a savci. Důvodem je, že ptáci a savci nedědili rys homeotermie od společného předka. Obě skupiny nezávisle vyvinuly rys. Přítomnost homeotermie u ptáků i savců je příkladem konvergentní evoluce. Obecně může konvergentní evoluce způsobit, že se dvě skupiny budou zdát těsnější, než ve skutečnosti jsou. Použití takových vlastností pro fylogenetickou analýzu může vést k zavádějící fylogenetické klasifikaci.

Podobnosti mezi sekvencemi bází nukleových kyselin poskytují některé z nejpřímějších důkazů o evolučních vztazích. Nukleové kyseliny přímo kontrolují genetické vlastnosti a kopie nukleových kyselin se ve skutečnosti předávají z rodičů na potomky. Podobnosti v těchto rysech proto pravděpodobně budou odrážet sdílené předky. V šedesátých letech minulého století našli vědci způsoby, jak sekvence bází v nukleových kyselinách. To se shodovalo s rostoucí popularitou kladistiky. Při kladistické analýze se předpokládá, že podobné sekvence bází nukleových kyselin naznačují původ ze společného předka. Čím podobnější jsou sekvence, tím více se v poslední době předpokládá, že dvě skupiny mají společného předka.

Mnoho srovnání sekvence bází potvrdilo genetické vztahy, které byly předpokládány na základě podobností ve fyzických rysech. Například 96 procent DNA u lidí a šimpanzů je stejných. To obecně souhlasí s linnaeanskou klasifikací šimpanzů jako blízkých lidských příbuzných.

Většina biologů, kteří se zajímají o taxonomii, nyní ke klasifikaci organismů používá sekvence nukleových kyselin nebo jiná související molekulární data. Použití sekvencí bází nukleových kyselin pro fylogenetickou analýzu však není bez nevýhod. Dvě z nevýhod jsou:

• Údaje o nukleových kyselinách lze zřídka získat pro vyhynulé druhy. To platí i pro druhy zastoupené zkamenělinami. Fosilní DNA a RNA obecně nepostačují v množství nebo kvalitě, aby byly užitečné pro takové analýzy.

• Data sekvence bází mohou být ovlivněna horizontálním přenosem genů. K tomu dochází, když organismus předává DNA nepříbuznému organismu. Poprvé objeven v bakteriích v roce 1959, nyní je známo, že je běžný v bakteriích a některých dalších mikroorganismech. Horizontální přenos genů může způsobit, že druhy vypadají těsněji příbuzné, než ve skutečnosti jsou.

Kvůli horizontálnímu přenosu genů začali někteří biologové pochybovat, zda jsou fylogenetické stromy nejlepším způsobem, jak ukázat evoluční vztahy. To platí zejména pro ty biology, kteří se zajímají o klasifikaci bakterií. Aby mohl být zahrnut horizontální přenos genů, může být zapotřebí zcela nový proces určování evolučních vztahů.


DŮSLEDKY NA VÝCHOVU BIOLOGICKÉHO PODŽÁKU

Hodnocení je proces hodnocení důkazů o učení studentů s ohledem na konkrétní cíle učení. Ukázalo se, že metody hodnocení výrazně ovlivňují studijní návyky studentů (Entwistle a Entwistle, 1992). Souhlasíme s dalšími pedagogy, kteří tvrdili, že v procesu vytváření kurzu je hodnocení na druhém místě za stanovením cílů učení kurzu pro vedení kurzu (Wiggins a McTighe, 1998 Palomba a Banta, 1999 Pellegrino a kol., 2001 Fink, 2003). Ačkoli mnoho fakult stanoví studijní cíle pro své kurzy, často se potýkají s tím, jak vyhodnotit, zda jejich formativní a sumativní metody hodnocení skutečně měří úspěch studentů při dosahování těchto cílů.

Většina fakult by souhlasila s tím, že bychom měli učit a testovat studenty na vyšší kognitivní schopnosti. Když však fakulta absolvuje školení o tom, jak používat Bloom's a procvičovat hodnocení vlastních zkoušek, často si uvědomí, že většina jejich testovacích otázek je na nižších úrovních Bloom's. Například na celostátním setkání pro bakalářské biologické vzdělávání 97% fakulty, kteří se zúčastnili (n = 37) a obdrželi formální přednášku o používání Bloomových otázek k hodnocení otázek ke zkoušce, souhlasilo s tím, že pouze 25% jejich testovacích otázek bylo testováno na vyšší řád kognitivní schopnosti (nepublikovaná data). Většinu času proto nemusíme testovat nebo poskytovat studentům dostatek praxe v používání dovedností v oblasti obsahu a vědeckých procesů na vyšších kognitivních úrovních, přestože je naším cílem zvládnout materiál na všech úrovních. Jedním z vysvětlení této nesrovnalosti může být to, že biologická fakulta nedostala nástroje a pokyny, které by jim pomohly lépe sladit výuku s hodnocením učení studentů. Aby se tento bod dále zdůraznil, analýza testových otázek z kurzů lékařské fakulty, která by měla být zaměřena na rozvoj HOCS (Whitcomb, 2006), místo toho převážně testuje na nižších kognitivních úrovních (Zheng a kol., 2008).

Rozvoj silných metod hodnocení je náročný úkol a na podporu fakulty v tomto úsilí byly přiděleny omezené zdroje. Navíc vzhledem k současnému trendu zvyšování velikosti třídy a snižování podpory asistenta pedagoga se zkoušky s výběrem odpovědí stávají nejpraktičtější metodou hodnocení. Proto je pro fakultu stále důležitější investovat čas nezbytný k vytvoření otázek ke zkoušce s výběrem odpovědí, které testují na vyšších úrovních Bloom's (Brady, 2005), a také k rozvoji integrativních testovacích přístupů, jako je požadavek, aby studenti své odpovědi zdůvodnili malá podmnožina otázek s výběrem odpovědí (Udovic, 1996 Montepare, 2005). Abychom však mohli přesně změřit výkon studentů, důrazně doporučujeme, aby fakulta zahrnovala otázky s krátkými esejemi nebo jiné typy otázek, které testují HOCS u jejich zkoušek. Tento posun v hodnotící praxi může vyžadovat dodatečnou výukovou podporu od oddělení a správ, ale věříme, že je to velmi důležité pro kognitivní rozvoj našich studentů.

Naším cílem při vývoji BBT bylo vytvořit hodnotící nástroj pro použití biologickou fakultou i studenty. Abychom tento proces dále usnadnili, vytvořili jsme různorodou řadu příkladů zaměřených na biologii, včetně specifických dovedností (např. Grafů) a subdisciplinárního obsahu (např. Fyziologie), se kterými se studenti biologie obvykle setkávají. Tyto příklady ve spojení s BBT jsou navrženy tak, aby pomohly biologům při charakterizaci otázek podle jejich relativní kognitivní výzvy, a proto vyvíjejí metody hodnocení, které jsou více v souladu s učebními cíly instruktora. BBT lze také použít ve spojení s BLASt, aby pomohl studentům samostatně diagnostikovat jejich problémy s učením a vyvinout nové strategie k posílení jejich schopností kritického myšlení.

Naše implementace zdokonalené výuky a učení BBT v široké škále výukových prostředí. Pomocí BBT jsme byli schopni identifikovat kognitivní úrovně učební činnosti, se kterými studenti nejvíce bojují, a podle toho upravit naše výukové postupy. BBT nám také pomohlo vytvořit pedagogickou transparentnost a zlepšit metakognici studentů. Jako vždy dochází k kompromisu, když se čas ve třídě používá k rozvoji metakognitivních dovedností, na rozdíl od soustředění se výhradně na obsah kurzu. V našich implementačních strategiích BBT založených na studentech byla Bloomova taxonomie plně integrována do předmětu (např. Navrhování otázek ke zkoušce na různých úrovních Bloom). Neoficiální důkazy našich studentů naznačují, že nadále používají Bloom's k vedení jejich strategie učení v budoucích třídách. Vzhledem k našim zkušenostem a dobře zdokumentované důležitosti metakognice při učení studentů ve všech oborech, včetně přírodních věd (Schraw, 1998 Bransford a kol., 2000 Pintrich, 2002 D'Avanzo, 2003 Coutinho, 2007), uvažujeme o potenciálních přínosech, které mohou studenti získat učením Blooma, daleko převažovat nad důsledky minimálního snižování obsahu kurzu.

Předpokládáme, že BBT by mohlo fakultě pomoci vytvářet biologické otázky na příslušných kognitivních úrovních a tímto způsobem poskytnout fakultě prostředky k (1) posouzení zvládnutí biologického obsahu a dovedností studentů a (2) k lepšímu sladění jejich hodnocení a cílů učení. Věříme, že využití BBT na fakultě i studentech pomůže studentům dosáhnout hlubšího porozumění pojmům a dovednostem, které jsou nutné k tomu, aby se stali úspěšnými biology. V širším měřítku by BBT mohl pomoci při vývoji nástrojů pro hodnocení biologie, které by pak mohly být použity ke zkoumání úrovní akademických výzev mezi různými typy standardizovaných zkoušek z věd o živé přírodě a k usnadnění oddělení a interinstitucionálního srovnávání vysokoškolských kurzů biologie.


Podívejte se na video: OBROVSKÉ SROVNÁNÍ CHIPSŮ! (Listopad 2021).