Genóm ciroku bicolor a diverzifikácia tráv príroda

Genóm ciroku bicolor a diverzifikácia tráv príroda

Anonim

abstraktné

Čirok, africká tráva súvisiaca s cukrovou trstinou a kukuricou, sa pestuje ako potrava, krmivo, vláknina a palivo. Uvádzame počiatočnú analýzu moenchenomu gh 730-megabázy Sorghum bicolor (L.), ktorý umiestňuje asi 98% génov do ich chromozomálneho kontextu s použitím genómovej brokovej sekvencie overenej genetickými, fyzikálnymi a syntenickými informáciami. Genetická rekombinácia je do značnej miery obmedzená na asi jednu tretinu genómu ciroku s génovým poradím a hustotou podobnou ako u ryže. Hromadenie retrotranspozónu v rekombinantne recalcitujúcom heterochromatíne vysvetľuje ~ 75% väčšiu veľkosť genómu ciroku v porovnaní s ryžou. Hoci sa distribúcia génov a repetitívnych DNA zachovala od paleopyloidizácie pred million 70 miliónmi rokov, väčšina duplikovaných génových súborov stratila jedného člena pred divergenciou ciroku a ryže. Spoločná evolúcia spôsobuje, že jeden duplikovaný chromozomálny segment sa zdá byť starý iba niekoľko miliónov rokov. Asi 24% génov je špecifických pre trávu a 7% pre cirok. Nedávna duplikácia génov a mikroRNA môže prispieť k tolerancii sucha ciroku.

Hlavné

Rastliny Saccharinae zahŕňajú niektoré z najúčinnejších akumulátorov biomasy, ktoré poskytujú jedlo a palivo zo škrobu (cirok) a cukru (cirok a Saccharum , cukrová trstina) a majú potenciál na použitie ako celulózové plodiny biopalív (cirok, cukrová trstina, Miscanthus ). Mimoriadny význam pre produktivitu Sacchariny je fotosyntéza C4, ktorá obsahuje biochemické a morfologické špecializácie, ktoré zvyšujú asimiláciu uhlíka pri vysokých teplotách 1 . Napriek ich bežnej fotosyntetickej stratégii vykazujú Saccharinae veľa morfologických a genomických variácií (doplnkový obrázok 1).

Vďaka svojmu malému genómu (30 730 Mb) je cirok atraktívnym modelom pre funkčnú genomiku Saccharinae a ďalších tráv s C4 . Ryža, prvý plne sekvenovaný obilný genóm, je reprezentatívnejšia pre fotosyntetické trávy C3. Tolerancia sucha robí cirok zvlášť dôležitým v suchých oblastiach, ako je severovýchodná Afrika (centrum rozmanitosti) a južná nížina Spojených štátov. Genetická variabilita v rozdelení uhlíka na zásoby cukru v porovnaní s hmotou bunkových stien a trvalkami a súvisiacimi vlastnosťami, ako je obrábanie pôdy a zadržiavanie stoniek 2, robia z ciroku atraktívny systém na štúdium vlastností dôležitých v trvalých celulózových plodinách z biomasy. Vďaka vysokej úrovni inbrídingu je tento systém atraktívnym asociovaným genetickým systémom 3 . Transgénne prístupy k zlepšeniu ciroku sú obmedzené vysokým tokom génov k príbuzným burín 4, čím je dôležitejšie poznať jeho vnútorný genetický potenciál.

Rekonštrukcia genómu bohatého na opakovanie z brokovníc

Výhodnými prístupmi k sekvencovaniu celých genómov je v súčasnosti použitie brokovnice 5, a to buď na minimálnu „dráhu obkladu“ genómových klonov alebo priamo na genomickú DNA. Posledne menovaný prístup, sekvenovanie brokoviek z celého genómu (WGS), sa široko používa pre cicavčie genómy, pretože je rýchly, relatívne ekonomický a znižuje klonovanie. Jeho uplatniteľnosť však bola spochybnená pre opakujúce sa rastlinné genómy bohaté na DNA 6 .

Napriek opakovanému obsahu - 61%, bola vysoko kvalitná genómová sekvencia zostavená z homozygotného cirokového genotypu BTx623 s použitím WGS a začlenením nasledujúceho: (1) - 8, 5 genómového ekvivalentu párovaných snímok 7 z genomických knižníc prekračujúcich ~ 100 -násobný rozsah veľkostí vložiek (doplnková tabuľka 1), rozlíšenie mnohých opakujúcich sa oblastí; a (2) spriemerovanie vysokokvalitnej čítacej dĺžky 723 bp, uľahčujúce zostavenie. Porovnanie s 27 hotovými bakteriálnymi umelými chromozómami (BAC) ukázalo, že zostava WGS bola> 98, 46% kompletná a presná na <1 chybu na 10 kb (doplnková poznámka 2.5).

V porovnaní s genetickou mapou 8 s vysokou hustotou 8, fyzikálna mapa 9 založená na kontakte odtlačkov prstov (FPC) a sekvencia ryže 6 zlepšili zostavu ciroku WGS (doplnkové poznámky 1 a 2). Medzi 201 najväčšími lešeniami (s rozpätím 678, 9 Mb, 97, 3% zostavy) 28 vykazovalo nezrovnalosti s dvoma alebo viacerými z týchto dôkazových línií (doplnková poznámka 2.6), často blízko opakujúcich sa prvkov. Po rozbití zostavy v miestach nesúladu má výsledných 229 lešení N50 (počet lešení, ktoré spoločne pokrývajú aspoň 50% zostavy) 35 a L50 (dĺžka najkratšieho lešenia z tých, ktoré spoločne pokrývajú 50% z zostava) 7, 0 Mb. Celkom 38 (2%) z 1 869 FPC kontignov 9 bolo považovaných za chybné, obsahujúce> 5 BAC koncov, ktoré spadali do rôznych sekvenčných skafoldov.

Celkom 127 skafoldov obsahujúcich 625, 7 Mb (89, 7%) DNA a 1 476 FPC kontigov bolo možné priradiť k chromozomálnym umiestneniam a orientovať sa. Pätnásť z dvadsiatich chromozómových koncov bolo ukončených telomerickými opakovaniami. Ďalších 102 skafoldov bolo vo všeobecnosti menších (53, 2 Mb, 7, 6%), pričom 85 (83%) obsahovalo oveľa vyššiu priemernú absenciu centromerickej repetície Cen38 (ref. 10) a iba s 374 predpovedanými génmi. Týchto 102 skafoldov zlúčilo iba 193 FPC kontigov, pravdepodobne kvôli väčšiemu množstvu opakovaní, ktoré sú pre fyzikálne mapovanie založené na klonoch 9 nevhodné, a pri prístupoch BAC-by-BAC sa môžu vynechať 11 .

Vývoj veľkosti genómu a jeho príčiny

O 75% väčšie množstvo DNA v genóme ciroku v porovnaní s ryžou je väčšinou heterochromatín. Zosúladenie s genetickými 8 a cytologickými mapami 12 naznačuje, že cirok a ryža majú podobné množstvá euchromatínu (252 a 309 Mb, v tomto poradí; doplnková tabuľka 7), čo predstavuje 97 - 98% rekombinácie (1 025, 2 cM, respektíve 1 496, 5 cM) a 75, 4 –94, 2% génov v príslušných obilninách s prevažne kolineárnym poradím génov 9 . Naproti tomu heterochromatín ciroku zaberá najmenej 460 Mb (62%), oveľa viac ako v ryži (63 Mb, 15%). Expanzia ∼ 3 × genómu v kukurici od jej odklonenia od ciroku 13 bola viac rozptýlená - rekombinogénna DNA vzrástla o 4, 5 × na 1 382 Mb, čo je oveľa viac, ako je možné vysvetliť duplikáciou genómu 14 .

Rozšírenie čistej veľkosti genómu ciroku v porovnaní s ryžou do značnej miery zahŕňalo retrotranspozóny s dlhou terminálnou repetíciou (LTR). Genom ciroku obsahuje 55% retrotranspozónov, medziproduktov medzi väčším genómom kukurice (79%) a menším ryžovým genómom (26%). Čirok sa viac podobá ryži tým, že má vyšší pomer cigánskych a kopiálnych prvkov (3, 7 až 1 a 4, 9 až 1) ako kukurica (1, 6 až 1: doplnková tabuľka 10).

Hoci nedávna retroelementová aktivita je široko distribuovaná v genóme ciroku, obrat je rýchly (ako v prípade iných obilnín 15 ) s pericentromerickými prvkami pretrvávajúcimi dlhšie. Mladé inzercie LTR retrotranspozónu (pred <0, 01 miliónmi rokov (Myr)) sa objavujú náhodne rozdelené pozdĺž chromozómov, čo naznačuje, že sú prednostne eliminované z oblastí bohatých na gény 9, ale hromadia sa v oblastiach chudobných na gény (obr. 1; pozri tiež doplnkovú poznámku 3.1)., Vkladacie časy naznačujú hlavnú vlnu opakovaného umiestnenia <pred 1 myr, po menšej vlne 1 - 2 myr (doplnkový obrázok 2).

Image

Plošné grafy kvantifikujú retrotranspozóny (55%), gény (6% exóny, 8% intróny), DNA transpozóny (7%) a centromerické repetície (2%). Čiary medzi chromozómami 3 a 9 spájajú kolineárne duplikované gény. Mapy tepelnej mapy podrobne opisujú distribúciu vybraných prvkov. Hodnoty všetkých chromozómov ciroku sú uvedené v doplnkovej poznámke 3. Cen38, centromerické opakovanie 10 špecifické pre cirok; RT, retrotranspozóny (trieda I); LTR-RT, dlhé terminálne opakované retrotranspozóny; DNA-TEs, DNA transpozóny (trieda II).

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Zdá sa, že prvky podobné CACTA, prevládajúce transpozóny ciroku DNA (4, 7% genómu), premiestňujú gény a fragmenty génov, rovnako ako ryža „Pack-MULE“ 16 a kukuričné ​​helitóny 17 . Mnoho prvkov ciroku CACTA je neautonómnymi delečnými derivátmi, v ktorých boli transpozónové gény nahradené netranspozónovou DNA zahŕňajúcou exóny z jedného alebo viacerých bunkových génov, ako je uvedené v skupine G118 (obr. 2). Spomedzi 13 775 identifikovaných prvkov CACTA (doplnková poznámka 3.4) 200 nekóduje žiadne transpozónové proteíny, ale obsahuje najmenej jeden fragment bunkového génu.

Image

Rodina CACTA G118 má iba jeden úplný a pravdepodobne samostatný autonómny prvok „matka“. Medzi 18 delečnými derivátmi sú konzervované iba terminálne 500 - 2500 bp, pričom 8 interných fragmentov nesie génové fragmenty. Jedna relatívne homogénna podskupina (106, 111 a 112) pravdepodobne vznikla nedávno, zatiaľ čo iné deriváty sú jedinečné. Miesta prístupov k známym ryžovým proteínom sú označené ako farebné škatule. Opis fragmentov cudzieho génu je uvedený pod rámčekmi. HP, hypotetický proteín.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Celkovo tvoria DNA transpozóny 7, 5% genómu ciroku, medziprodukty medzi kukuricou (2, 7%) a ryžou (13, 7%; doplnková tabuľka 10). Miniatúrne invertované a opakovateľné transponovateľné prvky, 1, 7% genómu, sú asociované s génmi (obr. 1; pozri tiež doplnkovú poznámku 3) ako v iných obilninách 6 . Helitrony, ∼ 0, 8% genómu, takmer všetky nemajú helikázu v ciroku ako v kukurici 17, ale v ciroku nesú menej fragmentov génu ako kukurica (doplnková poznámka 3.5). Organelárna inzercia DNA prispela k jadrovému genómu ciroku iba 0, 085%, čo je oveľa menej ako 0, 53% ryže (doplnková poznámka 2.7).

Génový doplnok ciroku

Medzi 34 496 génovými modelmi ciroku sme našli ∼ 27 640 génov kódujúcich proteín v dobrej viere kombináciou metód predpovedania génov založených na homológii a ab initio s exprimovanými sekvenciami z ciroku, kukurice a cukrovej trstiny (doplnková poznámka 4). Dôkazy o alternatívnom spájaní sa nachádzajú v 1 491 lokusoch.

Ďalších 5 197 génových modelov je obvykle kratších ako gény bona fide (často <150 aminokyselín); mať málo exónov (často jeden) a bez podpory expresie exprimovanej sekvencie (EST) (v porovnaní s 85% pre gény bona fide); sú viac odlišné od ryžových génov; a často sa vyskytujú vo veľkých rodinách s „hypotetickými“, „necharakterizovanými“ a / alebo anotáciami súvisiacimi s retroelementom, a to napriek opakovanému maskovaniu (doplnková poznámka 4). Vysoká koncentrácia v pericentromerických oblastiach, kde gény bona fide sú vzácne (obr. 1), naznačuje, že mnohé z týchto génových modelov s nízkou spoľahlivosťou sú odvodené od retroelementu. Identifikovali sme tiež 727 spracovaných pseudogénov a 932 modelov obsahujúcich domény známe iba z transpozónov.

Distribúcie veľkostí exónov ortológnych génov ciroku a ryže sa úzko zhodujú a poloha a fáza intrónu vykazujú> 98% zhodu (doplnková poznámka 5). Medzi cirokom a ryžou sa zachovala veľkosť intrónu, aj keď v dôsledku transpozície sa zvýšila kukurica 18 .

Väčšina paralogov v ciroku je proximálne duplikovaná, vrátane 5 303 génov v 1 947 rodinách ≥ 2 génov (doplnková poznámka 4.3). Najdlhšia skupina tandemových génov je 15 génov cytochrómu P450. Medzi ďalšie expanzie tandemových génov špecifických pre cirok patria halogénkyseliny podobné dehalogenázovým halogénom (PF00702), opakovania FNIP (PF05725) a proteíny samčej sterility (PF03015).

Potvrdili sme genomické polohy 67 známych cirokových mikroRNA (miRNA) a identifikovali sme 82 ďalších miRNA (doplnková poznámka 4.4). Päť zhlukov umiestnených do 500 bp od seba predstavuje predpokladané polycistronické miRNA, podobné tým v Arabidopsis a Oryza . Prírodné antisense miRNA prekurzory (nat-miRNA) rodiny miR444 (ref. 19) boli identifikované v troch kópiách.

Porovnávacie génové zásoby angiospermov

Počet a veľkosť rodín génov ciroku sú podobné ako v prípade Arabidopsis , ryže a topoľa (obrázok 3 a doplnková poznámka 4.6). Celkovo 9 503 (58%) génových rodín ciroku bolo zdieľaných medzi všetkými štyrmi druhmi a 15 225 (93%) s aspoň jedným ďalším druhom. Takmer 94% (25 875) génov ciroku s vysokou spoľahlivosťou má pravopis v ryži, Arabidopsis a / alebo topoľoch a tieto génové komplementy spoločne definujú 11 502 rodových génov rodín angiospermu zastúpených aspoň v jednom súčasnom trávnikovom a rosidovom genóme. Avšak 3 983 (24%) génových rodín má členov iba v ciroku tráv a ryži; 1, 153 (7%) sa javí ako jedinečné pre cirok.

Image

Počet génových rodín (zhlukov) a celkový počet klastrových génov sú uvedené pre každý priesečník druhov a druhov.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Domény Pfam, ktoré sú nadmerne zastúpené, nedostatočne zastúpené alebo dokonca neprítomné v ciroku v porovnaní s ryžou, topoľom a Arabidopsis , môžu odrážať biologické zvláštnosti špecifické pre líniu ciroku (doplnková tabuľka 20). Domény nadmerne zastúpené v ciroku sú zvyčajne prítomné v iných organizmoch, pozoruhodnou výnimkou je doména a-kafirínu, ktorá zodpovedá za väčšinu proteínov na uchovávanie semien a zodpovedá kukuričným zeinom 20, ktoré však nie sú prítomné v ryži.

Proteíny obsahujúce väzbu na nukleotidy - proteíny bohaté na leucín (NBS-LRR), ktoré sú asociované s rastlinným imunitným systémom, sú v ciroku ako v ryži iba asi polovičné. Hľadanie 12 publikovaných domén NBS z uverejnených génových sekvencií ryže, kukurice, pšenice a Arabidopsis odhalilo 211 génov kódujúcich NBS-LRR v ciroku, 410 v ryži a 149 v Arabidopsis 21 . Gény ciroku NBS-LRR väčšinou kódujú CC typ N-terminálnych domén. Iba dva gény ciroku (Sb02g005860 a Sb02g036630) obsahujú doménu TIR a žiadny z nich neobsahuje doménu NBS. Gény NBS-LRR sa vyskytujú najčastejšie na cirokovom chromozóme 5 (62) a jeho homológe z ryže (chromozóm 11, 106). Obohatenie génov NBS-LRR v týchto zodpovedajúcich genómových oblastiach naznačuje zachovanie polohy génov R, na rozdiel od toho, že pohyb génov R môže byť výhodný22.

Vývoj charakteristických ciest a procesov

Vývoj fotosyntézy C4 v línii ciroku zahŕňal presmerovanie progenitorových génov C3, ako aj nábor a funkčnú divergenciu starodávnych aj nedávnych génových duplikátov. Jediný cirok C4 pyruvát orthofosfát dikináza ( ppdk ) a gén fosfoenolpyruvátkarboxylázy kinázy ( ppck ) a jeho dve izoformy (produkované duplikáciou celého genómu) majú v ryži iba jeden pravý ortológ. Ďalšie duplikáty vytvorené v kukurici po rozdelení ciroku a kukurice ( Zmppck 2 a Zmppck 3). Gén pre jablčný enzým ( me ) závislý od C4 NADP má susednú izoformu, ale každá zodpovedá inému homológu kukurice, čo naznačuje tandemovú duplikáciu pred rozdelením ciroku a kukurice. Gén C4 malát dehydrogenázy ( mdh ) a jeho izoforma sú tiež susediace, ale zdieľajú 97% aminokyselinovú podobnosť a zodpovedajú jedinému známemu génu Mdh kukurice, čo naznačuje tandemovú duplikáciu v ciroku po jeho rozdelení na kukuricu. Gény ryže Me a Mdh sú jedinou kópiou, čo naznačuje duplikáciu a nábor na cestu C4 po divergencii Panicoideae – Oryzoideae (doplnková poznámka 9).

Sekvencia ciroku posilňuje závery skôr založené iba na ryži, o tom, ako sa rôzne inventúry génov trávy a dikotyledónu týkajú ich príslušných typov bunkových stien 23, 24 . V trávach sa celulózové mikrofibrily potiahnuté zmiešanou väzbou (1 → 3), (1 → 4) -β-d-glukány preplietajú glukuronoarabinoxylánmi a rozsiahlym komplexom fenylpropanoidov 25 . Sekvencia ciroku do značnej miery potvrdzuje rozdiely medzi dikotyledónmi a ryžou v distribúcii génov biogenézy bunkovej steny (doplnková poznámka 10). Napríklad superrodina CesA / Csl a syntázy kalózy sa buď divergovali, aby vytvorili nové podskupiny, alebo sa selektívne stratili funkčne nepodstatné podskupiny, ako napríklad CslB a CslG stratené z tráv, a CslF a CslH stratené z druhov s bunkami podobnými dikotyledónom. steny 26 . Doteraz v ryži jedinečné gény CslF a CslH sú prítomné v ciroku. Arabidopsis obsahuje gén jednej skupiny F GT31, zatiaľ čo cirok a ryža obsahujú šesť a desať génov.

Charakteristická adaptácia ciroku na sucho môže čiastočne súvisieť s expanziou jednej miRNA a niekoľkých génových rodín. Ryžová miRNA 169g, upregulovaná počas stresu v období sucha 27, má päť homológov ciroku (sbi-MIR169c, sbi-MIR169d, sbi-MIR169.p2, sbi-MIR169.p6 a sbi-MIR169.p7). Výpočtovo predpovedaný cieľ podrodiny sbi-MIR169 zahrnuje členov rodiny transkripčných faktorov rastlinného jadrového faktora Y (NF-Y) B, ktorá je spojená so zlepšením výkonu v období sucha spôsobeného Arabidopsis a kukuricou 28 . Gény obsahujúce doménu cytochrómu P450, ktoré sa často zúčastňujú na zachytávaní toxínov, ako sú napríklad tie, ktoré sa akumulujú v reakcii na stres, sú bohaté na cirok s 326 oproti 228 v ryži. Expansíny, enzýmy, ktoré rozbíjajú vodíkové väzby a sú zodpovedné za rôzne rastové reakcie, ktoré by mohli súvisieť s trvanlivosťou ciroku, sa vyskytujú v 82 kópiách v ciroku oproti 58 v ryži a 40 v Arabidopsis a topole.

Duplikácia a diverzifikácia obilných genómov

Duplikácia celého genómu u spoločného predka obilnín sa prejavuje v kvartetoch z ciroku a ryže (obr. 4). Celkovo 19 929 (57, 8%) génových modelov ciroku bolo v blokoch kolineárnych s ryžou (doplnková poznámka 6). Po zdvojenej duplikácii celého genómu sa zachovala iba jedna kópia pre 13 667 (68, 6%) kolineárnych génov, pričom 13 526 (99%) bolo ortologických v prípade ciroku ryže, čo naznačuje, že väčšina strát génov predchádza divergencii taxónov. Čirok aj ryža si zachovali obe kópie 4 912 (14, 2%) génov, zatiaľ čo cirok stratil jednu kópiu 1 070 (3, 1%) a ryža stratil jednu kópiu 634 (1, 8%). Tieto vzorce pravdepodobne predpovedajú iné trávnaté genómy, keďže hlavné trávne línie sa odchyľovali od spoločného predka približne v rovnakom čase 29 (pozri tiež doplnkovú poznámku 7).

Image

Bodové grafy zobrazujú intergenomické (zlaté) a intragenomické (čierne) zarovnanie. Zväčšilo sa jedno kvarteto ciroku a ryže, ktoré vykazuje ortologické aj paralogické (duplikované) oblasti. Zriedkavá strata génov (červená; pozri legenda) po divergencii ciroku a ryže spôsobuje „špeciálne prípady“, v ktorých sú paralogy, ale nie sú pravopisné. Každá oblasť ciroku zodpovedá dvom duplikovaným oblastiam kukurice 39, pričom sa navrhuje strata génu kukurice, kde lokusy ciroku zodpovedajú iba jednej z týchto dvoch oblastí. Pretože BAC kukurice sú väčšinou nedokončené, lokusy ciroku sú zarovnané s centrami. Zaznamenajte rôznu stupnicu potrebnú na fyzickú vzdialenosť kukurice. Väčšie bodkové grafy sú v doplnkovej poznámke 6.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Aj keď k najväčšej strate génu po duplikácii došlo u spoločného predka obilnín, vyskytujú sa určité vzory špecifické pre líniu. Celkom 2 a 10 proteínových funkčných domén (Pfam) vykázalo obohatenie pre duplikáty a singletóny (v uvedenom poradí) v ciroku, ale nie v ryži (doplnková poznámka 6.1). Pretože sa predpokladá, že k divergencii ciroku a ryže došlo po duplikácii genómu 20 alebo viac, naznačuje to, že aj dlhodobá génová strata rozdielne ovplyvňuje funkčné skupiny génov.

Jedna genomická oblasť bola predmetom vysokej úrovne koordinovaného vývoja. Už predtým sa predpokladalo, že chromozómy 11 a 12 ryže zdieľajú zdvojenú segmentovú duplikáciu 30, 31, 32 ∼ 5–7-Myr. Našli sme duplikovaný segment v zodpovedajúcich oblastiach cirokových chromozómov 5 a 8 (obr. 5). Paralogy ciroku - ciroku a ryže - ryže z tejto oblasti vykazujú mieru synonymnej substitúcie DNA ( K s ) 0, 44 a 0, 22, v súlade s iba 34 a 17 Myrmi odchýlok. Hodnota K s ortologov ciroku a ryže je však 0, 63, čo je podobné priemerným hodnotám príslušného genómu (0, 81, 0, 87). Predpokladáme, že zdanlivá segmentová duplikácia bola skutočne dôsledkom duplikácie celo genómu celozrnného typu a odlíšila sa od zvyšku chromozómu (chromozómov) v dôsledku sústredeného vývoja, ktorý pôsobí nezávisle na ciroku, ryži a prípadne iných obilninách. Génová konverzia a nelegitímna rekombinácia sú častejšie v oblasti ryže 11 - 12 ako inde v genóme 33 . Fyzikálne a genetické mapy naznačujú zdieľané koncové segmenty zodpovedajúcich chromozómov v pšenici (4, 5) 34, líšok obyčajný (VII, VIII) a perličku (spojovacie skupiny 1, 4) 35 .

Image

Sú znázornené štyri homológne chromozómy ryže a ciroku (11 a 12 v ryži; 5 a 8 v ciroku) s vynesením génovej hustoty. „L“ a „S“ ukazujú dlhé a krátke zbrane. Čiary ukazujú Ks medzi homológnymi pármi génov a farby sa používajú na zobrazenie rôznych dátumov konverzných udalostí.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Syntéza a implikácie

Porovnanie ciroku, ryže a ďalších genómov objasňuje sadu génov trávy. Dvojice génov ortologického ciroku a ryže kombinovaných s nedávnymi paralogickými duplikáciami definujú 19 542 konzervovaných rodín génov trávy, z ktorých každý predstavuje jeden gén v spoločnom predku ciroku a ryže. Náš počet génov ciroku je podobný počtu v manuálne kuratovanej anotácii ryže (RAP2) 36, ale táto podobnosť maskuje určité rozdiely. V RAP2 chýba približne 2 054 syntetických ortológov zdieľaných našou anotáciou ciroku a anotáciou ryže TIGR5 (ref. 37). Naopak, 12 000 anotácií TIGR5 môže byť transponovateľnými prvkami alebo pseudogénmi, ktoré zahŕňajú veľké rodiny hypotetických génov v ciroku aj ryži RAP2, často s krátkymi exónmi, niekoľkými intrónmi a obmedzenou podporou EST. Fylogeneticky nezlučiteľné prípady zjavnej straty génov (napríklad gény zdieľané Arabidopsis a cirok, ale nie ryža: Obr. 3) môžu tiež naznačovať medzery v sekvenciách alebo misanotácie.

Architektúra trávnatého genómu môže odrážať euchromatínové špecifické účinky rekombinácie a selekcie, ktoré sa prekrývajú s neadaptívnymi procesmi mutácie a genetického driftu, ktoré sa vzťahujú na všetky genomické oblasti 38 . Vzory génovej a repetitívnej organizácie DNA zostávajú korelované v homológnych chromozómoch duplikovaných pred 70 mesiacmi (obr. 1), napriek rozsiahlemu obratu špecifických opakujúcich sa prvkov. Synténia je najvyššia a výskyt retroelementov je najmenší v distálnych chromozomálnych oblastiach. Rýchlejšie odstránenie retroelementu z euchromatínu bohatého na gény, ktoré často rekombinuje ako z heterochromatínu, ktorý zriedka rekombinuje, podporuje hypotézu, že rekombinácia môže zachovať génovú štruktúru, poriadok a / alebo rozmiestnenie vystavením nových inzercií selekcii 9 . Menšia polarizácia euchromatínu - heterochromatínu v kukurici, kde sa perzistencia retrotranspozónu v euchromatíne javí častejšia, môže odrážať zmeny v architektúre trávnatého genómu alebo možno pretrvávajúci dôsledok nedávnej duplikácie genómu 39 .

Identifikácia konzervovaných sekvencií DNA nám môže pomôcť pochopiť esenciálne gény a väzobné miesta, ktoré definujú trávy. Pokrok v sekvenovaní Brachypodium distachyon 40 určuje pôdu pre panikoidné-oryzoidné-pooidné fylogenetické triangulácie genomických zmien, ako aj asociáciu niektorých takýchto zmien s fenotypmi od molekulárnych (vzory génovej expresie) po morfologické. Rozdiel medzi cirokom, ryžou a Brachypodiom je dostatočný na randomizáciu nefunkčných sekvencií, čo uľahčuje objav 41, 42 konzervatívnej nekódujúcej sekvencie (doplnkový obrázok 9). Vzdialenejšie porovnania s dikotyledónom Arabidopsis ukazujú zachovanie exónu, ale bez CNS (doplnkový obrázok 10). Chloridoidové a arundinoidné genómové sekvencie sú potrebné na vzorkovanie zvyšných trávnych línií a outgroup ako Ananas (ananás) alebo Musa (banán) by ďalej pomáhal pri identifikácii génov a sekvencií, ktoré definujú trávy.

Skutočnosť, že sa cirokový genóm v roku 70 Myr 29 neduplikoval, z neho robí hodnotnú skupinu na odvodenie osudov génových párov a CNS v trávach, ktoré sa reduplikovali. Jednotlivé oblasti ciroku zodpovedajú dvom oblastiam, ktoré sú výsledkom zdvojnásobenia genómu špecifického pre kukuricu 39 - je zrejmá frakcionácia génov (obrázok 4) a je pravdepodobné subfunkcionalizácia (doplnkový obrázok 10). Čirok môže byť obzvlášť cenný pre rozpadajúcu sa genómovú evolúciu v užšie príbuznom kmene Saccharum - Miscanthus : dve duplikácie genómu od jeho odklonenia od ciroku 8–9 Myr pred 43 komplikuje genetiku cukrovej trstiny 44, ale BAC Saccharum vykazujú podstatne konzervovaný génový poriadok s cirokom (doplnkový) Poznámka 11).

Zachovanie štruktúry a poriadku génov trávy uľahčuje vývoj markerov DNA na podporu zlepšenia úrody. Identifikovali sme 71 000 opakovaní s jednoduchou sekvenciou (SSR) v ciroku (doplnkový zoznam 1); z vzorky 212 iba 9 (4, 2%) mapuje na paralogy svojho zdrojového miesta. Primery na skenovanie konzervovaných intrónov (doplnkový zoznam 2) pre 6 760 génov poskytujú markery DNA použiteľné v mnohých monokotyledónoch, zvlášť cenné pre „osirelé obilniny“ 45 .

Ako prvý sekvenovaný rastlinný genóm afrického pôvodu dodáva cirok etnobotanickému výskumu nové dimenzie. Zvlášť zaujímavá bude identifikácia alel vybraných v najskorších štádiách kultivácie ciroku, ktoré sú cenné pri testovaní hypotézy, že konvergentné mutácie v zodpovedajúcich génoch prispeli k nezávislej domestikácii divergentných obilnín 46 . Zosilnené zlepšenie ciroku by bolo prospešné pre regióny, ako je napríklad africký „Sahel“, kde tolerancia sucha robí z ciroku stredobod ľudskej populácie, ktorá sa každoročne zvyšuje o 2, 8%. Zlepšenie výnosov ciroku zaostávalo za zlepšením ostatných zŕn, v Afrike sa v rokoch 1961–63 až 2005–2007 (doplnková poznámka 12) v Afrike dosiahol celkový zisk iba 37% (západný) až 38% (východný).

Zhrnutie metód

Sekvenovanie genómu

Približne 8, 5-násobné redundantné párové brokové sekvenovanie sa uskutočnilo pomocou štandardných Sangerových metodológií z malých (-2–3 kb) a stredných (5–8 kb) plazmidových knižníc, jednej fosmidovej knižnice (približne 35 kb inzertov) a dvoch BAC knižnice (vložiť veľkosť 90 a 108 kb). (Doplnková poznámka 1)

Integrácia zostavy brokovnice s genetickými a fyzikálnymi mapami

Najväčších 201 skafoldov, všetkých nad 39 kb, s výnimkou „N“ a spoločne predstavujúcich 678 902 941 bp (97, 3%) nukleotidov, sa skontrolovali možné chiméry naznačené genetickou mapou ciroku, fyzikálnou mapou ciroku, náhlymi zmenami v géne alebo hustotou opakovania, poradie génov ryže a pokrytie klonmi BAC alebo fosmidmi (doplnková poznámka 2).

Opakujte analýzu

De novo vyhľadávalo LTR retrotranspozóny použité LTR_STRUC. De novo detekcia transpozónov CACTA-DNA a MITE používala vlastné programy (doplnková poznámka 3). Známe opakovania boli identifikované RepeatMasker (Open-3-1-8) (//www.repeatmasker.org) s mips-REdat_6.2_Poaceae, kompiláciou opakovaní tráv vrátane vrátane cirokovo špecifických LTR retrotranspozónov (//mips.gsf.de) / proj / zariadenia / webapp / recat /). Vek inzercie kompletných LTR-retrotranspozónov bol stanovený z evolučnej vzdialenosti medzi 5 'a 3' samostatnýmiTR odvodenými z vyrovnania ClustalW týchto dvoch samostatnýchTR.

Anotácia génov kódujúcich proteín

Predpokladané lokusy kódujúce proteín boli identifikované na základe BLAST zoradenia ryžových a Arabidopsis peptidov a EST ciroku a kukurice. GenomeScan 47 sa aplikoval pomocou parametrov špecifických pre kukuricu. Predpovedané kódovacie štruktúry boli zlúčené s údajmi EST z kukurice a ciroku pomocou PASA 48 .

Medzigenomické a intragenomické usporiadania

Použité bodové grafy ColinearScan 49 a viacnásobné zarovnania MCScan 50, aplikované na RAP2 36 (mapované reprezentatívne modely, 29 389 lokusov) a sbi1.4 anotačný súbor (34 496 lokusov). Na získanie potencionálnych kotiev sa použil pár BLASTP ( E <1 x 10-5, päť najlepších zásahov), v rámci každého genómu aj medzi dvoma genómami. Boli stiahnuté sekvencie Zea BAC a súradnice FPC (//www.maizesequence.org, vydanie 7. januára 2008). Hľadali sa potenciálne ortológy sekvencií kódujúcich cirok pomocou preloženého BLAT s minimálnym skóre 100.

Doplnková informácia

Súbory PDF

  1. 1.

    Doplnková informácia

    Tento súbor obsahuje doplnkové metódy, doplňujúce údaje, doplňujúce poznámky, doplňujúce obrázky 1-15 s legendami, doplnkové tabuľky 1-23 a doplňujúce odkazy

  2. 2.

    Doplnková tepelná mapa

    Tento súbor obsahuje tepelnú mapu ukazujúcu genomickú krajinu všetkých chromozómov, vrátane dvoch zobrazených na obrázku 1

Súbory ZIP

  1. 1.

    Doplnkový zoznam

    Tento súbor obsahuje doplnkový zoznam všetkých tandemových opakovaní nájdených v genóme, vrátane SSR a ďalších tandemovo opakovaných prvkov, ako sa uvádza v texte.

  2. 2.

    Doplnková informácia

    Tento súbor sa týka konzervatívnych primerov na skenovanie intrónov uvedených v texte

Komentáre

Odoslaním komentára súhlasíte s tým, že budete dodržiavať naše zmluvné podmienky a pokyny pre komunitu. Ak zistíte, že je niečo urážlivé alebo nie je v súlade s našimi podmienkami alebo pokynmi, označte ho ako nevhodné.