Fyzikálne, genetické a funkčné usporiadanie genómu jačmeňa príroda

Fyzikálne, genetické a funkčné usporiadanie genómu jačmeňa príroda

Anonim

predmety

  • Funkčná genomika
  • Rastlinná genetika

abstraktné

Jačmeň ( Hordeum vulgare L.) patrí medzi najstaršie domestikované a najdôležitejšie plodiny na svete. Je diploidný s veľkým haploidným genómom 5, 1 gigabáz (Gb). Tu uvádzame integrovaný a usporiadaný zdroj fyzickej, genetickej a funkčnej sekvencie, ktorý opisuje jačmenný génový priestor v štruktúrovanom celo genómovom kontexte. Vyvinuli sme fyzickú mapu 4, 98 Gb, s viac ako 3, 90 Gb ukotvenou do genetickej mapy s vysokým rozlíšením. Projektovanie hlbokých kompletných genómových brokovníc, doplnkových údajov o sekvencii DNA a hlbokej RNA do tohto rámca podporuje 79 379 transkripčných zhlukov, vrátane 26 159 „génov s vysokou spoľahlivosťou“ s podporou homológie z iných rastlinných genómov. Veľké množstvo alternatívnych zostrihov, predčasné terminačné kodóny a nové transkripčne aktívne oblasti naznačujú, že post-transkripčné spracovanie tvorí dôležitú regulačnú vrstvu. Sekvencie prieskumu z rôznych prístupov odhaľujú krajinu rozsiahlych jedno-nukleotidových variácií. Naše údaje poskytujú platformu pre výskum podporovaný genómom a umožňujú súčasné zlepšovanie plodín.

Hlavné

Kultivovaný jačmeň získaný z jeho divokého progenitora Hordeum vulgare ssp. spontaneum , patrí medzi najskoršie domestikované druhy plodín na svete 1 a dnes predstavuje štvrtú najpočetnejšiu obilninu v oblasti aj zozbieranú tonáž (//faostat.fao.org). Približne tri štvrtiny celosvetovej výroby sa používa na výživu zvierat, 20% sa sladuje na použitie v alkoholických a nealkoholických nápojoch a 5% ako zložka v rade potravinových výrobkov 2 . Jačmeň je široko prispôsobený rôznym podmienkam prostredia a je viac odolný voči stresu ako jeho blízka relatívna pšenica 3 . V dôsledku toho je jačmeň v chudobnejších krajinách4 hlavným zdrojom potravín, pričom si zachováva zberateľnú úrodu v drsnom a okrajovom prostredí. Vo vyspelejších spoločnostiach bol nedávno klasifikovaný ako skutočne funkčné jedlo. Jačmenné zrno má obzvlášť vysoký obsah rozpustnej vlákniny v strave, ktorá významne znižuje riziko vážnych ľudských chorôb vrátane cukrovky typu II, kardiovaskulárnych chorôb a rakoviny hrubého čreva a konečníka, ktoré postihujú stovky miliónov ľudí na celom svete 5 . USA Food and Drug Administration povoľuje zdravotné tvrdenie pre polysacharidy bunkovej steny z jačmenného zrna.

Ako diploidná, inbrídujúca mierna plodina sa jačmeň tradične považuje za model pre genetický výskum rastlín. K dispozícii sú veľké zbierky zárodočných plaziem, ktoré obsahujú geograficky rozmanité elitné odrody, landráže a divé prírastky 6 a nepochybne obsahujú alely, ktoré by mohli zmierniť vplyv zmeny podnebia a ďalej zvyšovať vlákninu z potravy v zrne. Na obohatenie svojej širokej prírodnej rozmanitosti sa vytvorili, charakterizovali a dôsledne udržiavali rozsiahle charakteristické mutantné zbierky obsahujúce všetky morfologické a vývojové variácie pozorované v druhoch. Hlavnou prekážkou vo využívaní týchto zdrojov v základnej a šľachtiteľskej vede bola absencia referenčnej genómovej sekvencie alebo vhodnej alternatívy. Poskytnutie jedného z nich predstavuje hlavnú výzvu pre výskum v globálnej komunite jačmeňa.

V reakcii na túto výzvu predstavujeme nový model dodávania genómových zdrojov potrebných na posilnenie postavenia jačmeňa ako modelu pre Triticeae, kmeň, ktorý obsahuje chlieb a tvrdé pšenice, jačmeň a raž. Predstavujeme génový priestor jačmenného genómu, ktorý definujeme ako integrovaný viacvrstvový informačný zdroj, ktorý poskytuje prístup k väčšine jačmenných génov vo vysoko štruktúrovanom fyzickom a genetickom rámci. V spojení s porovnávacími údajmi o sekvenciách a transkriptoch poskytuje génový priestor nový molekulárny a bunkový vhľad do biológie druhu, čím poskytuje platformu na pokrok v objavovaní génov a zlepšovaní plodín pomocou genómu.

Fyzikálna mapa jačmeňa obohatená o sekvenciu

Vytvorili sme fyzickú mapu celého genómu jačmenného kultivaru (cv.) Morex pomocou odtlačkov prstov 7 s vysokým obsahom informácií a kontaminácie 8 z 571 000 klonov bakteriálneho umelého chromozómu (BAC) (∼ 14-násobné pokrytie haploidným genómom) pochádzajúcich zo šiestich nezávislé knižnice BAC 9 . Po automatizovanej montáži a ručnom kurovaní fyzická mapa obsahovala 9 265 kontigov BAC s odhadovanou veľkosťou kontigmentu N50 904 kilobáz a kumulatívnou dĺžkou 4, 98 Gb (metódy, doplnková poznámka 2). Je predstavovaná minimálnou dráhou obkladu (MTP) 67 000 klonov BAC. Pri veľkosti genómu 5, 1 Gb 10 je na fyzickej mape zastúpených viac ako 95% jačmenného genómu, v porovnaní s 1036 kontigami, ktoré predstavujú 80% 1 Gb pšeničného chromozómu 3B11.

Vylepšili sme fyzickú mapu integráciou informácií o sekvencii brokovnice z 5 341 génov obsahujúcich 12, 13 a 937 náhodne vybraných klonov BAC (metódy, doplnkové poznámky 2 a 3 a doplnková tabuľka 4) a 304 523 koncových sekvencií BAC (BES) (BES) ( Doplnková tabuľka 3). Tieto poskytli 1 136 megabáz (Mb) genomickej sekvencie integrovanej priamo do fyzickej mapy (doplnkové tabuľky 3 a 4). Tento rámec umožnil začlenenie údajov o sekvencii brokovnice celého genómu a integráciu fyzických a genetických máp. Z genomickej DNA cv sme vygenerovali sekvenčné údaje brokovnice z celého genómu. „Morex“ technológiou Illumina GAIIx s krátkym čítaním, využívajúca kombináciu 300 párov báz (párov báz) (párov báz) (bp) párovaných koncov a knižníc párov párov 2, 5 kb na pokrytie> 50-násobného pokrytia haploidným genómom (doplnková poznámka 3.3). Zhromaždenie de novo viedlo k celkovému sledu sekvencií 1, 9 Gb. V dôsledku vysokého podielu repetitívnej DNA sa podstatná časť údajov z celého genómu brokovnice zrútila na relatívne malé kontigy charakterizované mimoriadne vysokou hĺbkou čítania. Celkovo bolo 376 261 kontigov väčšie ako 1 kb (N50 = 264 958 kontig, N50 dĺžka = 1 425 bp). Z nich sa 112, 989 (308 Mb) mohlo ukotviť priamo do fyzickej mapy obohatenej o sekvenciu sekvenčnou homológiou.

Zaviedli sme hierarchický prístup k ďalšiemu ukotveniu fyzických a genetických máp (metódy, doplnková poznámka 4). Celkom 3 241 geneticky mapovaných génov založených na jednom nukleotidovom variante (SNV) a 498 165 genetických markerov 14 sekvenčných značiek nám umožnilo použiť sekvenčnú homológiu na priradenie 4 566 sekvenčne obohatených fyzických máp mapy, ktoré prekračujú 3, 9 Gb, ku genetickým pozíciám pozdĺž každého chromozómu jačmeňa. Ďalších 1 881 kontigov bolo priradených chromozomálnym zásobníkom sekvenčnou homológiou k súborom dát 15 špecifických pre chromozómové ramená (doplnková poznámka 4.4). 6 437 fyzických máp mapy s celkovou hmotnosťou 4, 56 Gb (90% genómu) bolo teda priradených k zásobníkom chromozómových ramien, väčšina v lineárnom poradí. Nekotvené kontigy boli zvyčajne krátke a postrádali geneticky informatívne sekvencie potrebné na priradenie polohy.

V súlade s genómovými sekvenciami iných trávnych druhov 16 vykazujú per centromerické a centromerické oblasti chromozómov jačmeňa výrazne zníženú frekvenciu rekombinácie, čo je funkcia, ktorá obmedzuje využívanie genetickej diverzity a má negatívny vplyv na genetické štúdie a šľachtenie rastlín. Týmto oblastiam bolo priradených približne 1, 9 Gb alebo 48% geneticky zakotvenej fyzickej mapy (3, 9 Gb) (obr. 1 a doplnkový obr. 11).

Image

Sledovanie a dáva sedem chromozómov jačmeňa. Zelená / sivá farba znázorňuje zhodu zakotvených odtlačkov prstov (FPC) s priradením ich chromozómového ramena na základe sekvencií brokovnice špecifickej pre chromozómové rameno (ďalšie podrobnosti nájdete v doplnkovej poznámke 4). Pre 1H bolo k dispozícii iba priradenie celej chromozómovej sekvencie. Stopa b, distribúcia génov s vysokou spoľahlivosťou pozdĺž genetickej mapy; dráha c, konektory sa týkajú pozícií génov medzi genetickou a integrovanou fyzickou mapou uvedenou v stope d . Je uvedená poloha a distribúcia spätných väzieb LTR triedy I a transpozónov stopy II triedy II. Sledovanie g, distribúcia a umiestnenie sekvencovaných BAC.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Opakujúca sa povaha jačmenného genómu

Charakteristikou jačmenného genómu je množstvo opakujúcich sa DNA 17 . Zistili sme, že približne 84% genómu sa skladá z mobilných prvkov alebo iných opakujúcich sa štruktúr (doplnková poznámka 5). Väčšina z nich (76% v náhodných BAC) pozostáva z retrotranspozónov, z ktorých 99, 6% sú retrotranspozóny s dlhou terminálnou termináciou (LTR). Non-LTR retrotranspozóny prispievajú iba 0, 31% a DNA transpozóny 6, 3% náhodnej sekvencie BAC. Vo frakcii genómu s vysokým podielom opakujúcich sa prvkov bola nadrodina LTR Gypsy retrotransposon 1, 5-krát hojnejšia ako nadrodina Copia , na rozdiel od pozorovaní v Brachypodium 18 aj v ryži 19 . Avšak BAC s obsahom génov boli mierne vyčerpané z retrotranspozónov, čo je v súlade s Brachypodium 18, kde sa mladé retroloncie Copia prednostne nachádzajú v génovo bohatých rekombinogénnych oblastiach, z ktorých boli inaktívne cigánske retroelementy stratené rekombináciou LTR-LTR. Celkovo vidíme znížený opakujúci sa obsah DNA v terminálnych 10% fyzickej mapy každého ramena chromozómu jačmeňa (obr. 1). Prvky triedy I a II ukazujú nekvantitatívnu distribúciu reverzného obrazu pozdĺž chromozómov jačmeňa (obr. 1), rys zdieľaný s ostatnými trávnikovými genómami 16, 20 a zobrazený pomocou fluorescenčnej in situ hybridizácie (FISH) mapovania 17 . Neprekvapuje, že celá genómová brokovnica vykazuje nižšie množstvo LTR retrotranspozónov (priemerne 53%) ako gény nesúce BAC. To, že LTR retrotranspozóny sú dlhé (∼ 10 kb), vysoko sa opakujúce a často vnorené 21, podporuje náš predpoklad, že krátke hodnoty sa buď zrútili alebo sa nezostavili. Krátke rozptýlené prvky (SINE) 22, krátke (80 - 600 bp) neautonómne retrotranspozóny, ktoré sa v jačmeni veľmi opakujú, nevykazovali žiadne rozdielne vylúčenie zo skupín. Miniatúrne opakované transponovateľné prvky (MITE), malé neautonómne DNA transpozóny 23, boli však v celých genómových brokovniach dvojnásobne obohatené v porovnaní s údajmi BES alebo náhodnými BAC, čo je v súlade s bohatosťou génov v zostavách a ich asociáciou s gény 23 . MITE aj SINE sú 1, 5 až 2-krát obohatené o gény nesúce BAC, čo by mohlo naznačovať, že SINE sú tiež prednostne integrované do oblastí bohatých na gény, alebo preto, že sú staršie ako LTR retroelementy, môžu jednoducho zostať viditeľné v génoch a okolo génov, kde retro vloženia boli vybrané proti.

Prepisovaná časť jačmenného genómu

Transkribovaný doplnok génového priestoru jačmeňa bol anotovaný mapovaním 1, 67 miliárd RNA-sekv. Odčítaní (167 Gb) získaných z ôsmich štádií vývoja jačmeňa, ako aj z 28 592 jačmeňových cDNA s plnou dĺžkou 24 na zostavenie brokovnice pre celý genóm (metódy, doplnkové) Poznámky 6, 7 a doplnkové tabuľky 20–22). Exónové detekčné a konsenzuálne génové modelovanie odhalilo 79 379 transkripčných zhlukov, z ktorých 75 258 (95%) bolo ukotvených v zostave brokovnice pre celý genóm (doplnkové poznámky 7.1.1 a 7.1.2). Na základe porovnania zameraného na génovú rodinu s genómami ciroku , ryže, brachypodia a Arabidopsis 26 269 ​​týchto transkribovaných lokusov spadá do zhlukov a má homologickú podporu aspoň s jedným referenčným genómom (doplnkový obrázok 16); boli definované ako gény s vysokou spoľahlivosťou. Porovnanie s dátovým súborom metabolických génov v Arabidopsis thaliana 25 naznačilo mieru detekcie 86%, čo umožnilo odhadnúť súbor génov jačmeňa približne na 30 400 génov. Kvôli chýbajúcej homológii a chýbajúcej podpore zoskupovania génovej rodiny bolo 53 220 transkripčných lokusov považovaných za nízku spoľahlivosť (tabuľka 1). Gény jačmeňa s vysokou spoľahlivosťou a nízkou spoľahlivosťou vykazovali odlišné charakteristiky: 75% génov s vysokou spoľahlivosťou malo multiexónovú štruktúru v porovnaní s iba 27% génov s nízkou spoľahlivosťou (tabuľka 1). Priemerná veľkosť génov s vysokou spoľahlivosťou bola 3 013 bp v porovnaní s 972 bp pre gény s nízkou spoľahlivosťou. Celkom 14 481 génov s nízkou spoľahlivosťou vykazovalo vzdialenú homológiu s rastlinnými proteínmi vo verejných databázach (doplnkové poznámky 7.1.2, 7.1.4 a doplnkové obrázky 18), ktoré ich identifikovali ako potenciálne génové fragmenty, o ktorých je známe, že obsadzujú genómy Triticeae pri vysokom počte kópií a ktoré sú často výsledkom činnosti transponovateľných prvkov 26 .

Tabuľka v plnej veľkosti

K geneticky zakotvenej fyzikálnej mape mohlo byť priamo spojených celkom 15 719 génov s vysokou spoľahlivosťou (doplnková poznámka 4). Ďalších 3 743 bolo integrovaných vyvolaním zachovania syntézneho modelu (doplnková poznámka 4.5) a ďalších 4 692 spojením s údajmi o brokovniciach kompletných genómov z chromozómovej ramena (doplnková poznámka 4.4 a doplnková tabuľka 15). Dôležité je, že obsah N50 celej genómovej brokovnice so sekvenciou obsahujúcou gény s vysokou spoľahlivosťou bol 8 172 bp, čo všeobecne postačuje na zahrnutie celej kódujúcej sekvencie, a 5 'a 3' nepreložené oblasti (UTR). Celkovo bolo asociovaných a umiestnených vo fyzickom / genetickom skafere 24 154 génov s vysokou spoľahlivosťou (92, 3%), čo predstavuje hustotu génov päť génov na Mb. Proximálne a distálne konce chromozómov sú bohatšie na gény, v priemere obsahujú 13 génov na Mb (obr. 1).

V porovnaní so sekvenovanými modelovými rastlinnými genómmi analýza génovej rodiny (doplnková poznámka 7.1.3) odhalila niektoré génové rodiny, ktoré vykazovali špecifickú expanziu jačmeňa. Funkcie členov týchto rodín sme definovali pomocou génovej ontológie (GO) a proteínových motívov PFAM (doplnková tabuľka 25). Génové rodiny s vysoko nadmerne zastúpenými termínmi GO / PFAM zahŕňali gény kódujúce (1, 3) -β-glukán syntázy, inhibítory proteáz, proteíny viažuce cukor a transportéry cukru. Proteínové proteíny NB-ARC (nukleotid viažuci adaptér zdieľané APAF-1, určité produkty R génu a CED-4 27 ), o ktorých je známe, že sa podieľajú na obranných odpovediach, boli tiež zastúpené, vrátane génov typu 191 NBS-LRR. Tieto mali tendenciu sa zhlukovať smerom k distálnym oblastiam chromozómov jačmeňa (doplnkový obrázok 17), vrátane hlavnej skupiny na chromozóme jačmeňa 1HS, ktorý sa lokalizoval spolu s génovým zoskupením 28 rezistencie proti plesniam MLA . Neobjektívne rozdelenie do oblastí bohatých na rekombinácie poskytuje genomické prostredie na generovanie sekvenčnej diverzity potrebnej na zvládnutie dynamických populácií 29, 30 . Je pozoruhodné, že vysoko zastúpené gény (1, 3) -β-glukán syntázy sa podieľajú aj na interakciách medzi rastlinami a patogénmi 31 .

Regulácia génovej expresie

Údaje o hlbokej RNA sekvencii (RNA-seq) poskytli informácie o priestorovej a časovej regulácii génovej expresie (doplnková poznámka 7.2). Zistili sme, že 72–84% génov s vysokou spoľahlivosťou sa má exprimovať vo všetkých vzorkách s priestorovo-časovou RNA-sekv. (Obr. 2a), o niečo nižšiu, ako sa uvádza v prípade ryže 32, kde sa asi 95% transkriptov našlo vo viac ako jednej vzorke vývojovej alebo tkanivovej vzorky., A čo je dôležitejšie, zdá sa, že 36 až 55% vysoko spoľahlivých jačmenných génov je medzi vzorkami rozdielne regulované (obr. 2b), čo zdôrazňuje inherentnú dynamiku expresie génu jačmeňa.

Image

a, jačmenná génová expresia v rôznych priestorových a časových vzorkách RNA-sekv. (doplnkové poznámky 6, 7). Čísla sa týkajú génov s vysokou spoľahlivosťou. b, Dendrogram zobrazujúci príbuznosť vzoriek a farebne označenú matricu ukazujúcu počet významne upregulovaných génov s vysokou spoľahlivosťou v párových porovnaniach. Σ, celkový počet neredundantných génov s vysokou spoľahlivosťou regulovaných v porovnaní so všetkými ostatnými vzorkami. Výška, úplná vzdialenosť klastra spojenia (log 2 (fragmenty na kilobázu exónu na milión mapovaných fragmentov)); pozri doplnkovú poznámku 7.2.5.1. c, Distribúcia a prekrývanie alternatívnych zostrihových jačmenných transkriptov medzi vzorkami RNA-sekv. d, distribúcia a prekrývanie alternatívnych zostrihových transkriptov, ktoré spĺňajú kritériá pre PTC + zistené v rôznych vzorkách priestorovej a časovej RNA-sekv. (doplnková poznámka 7.4).

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Dva významné znaky podporujú dôležitosť post-transkripčného spracovania ako centrálnej regulačnej vrstvy (doplnkové poznámky 7.3 a 7.4). Najprv sme pozorovali dôkazy o rozsiahlom alternatívnom spájaní. Z génov jačmeňa s vysokou spoľahlivosťou obsahujúcich intrón malo 73% dôkaz o alternatívnom zostrihu (55% z celej sady s vysokou spoľahlivosťou). Priestorové a časové rozdelenie alternatívnych zostrihových transkriptov sa významne líšilo od všeobecného výskytu transkriptov v rôznych analyzovaných tkanivách (obr. 2c). Iba 17% alternatívnych zostrihových transkriptov bolo zdieľaných medzi všetkými vzorkami a 17–27% alternatívnych zostrihových transkriptov bolo detegovaných iba v jednotlivých vzorkách, čo naznačuje výraznú alternatívnu reguláciu zostrihu. Našli sme 2 466 alternatívnych zostrihových transkriptov obsahujúcich predčasný terminačný kodón (PTC +) (9, 4% génov s vysokou spoľahlivosťou) (obr. 2d a tabuľka 2), ktoré sú podobné percentuálnemu podielu génov kontrolovaných nezmyslom (NMD) v širokom spektre rozsah druhov 33, 34 . Predčasné terminačné kodóny aktivujú NMD dráhu 35, ktorá vedie k rýchlej degradácii PTC + transkriptov a bola asociovaná s transkripčnou reguláciou počas reakcie na ochorenie a stres u človeka a Arabidopsis 34, 36, 37, 38, 39 . Distribúcia transkriptov PTC + bola nápadne odlišná, priestorovo aj časovo, so zdieľaním iba 7, 4% a medzi 31% a 40% sa pozorovalo iba v jednej vzorke (obrázok 2d). Gény kódujúce transkripty obsahujúce PTC + ukazujú široké spektrum termínov GO a domén PFAM a sú rozšírenejšie v rozšírených rodinách génov. Tieto pozorovania podporujú ústrednú úlohu alternatívneho zostrihu / NMD-dependentného rozkladu PTC + transkriptov ako mechanizmu, ktorý riadi expresiu mnohých rôznych génov jačmeňa.

Tabuľka v plnej veľkosti

Po druhé, nedávne správy poukázali na množstvo nových transkripčne aktívnych oblastí v ryži, ktorým chýba homológia s proteínmi kódujúcimi gény alebo s otvorenými čítacími rámcami (ORF) 40 . U jačmeňa môže byť klasifikovaných ako predpokladané nové transkripčne aktívne oblasti až 27 009 génov s jednoduchým exónom s nízkou spoľahlivosťou (doplnková poznámka 7.1.4). Skúmali sme ich potenciálny význam porovnaním homológie jačmenných nových transkripčne aktívnych oblastí jačmeňa s genómami ryže a Brachypodium, ktoré predstavujú 50 a 30 miliónov rokov evolučnej divergencie 18 . Celkom 4 830 a 2 450 nových transkripčne aktívnych oblastí prinieslo homologickú zhodu s genómami Brachypodium a ryže (priesečník 2 046; hodnota BLAST P <10 -5 ), čo naznačuje predpokladanú funkčnú úlohu pri spracovaní pre-mRNA alebo inej regulačnej RNA. procesy 41, 42 .

Prírodná rozmanitosť

Jačmeň bol domestikovaný približne pred 10 000 rokmi 1 . Rozsiahla genotypová analýza rôznorodej zárodočnej plazmy odhalila, že obmedzené kríženie (0–1, 8%) 43 spolu s nízkou rekombináciou v pericentromerických oblastiach viedlo k modernej zárodočnej plazme, ktorá vykazuje obmedzenú regionálnu diverzitu haplotypov 44 . Frekvenciu a distribúciu genómovej diverzity sme skúmali pomocou prieskumu, ktorý do hĺbky sledoval štyri rôzne odrody jačmeňa („Bowman“, „Barke“, „Igri“ a „Haruna Nijo“) a pristúpenie k H. spontaneum (metódy a doplnková poznámka 8). 5 až 25-násobného pokrytia a mapovacia sekvencia sa odčíta proti jačmennému kultivaru 'Morex' génového priestoru. Identifikovali sme viac ako 15 miliónov neredundantných jedno-nukleotidových variantov (SNV). H. spontaneum prispel takmer dvakrát viac SNV ako každý z kultivarov (doplnková tabuľka 28). Chromozómovým ramenám by mohlo byť pridelených až 6 miliónov SNV na jeden vstup, vrátane až 350 000 spojených s exónmi (doplnková tabuľka 29). Približne 50% exón-lokalizovaných SNV bolo integrovaných do geneticko-fyzikálnej štruktúry (Obr. 3, Doplnková tabuľka 30 a Doplnková Obr. 31), čo poskytuje platformu na vytvorenie skutočnej genómovej markerovej technológie pre genetiku a genóm s vysokým rozlíšením - podporované šľachtenie.

Image

Jačmenné chromozómy označené ako vnútorný kruh sivých prúžkov. Spojovacie čiary dávajú genetický / fyzikálny vzťah v jačmennom genóme. Distribúcia frekvencie SNV zobrazená ako päť farebných kruhových histogramov (stupnica, relatívna hojnosť SNV v rámci pristúpenia; hojnosť, celkový počet SNV v neprekrývajúcich sa 50-kb intervaloch zreťazeného genomického skafoldu „Morex“; rozsah od nuly po maximálny počet SNV na 50 kb interval). Vybrané vzorce frekvencie SNV označené farebnými šípkami (ďalšie podrobnosti pozri doplnková poznámka 8). Sfarbenie hrotov sa týka kultivaru s odchýlkou ​​frekvencie SNV pre príslušnú oblasť.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Pozorovali sme pokles frekvencie SNV smerom k centromerickým a peri-centromerickým oblastiam všetkých chromozómov jačmeňa, čo je vzor, ​​ktorý sa javil výraznejší v kultivaroch jačmeňa. Tento trend bol podporený SNV identifikovaným v údajoch RNA-sekv. Zo šiestich ďalších kultivarov mapovaných na genómové zhromaždenie Morex (doplnková poznámka 8.2). Tento model erodovanej genetickej diverzity pripisujeme nízkej rekombinácii v pericentromerických oblastiach, čo znižuje efektívnu veľkosť populácie a následne diverzitu haplotypov. Zatiaľ čo H. spontaneum tu môže slúžiť ako rezervoár genetickej diverzity, použitie tejto diverzity môže byť samo o sebe kompromitované obmedzenou rekombináciou a následnou neschopnosťou narušiť úzke väzby medzi žiaducimi a škodlivými alelami. Prekvapivo malo krátke rameno chromozómu 4H výrazne nižšiu frekvenciu SNV ako všetky ostatné chromozómy jačmeňa (doplnkový obrázok 33). Môže to byť dôsledok ďalšieho zníženia frekvencie rekombinácie tohto chromozómu, ktorý je geneticky (ale nie fyzicky) najkratší. Znížená diverzita SNV bola tiež pozorovaná v regiónoch, ktoré interpretujeme ako dôsledok nedávnej histórie šľachtenia, alebo by mohli naznačovať dominantné znaky domestikácie (obrázok 3).

diskusia

Veľkosť cereálnych genómov Triticeae kvôli ich vysoko sa opakujúcemu zloženiu DNA vážne narušila zostavenie sekvencií brokovníc z celého genómu a vytvorila prekážku pre generovanie vysoko kvalitných referenčných genómov. Tieto problémy sme obišli integráciou komplementárnych a heterogénnych sekvenčných genomických a genetických súborov údajov. Toto zahŕňalo spojenie hlbokej fyzickej mapy s vysokohustotnými genetickými mapami, prekrývanie hlbokých krátko prečítaných kompletných genómových brokovníc a anotovanie výslednej lineárnej, aj keď interpunkčnej genomickej sekvencie údajmi odvodenými z hlbokého pokrytia RNA (cDNA a RNA s plnou dĺžkou) -seq). To nám umožnilo systematicky vymedziť približne 4 Gb (80%) genómu, vrátane viac ako 90% exprimovaných génov. Výsledný genomický rámec poskytuje podrobný pohľad na fyzickú distribúciu génov a repetitívnej DNA a na to, ako sa tieto vlastnosti týkajú genetických charakteristík, ako je frekvencia rekombinácie, expresia génov a vzorce genetickej variácie.

Centromerické a peri-centromerické oblasti chromozómov jačmeňa obsahujú veľké množstvo funkčných génov, ktoré sú blokované do rekombinantne „inertných“ genomických oblastí 45, 46 . Distribúcia génového priestoru zdôrazňuje, že tieto oblasti sa rozširujú na takmer 50% fyzickej dĺžky jednotlivých chromozómov. Vzhľadom na dobre zavedené úrovne konzervovanej syntézy to bude pravdepodobne všeobecný znak príbuzných trávnych genómov, ktorý bude mať dôležité praktické dôsledky. Napríklad zriedkavá rekombinácia by mohla fungovať tak, aby udržala evolučne vybrané a ko-adaptované génové komplexy. Určite obmedzí uvoľňovanie genetickej diverzity potrebnej na oddelenie výhodných od škodlivých alel, čo je potenciálny kľúč na zlepšenie genetického zisku. Pochopenie týchto účinkov bude mať dôležité následky na zlepšenie plodín. Okrem toho, pri objavovaní génov nebudú v týchto oblastiach forwardové genetické stratégie založené na rekombinácii účinné. Zatiaľ čo pre niektoré ciele existujú alternatívne prístupy (napríklad spájaním technológií vyrovnávania s kolekciami prírodných alebo indukovaných mutantných alel), pre väčšinu znakov zostáva vážnou prekážkou. Niektoré sľuby môžu spočívať v manipulácii so schémami rekombinácie genetickým zásahom alebo zásahom do životného prostredia 47 . Naše údaje celkom prekvapivo ukazujú, že pri pokuse o spojenie génov jačmeňa s funkciami bude potrebné zvážiť zložitú vrstvu post-transkripčnej regulácie. Prepojenia medzi post-transkripčnou reguláciou, ako sú alternatívne zostrihy a funkčné biologické dôsledky, zostávajú obmedzené na niekoľko konkrétnych príkladov 48, ale rozsah našich pozorovaní naznačuje, že tento zoznam sa značne rozšíri.

Záverom je možné povedať, že tu uvedený génový priestor jačmeňa predstavuje nevyhnutnú referenciu pre genetický výskum a šľachtenie. Predstavuje centrum izolácie, pochopenia a využívania prírodnej genetickej diverzity a skúmania jedinečnej biológie a vývoja jednej z prvých domestikovaných plodín na svete.

Zhrnutie metód

Metódy sú dostupné v online verzii príspevku.

Metódy online

Vytváranie fyzickej mapy

Klony BAC šiestich knižníc kultivaru „Morex“ 9, 49 sa analyzovali pomocou odtlačkov prstov s vysokým obsahom informácií (HICF) 7, 9 . Celkom 571 000 upravených profilov bolo zostavených pomocou FPC v9.28 (doplnková tabuľka 2) (prahová hodnota skóre Sulston 10 - 90, tolerancia = 5, tolerované Q klony = 10%). Deväť iteračných automatických opätovných zostavení sa uskutočnilo pri postupne zníženej striktnosti (Sulstonovo skóre 10 - 85 až 10 - 45 ). Posledný krok manuálneho zlučovania kontinencií FPC sa uskutočnil pri nižšej striktnosti (prahová hodnota skóre Sulston 10 - 25 ), pričom sa zvážili informácie o genetickom ukotvení markerov s genetickou vzdialenosťou ≤ ± 5 cM. Takto sa získalo 9 265 FPcontigs (približne 14-násobné pokrytie haploidným genómom) (doplnková tabuľka 2).

Genomické sekvenovanie

BAC-end sekvenovanie (BES). Konce inzertu BAC boli sekvenované pomocou Sangerovho sekvenovania (doplnková poznámka 2.1). Orezávanie vektorových a kvalitných súborov sledovania sekvencií sa uskutočňovalo pomocou LUCY 50 (//www.jcvi.org/cms/research/software/). Boli odstránené krátke čítania (tj <100 bp). Organelárne sekvencie DNA a jačmenného patogénu boli filtrované porovnaním BLASTN s verejnými databázami sekvencií (//www.ncbi.nlm.nih.gov/).

BAC brokovnica (BACseq). Počiatočné BAC mapy FPC boli sekvenované, aby sa odhalili informácie o génovej sekvencii pre fyzické ukotvenie mapy. 4 095 klonov BAC sa brokovalo v skupinách 2 x 48 individuálne čiarových kódov BAC na Roche / 454 GS FLX alebo FLX Titanium 51, 52 . Sekvencie boli zostavené pomocou MIRA v3.2.0 (//www.chevreux.org/projects_mira.html) pri predvolených parametroch s vlastnosťami 'presný', '454', 'genóm', 'denovo'. Ďalších 2 183 génov nesúcich BAC (doplnková poznámka 3.2) sa sekvenovalo pomocou Illumina HiSeq 2000 v 91 kombinačných skupinách 13 . Dekonvolúcie hodnoty boli zostavené pomocou VELVET 53 . Štatistika zostavenia je uvedená v doplnkovej tabuľke 4.

Sekvenovanie brokovnice celého genómu. Knižnice s párovým koncom Illumina (PE; veľkosť fragmentu p 350 bp) a mate-pair (MP; veľkosť fragmentu ∼ 2, 5 kb) sa vytvorili z fragmentovanej genómovej DNA 54 rôznych kultivarov jačmeňa („Morex“, „Barke“, „Bowman“. („Igri“) a selekciu jednoklíčkových semien S3 divokého jačmeňa prístupového B1K-04-12 55 ( Hordeum vulgare ssp. Spontaneum ). Knižnice boli sekvenované Illumina GAIIx a Hiseq 2000. Genomická DNA kultivaru Haruna Nijo (rozsah veľkosti 600 - 1 000 bp) bola sekvenovaná pomocou chémie Roche 454 GSFLX Titanium.

Zostava sekvenčných brokovníc celého genómu

Knižnice brokovníc z celého genómu PE a MP boli kalibrované na veľkosť fragmentov mapovaním párov proti chloroplastovej sekvencii jačmeňa (NC_008590) s použitím BWA 56 . Sekvencie boli orezané a de novo zostavené pomocou CLC Assembly Cell v3.2.2 (//www.clcbio.com/). Nezávislé de novo zhromaždenia sa uskutočnili z údajov kultivarov Morex, Bowman a Barke.

Prepisovanie sekvencií

Na hlboké sekvenovanie RNA (RNA-sekv.) Sa vybralo osem tkanív kultivaru „Morex“ (každá každá v troch biologických replikáciách), ktoré určovali štádiá životného cyklu jačmeňa od klíčiaceho zrna po dozrievajúcu karyopsiu. Rast rastlín, vzorkovanie a sekvenovanie sú podrobne uvedené v doplnkových informáciách (doplnková poznámka 6). Ďalšie údaje o sekvenovaní mRNA sa získali z ôsmich ďalších kultivarov jarného jačmeňa v rámci samostatnej štúdie a použili sa tu na analýzu diverzity sekvencií (doplnková poznámka 8.2).

Genetický rámec fyzickej mapy

Genetický rámec pre ukotvenie fyzickej mapy jačmeňa bol postavený na mape s jednoduchými nukleotidmi (SNV) 57 (doplnková poznámka 4.3), ktorá poskytla najvyššiu hustotu markerov (3 973) a rozlíšenie ( N = 360, RIL / F8) pre jediná populácia dvoch rodín mapujúcich jačmeň. Ďalšie mapy genetických markerov s vysokou hustotou (doplnková poznámka 4.3) sa porovnali a porovnali na základe zdieľaných markerov. Ďalej sme použili genotypizačné sekvenovanie (GBS) 58 na vygenerovanie genetických máp vysokej hustoty obsahujúcich 34 396 SNV a 21 384 SNV, ako aj 241 159 a 184 796 dominantných (prítomnosť / neprítomnosť) značiek pre dve zdvojnásobené haploidné populácie Oregon Wolfe Barley 14 a Viacx × Barke 45, resp. Celkovo sa použilo 498 165 markerových sekvencií (doplnková tabuľka 11).

Genetické ukotvenie

Genetická integrácia fyzickej mapy zahŕňala postupy priameho a nepriameho ukotvenia.

Priame ukotvenie. Genetické markery boli priradené k BAC klonom / BAC kontigom tromi rôznymi postupmi (doplnková poznámka 4.3 a doplnková tabuľka 9). 2032 markerov založených na PCR z publikovaných genetických máp 59, 60 bolo skrínovaných pomocou PCR na vlastných multidimenzionálnych (MD) DNA pooloch (//ampliconexpress.com/) získaných z knižnice BAC HVVMRXALLeA 9 . Jeden ekvivalent haploidného genómu z týchto skupín MD sa použil na multiplexné skríning unigénov odvodených od 42 302 jačmeňa EST zastúpených na obvyklom mikročipu 44K Agilent, ako bolo opísané vyššie 61 . 27 231 jačmenných unigénov obsahujúcich 1 121 s genetickou mapovou polohou 45, 62 by bolo možné priradiť k 12 313 BAC. 14 600 klonov z knižnice BAC HVVMRXALLhA bolo skrínovaných s 3 072 SNP markermi v testoch Illumina GoldenGate 45, čo viedlo k 1 967 markerom priamo priradeným k BAC 13 ; približne jedna tretina týchto informácií bola zahrnutá do tejto práce.

Nepriame ukotvenie. Sekvenčné zdroje spojené s rámcom FPCmap poskytli základ pre rozsiahlu integráciu informácií o genetických markeroch do silikónu (doplnková poznámka 4.3 a doplnková tabuľka 11). Opakované maskované sekvencie BES, sekvencie ukotvených markerov a 6 295 sekvencovaných BAC umožnili integráciu 307 Mb celogenomových brokovníc „Morex“ do mapy FPC. Genetické markery a jačmenné génové sekvencie sa umiestnili k tomuto odkazu striktnou asociáciou homológie sekvencií. Celkovo 8 170 (∼ 4, 6 Gb) kontigov BAC dostalo informácie o sekvencii a / alebo ukotvení (doplnková poznámka 4). K genetickému rámcu bolo ukotvených 4 566 FPC kontúr (Σ = 3, 9 Gb).

Analýza opakovanej DNA a opakované maskovanie

Detekcia a analýza opakovania sa uskutočňovala tak, ako sa už opísalo 18, 20, s výnimkou aktualizovanej knižnice opakovaní doplnenej de novo zistenými opakujúcimi sa prvkami z jačmeňa (doplnková poznámka 5).

Génová anotácia, funkčná kategorizácia a diferenciálna expresia

Na volanie štruktúrneho génu boli použité publikované cDNA 24 jačmeňa s plnou dĺžkou cDNA 24 a RNA-sekv. Dáta generované v projekte (doplnková poznámka 6) (doplnková poznámka 7). CDNA s plnou dĺžkou a RNA-sekv. Dáta boli zakotvené, aby sa opakovali maskované kontúry celej genómovej brokovnice pomocou GenomeThreader 63, respektíve CuffLinks 64, ktoré poskytujú tiež informácie o alternatívnych zostrihových transkriptoch. Volanie štruktúrnych génov sa spojilo a najdlhší ORF pre každý lokus sa použil ako zástupca pre analýzu génovej rodiny (doplnková poznámka 7.1.2).

Zhlukovanie génovej rodiny sa uskutočňovalo s použitím OrthoMCL (doplnková poznámka 7.1.3) porovnaním s genómami Oryza sativa (RAP2), Sorghum bicolor , Brachypodium distachyon (v 1.4) a Arabidopsis thaliana (uvoľnenie TAIR10).

Analýza diferenciálnej génovej expresie (doplnková poznámka 7.2) sa uskutočnila na RNA-Seq dátach s použitím CuffDiff 65 .

Analýza sekvenčnej diverzity

SNV celého genómu sa hodnotil mapovaním (BWA v0.5.9-r16 56 ), pôvodná sekvencia číta sekvenované genotypy na de novo zhromaždenie kultivaru Morex. Čítania sekvencií z RNA-sekv. Boli mapované proti zostave 'Morex'. Podrobnosti sú uvedené v doplnkovej poznámke 8.

prírastky

Dátové vklady

Sekvenčné zdroje generované alebo zostavené v tejto štúdii boli uložené v EMBL / ENA alebo NCBI GenBank. Úplný zoznam sekvenčných prístupových čísel nespracovaných údajov, ako aj URL na sťahovanie údajov, vizualizáciu alebo vyhľadávanie, je uvedený v doplnkovej poznámke 1 a doplnkovej tabuľke 1.

Doplnková informácia

Súbory PDF

  1. 1.

    Doplnková informácia

    Tento súbor obsahuje doplnkový text, doplnkové obrázky 1-33, doplnkové tabuľky 1-24 a 26-33 (pozri samostatný súbor pre doplnkovú tabuľku 25) a doplnkové odkazy - ďalšie informácie nájdete v obsahu.

Excel súbory

  1. 1.

    Doplňujúce údaje

    Tento súbor obsahuje doplnkovú tabuľku 25, ktorá ukazuje GO výrazy a domény PFAM nadmerne a nedostatočne zastúpené v klastroch expandovaného jačmeňa.

Komentáre

Odoslaním komentára súhlasíte s tým, že budete dodržiavať naše zmluvné podmienky a pokyny pre komunitu. Ak zistíte, že je niečo urážlivé alebo nie je v súlade s našimi podmienkami alebo pokynmi, označte ho ako nevhodné.