Genomická základňa úprav cirkadiánneho a circalunárneho časovania v vyvýšenine príroda

Genomická základňa úprav cirkadiánneho a circalunárneho časovania v vyvýšenine príroda

Anonim

predmety

  • Cirkadiánna regulácia
  • Ekologická genetika
  • Evolučná genetika
  • genóm

abstraktné

Organizmy používajú endogénne hodiny na predvídanie pravidelných environmentálnych cyklov, ako sú dni a prílivy a odlivy. Prírodné varianty vedúce k odlišne načasovanému správaniu alebo fyziológii, známe ako chronotypy u ľudí, neboli na molekulárnej úrovni dobre charakterizované. Sekvenovali sme genóm Clunio marinus , morského vyvýšenia , ktorého reprodukcia je načasovaná cirkadiánnymi a circalunárnymi hodinami. Stredy z rôznych miest vykazujú geneticky načasované adaptácie špecifické pre kmeň. Skúmali sme genetické variácie v piatich kmeňoch C. marinus z rôznych miest a zmapovali sme kvantitatívne znaky lokusov pre circalunárne a cirkadiánne chronotypy. Región najsilnejšie asociovaný s cirkadiánnymi chronotypmi vytvára kmeňovo špecifické rozdiely v početnosti zostrihových variantov kinázy II.1 (CaMKII.1) závislých od vápnika / kalmodulínu. Pretože sa ukázalo, že ekvivalentné varianty menia aktivitu CaMKII v Drosophila melanogaster a C. marinus ( Cma ) - CaMKII.1 zvyšuje transkripčnú aktivitu diméru cirkadiánnych proteínov Cma- CLOCK a Cma- CYCLE, navrhujeme, aby modulácia alternatívneho zostrihu je mechanizmus prirodzenej adaptácie v cirkadiánnom načasovaní.

Hlavné

Okolo nového alebo úplňku sa v priebehu niekoľkých špecifických hodín okolo odlivu vynárajú z mora milióny neobohacujúcich stredných druhov druhu C. marinus , ktoré vykonávajú svoj svadobný tanec. Dospelí žijú iba niekoľko hodín, počas ktorých sa pária a ovipozujú. Musia sa preto objaviť synchrónne a - vzhľadom na to, že embryonálny, larválny a pupalný vývoj sa odohráva v mori - v čase, keď najextrémnejší príliv spoľahlivo odhalí larválny biotop. Najnižšie prílivy a odlivy sa vyskytujú predvídateľne počas konkrétnych dní lunárneho mesiaca v konkrétnom čase. V dôsledku toho je výskyt dospelých v C. marinus pod kontrolou circalunarných a cirkadiánnych hodín 1, 2 . Je pozoruhodné, že aj keď sa v danom mieste opakovane vyskytujú najnižšie odlivy, ich načasovanie sa medzi geografickými polohami 3 líši. V dôsledku toho kmene C. marinus z rôznych miest (rozšírené údaje, obrázok la) ukazujú lokálnu adaptáciu v časoch cirkadiánneho a circalunárneho výskytu (rozšírené údaje, obrázok 1b, c). Kríže medzi kmeňmi Jean a Por ukázali, že rozdiely v cirkadiánnom a circalunárnom načasovaní sú geneticky determinované 4, 5 a zväčša sa vysvetľujú dvoma cirkadiánnymi a dvoma circalunárnymi kvantitatívnymi znakmi loci (QTL) 6 .

Štúdie variácie načasovania alebo chronotypov u zvierat a ľudí sa často zameriavajú na kandidátne gény z cirkadiánneho transkripčného-translačného oscilátora. V D. melanogaster sú polymorfizmy v perióde jadra cirkadiánnych hodín, nadčasovosti a kryptochrómu spojené s prispôsobivými rozdielmi v teplotnej kompenzácii 7, fotocitlivosťou cirkadiánnych hodín 8 a vznikajúcich rytmov 9 . Aj keď tieto štúdie poskytujú prehľad o vývoji známych molekúl cirkadiánnych hodín, asociačné štúdie 10, 11 a ďalšie genetické prístupy vpred (prehľadané v odkaze 12) sú nevyhnutné na zabezpečenie komplexného, ​​nezaujatého posúdenia prirodzenej variácie načasovania. napríklad základné poruchy ľudského spánku vo fáze spánku. Aj keď adaptívna povaha ľudských chronotypov zostáva nejasná, chronotypy C. marinus predstavujú evolučnú adaptáciu na ich prostredie. Cieľom našej štúdie bolo identifikovať genetický základ adaptácie C. marinus na jeho špecifickú ekologickú „časovú medzeru“. Okrem toho môže genetická disekcia adaptívnych prírodných variantov ne-cirkadiánnych rytmov 13, ktoré sú prítomné aj v C. marinus, poskytnúť vstupný bod do ich neznámych molekulárnych mechanizmov.

Ako východiskový bod pre tieto analýzy sme sekvenovali, zostavili, zmapovali a anotovali referenčný genóm C. marinus .

Genom Clunio a QTL načasovanie

Náš referenčný genóm CLUMA_1.0 laboratórneho kmeňa Jean obsahoval 85, 6 Mb sekvencie (tabuľka 1), blízko predchádzajúceho odhadu založeného na prietokovej cytometrii 95 Mb6, čo zdôrazňuje, že chironomidy majú všeobecne malé genómy 14, 15, 16 . Konečná zostava má lešenie N50 1, 9 Mb. Genotypizácia rodiny mapovacích rodín s DNA sekvencovaním spojeným s reštrikčným miestom umožnila, aby sa 92% referenčnej sekvencie trvalo ukotvilo pozdĺž genetickej väzbovej mapy (obr. 1a a rozšírené údaje, obr. 2), čím sa zlepšila pôvodná väzbová mapa (doplnková) Metódy 5). Výsledkom automatizovanej anotácie genómu bolo 21 672 génových modelov. Podobnosť proteínov a dostupné transkripty podporujú 14 041 génových modelov (doplnková tabuľka 1), v rozmedzí počtu génov pre D. melanogaster (15 507) a Anopheles gambiae (13 460). Zdá sa teda, že veľmi malý genóm C. marinus je úplný (tabuľka 1, rozšírené údaje, obrázok 3, doplnková poznámka 1 a doplnková tabuľka 2). Referenčný genóm C. marinus robí z chironomidov tretiu podskupinu dvojkrídlov s anotovaným genómom rekonštruovaným na chromozómovú mierku (obr. 1a a rozšírené údaje obr. 2, 3b – f).

Tabuľka v plnej veľkosti

Image

a, Tri väzbové skupiny C. marinus s referenčnými skafoldmi (vpravo) ukotvené na genetickej väzbovej mape (vľavo). Lešenia, ktoré sú usporiadané a orientované, čierne pruhy; nie sú orientované, šedé pruhy; ani usporiadané, ani orientované biele stĺpce. Šedé tieňovanie, veľké nerekombinačné oblasti. QTL, cirkadiánne (oranžové), circalunárne (azúrové). Jedno cirkadiánne a circalunárne QTL sa prekrýva, čo vedie k trom fyzickým QTL oblastiam (C1 / L1, C2 a L2, vo fialovej, oranžovej a azúrovej). b, Populačná genomická analýza QTL C2. Analýza kmeňov Por a Jean (v modrej a červenej v prostredných dvoch paneloch). Horný panel, genetická diferenciácia pre jednotlivé SNP (červené bodky) av oknách 5 kb (čierna čiara). Druhý panel, genetická diverzita ( 9 ) v oknách 20 kb (tenká čiara) a 200 kb (hrubá čiara). Tretí panel, nerovnováha spojenia ( r 2 ) v oknách s veľkosťou 100 kb. Spodný panel, korelačné skóre (CS) pre genetickú diferenciáciu s hodnotami pre cirkadiánne načasovanie (hore), circalunárne načasovanie (stredné) a geografická vzdialenosť (dole) pre kmene Vigo, Jean, Por, He a Ber. Spodné čísla, ID lešenia. Ďalšie podrobnosti, vrátane QTL C1 / L1 a L2, pozri Rozšírené údaje, obr. 5a, b.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Vykonali sme základnú charakterizáciu genómu a porovnanie s inými dipteranmi. Vymedzili sme päť chromozómových ramien C. marinus (doplnková poznámka 2, rozšírené údaje, obr. 3c a doplnková tabuľka 3) a homologizovali sme ich na D. melanogaster a A. gambiae syntézovým porovnaním (rozšírené údaje, obrázky 3 a 4, doplnková poznámka 2 a Doplnková tabuľka 3). Tiež sme našli ZW-like sex-related locus v C. marinus 6 mimo homológu chromozómov X (doplnková poznámka 2) a detegovali zvýšenú mieru opätovného usporiadania chromozómov (obrázok la, doplnková poznámka 3 a rozšírené údaje, obrázky 2, 3b – f, 4). Celkovo sa referenčný genóm C. marinus javí dobre zostavený.

Ako ďalší krok k identifikácii molekulárneho základu cirkadiánnych a circalunárnych časových prispôsobení v C. marinus , sme spresnili predtým identifikované časovacie QTL pozície 6 na základe nových sekvenčných markerov DNA s vysokou hustotou a reštrikčným miestom (doplnková tabuľka 4 a Doplnková poznámka 4) a stanovila sa referenčná sekvencia zodpovedajúca intervalom spoľahlivosti QTL (obrázok 1, oranžové a azúrové stĺpce; a doplnková tabuľka 4). V týchto QTL sa nenašiel žiadny z jadrových cirkadiánnych hodinových génov (obr. La). V rámci QTL sa nachádza iba timeout / timeless2 , nadčasový homológ s malú rolou pri resetovaní 17 cirkadiánnych hodín.

Genetická variácia časovacích kmeňov Clunio

Potom sme znovu sekvenovali kmene Por a Jean (Extended Data Obr. 1), pre ktoré sa uskutočnila počiatočná QTL analýza 6 . Dva súbory 300 jedincov chytených v teréne boli sekvenované pri> 240 × pokrytí (doplnková tabuľka 5). Mapovanie čítalo proti referenčnému genómu identifikovaných 1 010 052 jednonukleotidových polymorfizmov (SNP), z ktorých 72% bolo prítomných v kmeňoch Por a Jean. Na základe všetkých SNP sme určili genetickú diferenciáciu ( F ST ), genetickú diverzitu ( 9 ) a nerovnováhu väzieb krátkeho dosahu (merané ako r2 ) (obr. 1b a rozšírené údaje obr. 3c, 5a, b).

Genómová diferenciácia medzi kmeňmi Por a Jean je celoplošná ( F ST = 0, 11), čo poskytuje dobrý základ pre skríning genómu na lokálnu adaptáciu načasovania založenú na genetickej divergencii. Podľa analýzy QTL dve cirkadiánne QTL vysvetľujú 85% denného rozdielu časovania a dve circalunárne QTL vysvetľujú celý mesačný rozdiel časovania (doplnková tabuľka 4 a ref. 6). Pretože každý lokus má preto silný vplyv na načasovanie, výber proti nesprávnym adaptovaným alelám musí byť silný a načasované miesta by sa mali výrazne diferencovať.

V intervaloch spoľahlivosti QTL je 158 SNP a 106 indlov (inzercie alebo delécie) silne diferencované ( F ST ≥ 0, 8; Obr. 1b a rozšírené údaje, Obr. 5; SNP, červené bodky v F ST paneloch, pre celý genóm porovnanie pozri doplnkovú poznámku 5). Zostavili sme zoznam kandidátskych génov pre cirkadiánne a circalunárne časovacie adaptácie na základe ich blízkosti k diferencovaným SNP a indelom v QTL (doplnková tabuľka 6). Kandidátske gény neobsahujú jadrové cirkadiánne hodinové gény ( timeless2 / timeout , max. F ST ≤ 0, 5; priemerný F ST = 0, 07), ani nie sú obohatené o žiadnu konkrétnu dráhu (analýza génovej ontológie; doplnková tabuľka 7).

Načasovanie fenotypu s koreláciou genotypu

Za predpokladu, že alely spojené s časovou adaptáciou pravdepodobne pochádzajú zo stálej genetickej variácie (doplnková poznámka 5), ​​genetická variácia v časovacích miestach by sa medzi kmeňmi nemala voľne meniť, ale kmene s podobným načasovaním by mali zdieľať funkčne relevantné alely. Na identifikáciu takýchto lokusov sme rozšírili genomický skríning na ďalšie tri kmene: z Vigo (Vigo), Helgoland (He) a Bergen (Ber; Extended Data Obr. 1 a doplnkové tabuľky 5, 8). Potom sme testovali všetkých päť sekvenovaných kmeňov na koreláciu medzi genetickou diferenciáciou ( F ST ) a časovými rozdielmi alebo geografickými vzdialenosťami ako nulový model (doplnková tabuľka 8).

Celkovo genómová diferenciácia celého genómu nekoreluje s cirkadiánnymi ( r = 0, 10, P = 0, 31) alebo circalunárnymi ( r = 0, 56, P = 0, 12) časovými rozdielmi, ale so zemepisnou vzdialenosťou („izolácia vzdialenosťou“; r = 0, 88, P = 0, 008). Proti tomuto genomickému pozaďovému signálu izolácie vzdialenosťou sme skúmali genóm v posuvných oknách s veľkosťou 5 kb na vrcholy korelácie medzi genetickou diferenciáciou a načasovaním, čo viedlo ku korelačnému skóre (obr. 1b a rozšírené údaje, obr. 5a, b, panely CS)., skóre v rozsahu od 0 do 5; podrobnosti pozri v časti Metódy). Kombinácia dôkazov zo skríningu F ST z kmeňa Por versus Jean (doplnková tabuľka 6) s týmito modelmi korelácie medzi načasovaním a genetickou divergenciou znížila zoznam kandidátnych génov na 49 génov (doplnková tabuľka 9).

Zvlášť pozoruhodné je, že jedna oblasť v cirkadiánnej QTL C2 bola nápadne diferencovaná (obr. 1b). V tejto oblasti bola väzbová nerovnováha v kmeni Por významne zvýšená (permutačný test; P = 0, 002) a genetická diverzita sa v niektorých úsekoch (permutačný test; P = 0, 037 a 0, 020) významne znížila v porovnaní s priemerom genómu Por. To môže naznačovať nedávnu epizódu selekcie v Por, potenciálne počas adaptácie načasovania, pretože táto oblasť je tiež silne obohatená o časovo korelované polymorfizmy (obrázok 1b, panel CS). Najextrémnejšie hodnoty genetickej diferenciácie, genetickej diverzity a časovej korelácie sa lokalizujú na lokus CaMKII.1 a prednú časť génu homológneho s génom pre veľký tresk (bbg) .

CaMKII ovplyvňuje cirkadiánne jadrové hodiny

Lokal CaMKII.1 nesie nielen najvyšší počet diferencovaných polymorfizmov (doplnková tabuľka 9), ale ukázalo sa, že CaMKII ovplyvňuje cirkadiánne načasovanie. Myš CaMKIIα fosforyluje CLOCK a uľahčuje jej dimerizáciu pomocou BMAL in vivo 18 . Myši s neaktívnym CaMKIIa K42R, ktoré boli mŕtve na kinázach, utlmili cirkadiánne rytmy a predĺžili cirkadiánne obdobie voľného obehu 18 . CaMKII tiež fosforyluje CLOCK proteín 19 v bunkovej línii D. melanogaster S2 a in vivo inhibícia Dme- CaMKII v senzibilizovanom pozadí so zníženými hladinami Ca2 + predlžuje cirkadiánne obdobie voľného chodu 20, čo naznačuje, že úloha CAMKII v cirkadiánne načasovanie je u zvierat zachované.

Na stanovenie, či CaMKII môže tiež ovplyvniť cirkadiánne jadrové hodiny v C. marinus , sme testovali účinok Cma- CaMKII.1 v teste na bunkách s použitím buniek D. melanogaster S2 19, 21 . Opakovali sme predchádzajúce experimenty 19, ktoré ukazujú, že chemická inhibícia endogénneho Dme -CaMKII znižuje množstvo generovanej luciferázy (rozšírené údaje, obr. 6a), zatiaľ čo pridanie [Ca2 + ] nezávislej, a teda konštitutívne aktívnej, varianty CaMKII ( myš, T286D) zvyšuje množstvo luciferázy (Extended Data Obr. 6b). Potom sme vygenerovali konštrukty pre hodiny C. marinus, cyklus C. marinus a mutované verzie Cma-CaMKII.1 závislé od kinázy (K42R) a [Ca2 + ] (T286D). Transfekcia Cma-hodín a Cma-cyklu do buniek D. melanogaster S2 vedie k aktivácii luciferázy riadenej promótorom 3X69 odvodeným od promótora dobovej periódy (obr. 2a). Pridanie Cma-CaMKII.1 T286D nezávislej od [Ca2 + ] vedie k podstatnému zvýšeniu signálu luciferázy (obr. 2a), zatiaľ čo pridanie Cma - CaMKII.1 K42R odumretého na kinázu nezlepšuje aktivitu luciferázy ( Obr. 2a). Tieto údaje naznačujú, že aktivita CaMKII kinázy zvyšuje transkripciu závislú od E-boxu, ako ukazuje produkcia luciferázy riadená promótorom 3X69 , prostredníctvom diméru CLOCK-CYCLE v C. marinus .

Image

a, Dodatočný C. marinus CaMKII.1 zvyšuje transkripčnú aktivitu C. marinus Clk a Cyc v teste luciferázy S2 buniek D. melanogaster S použitím enhanceru obsahujúceho 3X69 E-box ( obdobie 3X69 - luc (ref. 21)). Údaje sú vyjadrené ako priemer ± sem; obojstranný Welch dvojvzorkový t- test; biologické replikáty, n = 5, s výnimkou akejkoľvek kontroly clk , n = 3, každý biologický replikát predstavuje priemer troch preparátových replikátov. *** P <0, 0005. b, Exóny úplných (RA – RD) a čiastkových (RE – RO) transkriptov Cma-CaMKII.1 . c, Distribúcia SNP (čierna), indolov (oranžová) a inzercia 125 bp (červená bodka) pozdĺž lokusu Cma-CaMKII.1 , všetky s FST ≥ 0, 8.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Spájanie CaMKII.1 koreluje s časovaním

Potom sme skúmali, ako polymorfizmy v lokusoch Cma-CaMKII.1 ovplyvňujú enzým. Našli sme dve alely CaMKII.1 : jednu v skorých vznikajúcich kmeňoch Por, He a Ber a druhú v neskorých objavujúcich sa kmeňoch Jean a Vigo. Väčšina kmeňovo špecifických polymorfizmov sa nachádza v intrónoch (obr. 2b, c a doplnková tabuľka 9). Ak boli tieto polymorfizmy zmysluplné, mali by ovplyvniť expresiu a / alebo zostrih CaMKII.1 . Cma-CaMKII.1 má štyri funkčné domény 22 (obr. 2b). Väčšina diferencovaných polymorfizmov sa zhlukuje v oblasti variabilnej spojovacej domény (obr. 2b, c), vrátane inzercie 125 bp (červená bodka na obr. 2c; rozšírené údaje na obr. 7). Identifikovali sme štyri alternatívne zostrihané kompletné transkripty Cma-CaMKII.1 (RA – RD), ktoré sa líšia dĺžkou linkera (obr. 2b). Vysoko-pokryté RNA sekvenovanie poskytlo dôkaz pre rozdielne použitie exónov medzi kmeňmi Jean a Por, ako aj pre predtým neotované exóny v variabilnej spojovacej oblasti (Extended Data Obr. 6c). PCR a Sangerove sekvenovanie potvrdili niekoľko čiastkových transkriptov ďalších zostrihových variantov linkerovej oblasti (RE-RO; Obr. 2b). Použili sme transkripčne špecifickú qPCR na kvantifikáciu všetkých transkriptov z lariev tretieho stupňa. Prepisy RE-RO sa vo všeobecnosti vyjadrujú na veľmi nízkych úrovniach. Z nich iba RO vykazovali kvantifikovateľné rozdiely v expresii medzi kmeňmi Jean a Por (obr. 3a a rozšírené údaje, obr. 6d). Dôležité je, že transkripčne špecifický qPCR potvrdil významnú diferenciálnu expresiu hlavných transkriptov v kmeňoch Jean verzus Por (obr. 3a, rozšírené dáta, obr. 6d), pričom sa zhodovali s údajmi o sekvenovaní RNA (RNA-seq) (rozšírené údaje, obr. 6c)., Podobne varianty s dlhými linkermi (RA, RB) vykazovali vyššiu expresiu v kmeni Por, zatiaľ čo kratšie varianty (RD, RO) vykazovali vyššiu expresiu v kmeni Jean (obr. 3a a rozšírené údaje, obr. 6c, d)).

Image

a, hodnoty qPCR pre zostrihové varianty CaMKII.1 z kmeňov Por a Jean, normalizované na Por (pre neštandardizované údaje, pozri rozšírené údaje, obrázok 6d). Údaje sú vyjadrené ako priemer ± sem; Por, n = 9 biologických replikátov; Jean, n = 10; RO, Por, n = 3; Jean n = 8; RO sa nezistil v šiestich biologických replikátoch Por, čo naznačuje ešte väčší rozdiel v expresii; obojstranný test Wilcoxonovej klasifikácie; * P <0, 05; ** P <0, 005; *** P <0, 0005; NS, nevýznamné; Korekcia Holma pre viacnásobné testovanie. Kvantifikácia údajov RNA-sekv. Pozri rozšírené údaje, obr. 6c. b, Diferenciálne zostrihanie linkerovej oblasti CaMKII.1 v bunkách S2R + D. melanogaster , normalizovaných na Por, n = 7 biologických replikátov; obojstranná t- skúška s dvoma vzorkami, inak ako a . c, Reprezentatívne rezy gélom na zobrazovanie fosforom, ako je kvantifikované pre b, dva oddelené pruhy z toho istého gélu (plný gél, pozri zdrojové údaje). d, Voľný chod rytmu dospelých pri konštantnom slabom bielom svetle (približne 100 lx). Spolu s Por zdieľajú alely CaMKII.1 , zatiaľ čo Jean má druhú alelu. Na výpočet periódy voľného chodu sa spriemeroval čas medzi nasledujúcimi píkmi vzniku, pričom sa každý pík vážil počtom jednotlivcov.

Obrázok v plnej veľkosti

  • Stiahnite si snímku aplikácie PowerPoint

Ak sa zistené rozdiely v množstve zostrihových variantov CaMKII.1 spájajú s časovými rozdielmi, mali by byť priamo spôsobené kmeňovo špecifickými polymorfizmami v mieste CaMKII.1 . Aby sa to otestovalo, generovali sme minigény, ktoré obsahovali alternatívne zostrihnutú spojovaciu oblasť lokusu CaMKII.1 buď z kmeňov Jean, alebo Por. Dva minigény sa transfekovali do buniek bunkovej línie D. melanogaster S2R + a expresia zostrihových variantov sa analyzovala rádioaktívnou RT-PCR (obr. 3b, c). Zistili sme štyri varianty, ktoré zodpovedajú zostrihovým variantom RB, RC, RD a RO. Všetky varianty vykazovali rovnaké abundančne špecifické rozdiely v teste S2R + buniek ako v kmeňoch C. marinus in vivo (obr. 3a, b). Pretože bunkový kontext je rovnaký pre Jean a Por minigény v teste S2R +, je možné ako príčinu diferenciálneho zostrihu vylúčiť transaktívne prvky, čo naznačuje, že je to priamy výsledok rozdielov v genómovej sekvencii v Cma-CaMKII. .1 miesto. Zatiaľ čo zostrihové varianty RB, RC a RD a ich konštituujúce exóny sú konzervované v D. melanogaster (pozri anotácie Flybase a odkaz 23), náprotivok RA D. melanogaster neexistuje. Toto môže vysvetľovať, prečo je tento variant nedetegovateľný v bunkách S2R + (obr. 3b).

Od zostrihových variantov k časovým rozdielom

Varianty dĺžky linkerov CaMKII boli skúmané u niekoľkých druhov. Izoformy CaMKII melanogaster zodpovedajúce variantom RB, RC a RD C. marinus majú rôzne substrátové afinity a rýchlosti cieľovej fosforylácie 23 . Tieto rozdiely v aktivite sú vysvetlené skutočnosťou, že CaMKII funguje ako dodekamér a dĺžka linkera určuje kompaktnosť a teda substrátovú prístupnosť holoenzýmu - enzýmy s dlhými linkermi majú vyššiu aktivitu. Tento vzťah medzi štruktúrou a funkciou je pravdepodobne univerzálny, pretože sa zachováva medzi ľuďmi a C. elegans 22, 24 .

Inaktivácia alebo inhibícia CaMKII predlžuje cirkadiánne obdobia u myší a plodov 18, 20 . Spojenie medzi dĺžkou cirkadiánneho obdobia a fázou aktivity v cykloch svetlo-tma je známe z mutácií v období v D. melanogaster 25 a ľudských chronotypov 26 . Tieto nálezy naznačujú, že v C. marinus by mali aktívnejšie a ľahšie Ca2 + -aktivované, varianty CaMKII.1 s dlhým spojovacím reťazcom urýchliť vznik dospelých skrátením cirkadiánnej hodiny. Skutočne zistíme, že skoré vznikajúce kmene Por a He, ktoré majú rovnaké alely s dlhou linkerovou predpojatosťou na CaMKII.1, majú kratšie voľne bežiace cirkadiánne hodiny ako neskoré objavujúce sa kmene Jean (obr. 3d).

Po integrácii našich výsledkov s výsledkami z vyššie uvedenej literatúry navrhujeme, aby regulácia pomeru zostrihových variantov CaMKII.1 predstavovala vývojový mechanizmus na prispôsobenie cirkadiánneho načasovania (Extended Data Obr. 8): rozdiely v genomickej sekvencii CaMKII.1 vedú k diferenciálne zostrihanie a aktivita CaMKII.1 . Spomedzi mnohých možných cieľov to má vplyv na transkripciu transkripcie závislej od CLOCK-CYCLE, ktorá zasa ovplyvňuje dĺžku cirkadiánneho obdobia a nakoniec vedie k rozdielom v čase vzniku dospelých.

diskusia

Ročné, lunárne a prílivové rytmy, ako aj prirodzená variabilita načasovania medzi jednotlivcami, sú dôležité a rozšírené javy, ktorým sa zle rozumie. Referenčný genóm C. marinus a panel genetickej variácie pre päť kmeňov s odlišným časovaním cirkadiánneho a circalunárneho času vytvárajú nové zdroje na ďalšie štúdium týchto tém.

Identifikovali sme ortológy C. marinus pre všetky jadrové cirkadiánne gény hodín, z ktorých žiadny sa zdá byť zapojený do cirkadiánnych alebo circalunárnych časových adaptácií. V prípade circalunarového načasovania to podporuje molekulárnu nezávislosť circalunarových hodín od cirkadiánnych hodín, ako sa uvádza v prípade Platynereis dumerilii 27 .

Pre cirkadiánne načasovanie sa ako možný mechanizmus prirodzenej adaptácie objavuje modulácia špecifická pre kmeň v alternatívnom zostrihu CaMKII.1 . Na základe predchádzajúcich experimentov v D. melanogaster a myšiach 18, 19, 20, 23 sa zdá najpravdepodobnejšie, že rozdiely v aktivite CaMKII rôznych zostrihových foriem vedú k cirkadiánnym časovým rozdielom prostredníctvom fosforylácie CLOCK-CYCLE (Extended Data Obr. 8).

Je tiež možné, že CaMKII ovplyvňuje cirkadiánne načasovanie prostredníctvom iných cieľov. Napríklad je známe, že CaMKII fosforyluje proteín viažuci sa na element cAMP (CREB) 28, 29 . CREB je spojený s cirkadiánnymi hodinami pomocou cAMP reakčných prvkov (CRE) v promótoroch periódových a nadčasových génov 30, 31 a fyzikálnou interakciou CREB-väzbového proteínu (CBP) s CREB, CLOCK a CYCLE 32, 33 . Ďalej, jednou z najviac študovaných úloh CaMKII je morfologická modulácia neuronálnej plasticity a konektivity 34, 35, 36 . Takéto zmeny v konektivite sa čoraz viac zapájajú ako súčasť cirkadiánneho mechanizmu načasovania u D. melanogaster a cicavcov 37 . Je zaujímavé, že úloha CaMKII pri formovaní neuronálnej konektivity bola tiež navrhnutá tak, aby sa spájala s niekoľkými neuropsychiatrickými chorobami 38, ktoré sa často vyskytujú spolu s chronobiologickými poruchami 39, 40, 41, 42 . Sú potrebné ďalšie štúdie, aby sa stanovilo, či modulácia aktivity CaMKII predstavuje molekulárne spojenie medzi týmito javmi.

metódy

Na predurčenie veľkosti vzorky sa nepoužili žiadne štatistické metódy. Experimenty neboli randomizované a vyšetrovatelia neboli oslepení pri prideľovaní počas experimentov a hodnotenia výsledku.

Kultúra zvierat a ľahké režimy

Laboratórne zásoby C. marinus boli chované podľa Neumanna 1, starostlivosť zabezpečovalo vodné zariadenie MFPL. Stručne povedané, C. marinus sa držali v plastových nádobách s rozmermi 20 × 20 × 5 cm s pieskom a prírodnou morskou vodou zriedenou na 15 ‰ odsolenou vodou, kŕmenými rozsievkami ( Phaeodactylum tricornutum , kmeň UTEX 646) v skorých štádiách lariev a práškom zo žihľavy v neskorších štádiách. Teplota v klimatických komorách bola nastavená na 20 ° C a cyklus svetlo-tma bol 12:12 (pokiaľ nie je uvedené inak). Mesačný svit bol simulovaný žiarovkou s baterkou (asi 1 lx), ktorá bola zapnutá celú noc počas štyroch po sebe nasledujúcich nocí každých 30 dní.

Zhromaždenie genómu

Proces zostavenia genómu (Extended Data Obr. 9a) bol založený na troch sekvenčných knižniciach (doplnková tabuľka 10): z jedného dospelého samca Jean laboratórneho kmeňa (pripraveného zo vzoriek z terénu odobratých v St. Jean-de-Luz, Francúzsko, v roku 2007;> 12 generácií v laboratóriu), ktorý bol vyhladovaný a držaný v morskej vode s penicilínom (60 jednotiek na ml), streptomycínom (60 μg ml −1 ) a neomycínom (120 μg ml - 1 ) počas posledných 2 týždňov vývoja. DNA bola extrahovaná metódou vysolovania 46, strihaná na sonikátore Covaris S2 (režim zametania frekvencie; 4 ° C; pracovný cyklus, 10%; intenzita, 7; cykly na jeden impulz, 300; vlákno microTUBE AFA 6 x 16 mm; 30 s) a pripravené na sekvenovanie podľa Iluminy pomocou štandardných protokolov. Inzertná knižnica s veľkosťou 2, 2 kb a 7, 6 kb bola pripravená z polymorfnej DNA skupiny> 300 dospelých Jeanov samcov chytených v teréne operáciou Eurofins MWG Operon (Ebersberg, Nemecko) podľa protokolu výrobcu. Každá knižnica bola sekvenovaná v jednom jazdnom pruhu zariadenia Illumina HiSeq2000 s pármi na konci 100 bp na sekvenčnej jednotke budúcej generácie jadrových zariadení vo Viedni (//vbcf.ac.at).

Čítanie bolo filtrované na kvalitu čítania, adaptérov a medzerníkových sekvencií s cutadaptom 47 (-b −n 3-e 0, 1-O 8 -q 20 -m13) a duplikáty boli odstránené pomocou fastq-mcf z východísk 48 (-D 70 ). Čítané páry sa vložili do ngm-utils 49, pričom zostali iba párované čítania. Kontaminácia ľudskou DNA nájdenou v knižnici s hmotnosťou 0, 2 kb bola odstránená deléciou hodnôt zodpovedajúcich ľudskému genómu pri skóre kvality vyššej stupnice ≥ 20 (zarovnanie s BWA 50 ).

Zostavenie do kontigov s Velvet 51 (lešenie zakázané; 57 bp kmers podľa určenia VelvetOptimiser 52 ) bolo založené iba na menej polymorfnej 0, 2-kb knižnici. Približne 600 zostávajúcich adaptačných sekvencií na koncoch zostavených kontigov bolo orezaných cutadaptom (-08 -0 0, 1-n3). Štatistika zostavenia je uvedená v doplnkovej tabuľke 11.

Lešenie kontigov bolo založené na všetkých troch knižniciach a uskutočňovalo sa s SSPACE 53 v dvoch iteráciách, to znamená, že lešenia z prvého kola boli znovu lešené. Použitie rôznych parametrov v iteráciách (doplnková tabuľka 12) umožnilo vytvorenie rôznych spojení, a tým zvýšenie pripojiteľnosti lešenia (doplnková tabuľka 13). Tento efekt je pravdepodobne spôsobený polymorfnou povahou knižníc 2, 2-kb a 7, 6-kb; vedie k „najbežnejšiemu usporiadaniu lešení“ medzi populáciou. Iteračný proces lešenia bol uskutočňovaný s a bez použitia medzného rozmeru bez kontigmentov <1 kb, čo viedlo k dvom nezávislým zostavám (CLUMA_0.3 a CLUMA_0.4; pozri rozšírené údaje na obrázku 9a), ktoré sa líšili v celkovej konektivite a postupnosti obsah (doplnková tabuľka 11), ale aj v identite a štruktúre veľkých lešení. S cieľom skombinovať tak konektivitu, ako aj sekvenčný obsah a aby sa vyriešili rozpory v štruktúre najväčších lešení, boli tieto dve zostavy porovnané a zladené v manuálnom procese super lešenia, ako je podrobne uvedené v doplnkovej metóde 1. Stručne, prekrývanie lešenia z týchto dvoch zostáv bolo testované pomocou BLAST rešerší a reprezentované v grafickej sieťovej štruktúre. Lešenia s zhodným obsahom sekvencie v oboch zostavách by viedli k lineárnej sieti, zatiaľ čo lešenia s protichodným obsahom sekvencie by viedli k vetveniu sietí. Súčasne boli obe zostavy podrobené mapovaniu genetických väzieb na základe genotypov získaných sekvenovaním DNA spojeným s reštrikčným miestom (sekvenovanie RAD) publikovanej mapovacej rodiny 6 (doplnková metóda 2). Výsledné informácie o genetickom prepojení slúžili na rozdelenie vetviacich sietí na najdlhšie možné jednoznačné lineárne podsiete s konzistentnými informáciami o genetickom prepojení (pozri schému A v doplnkovej metóde 1). Nakoniec bola štruktúra výsledných super-lešencov kódovaná vo formáte YAML a translatovaná do DNA sekvencie pomocou lešenia 54, čo viedlo k 75 mapovaným super-lešeniam.

Zostávajúce malé a nemapované lešenia boli filtrované na fragmenty mitochondriálneho genómu, histónový génový klaster a 18S / 28S ribozomálny rDNA génový klaster, ktoré boli zostavené osobitne (doplnková metóda 3; rozšírené údaje, obr. 10). Nezmapované lešenia sa tiež filtrovali na zjavnú kontamináciu inými druhmi (doplnková metóda 3). Stupeň, do ktorého zostávajúce nemapované skafoldy zostávajú zvyšky polymorfných variantov častí mapovaných super skafoldov, sa odhadol otryskaním prvého skafoldu proti nemu (doplnková metóda 3 a doplnková tabuľka 14).

Všetky lešenia boli podrobené uzatváraniu medzier pomocou GapFiller 55 a opakované okraje, to znamená, boli vyhodnotené medzery s takmer identickými sekvenciami na oboch stranách, ktoré nie sú všeobecne uzavreté kvôli genetickým polymorfizmom a pokiaľ je to možné odstránené pomocou vlastného skriptu (doplnková metóda 4; kód dostupný ako zdrojový dátový súbor).

Konečná zostava CLUMA_1.0 bola predložená v rámci projektu PRJEB8339 (75 mapovaných lešení; 23 687 nemapovaných lešení ≥ 100 bp). Zostavenie a ďalšie informácie je možné získať aj na ClunioBase (//cluniobase.cibiv.univie.ac.at).

Rekonštrukcia chromozómov a analýza QTL

Informácie o genetických väzbách pre posledných 75 super-skafoldov sa získali opakovaním mapovania čítania do genotypu, ktorý si vyžaduje experiment sekvenovania RAD, ako je opísané vyššie (doplnková metóda 2), ale teraz s referenciou zostavenia CLUMA_1.0. To nám umožnilo umiestniť a orientovať super-lešenia pozdĺž mapy genetických väzieb (obr. 1a a rozšírené údaje, obr. 2). Polohy rekombinačných udalostí v rámci skafoldu sa aproximovali ako stred medzi polohami dvoch RAD markerov, medzi ktorými sa zmenil vzor markera z jedného umiestnenia mapy na ďalšie. Publikovaná mapa genetických väzieb bola vylepšená a revidovaná (doplnková metóda 5 a rozšírené údaje, obr. 2). Na základe vylepšenej väzbovej mapy sa opakovala analýza QTL publikovanej rodiny mapovaní, ako je opísané v 6 (doplnková tabuľka 4 a doplnková poznámka 5). Použitím korešpondencie medzi referenčnou zostavou a mapou genetických väzieb sme boli schopní priamo identifikovať genomické oblasti zodpovedajúce intervalom spoľahlivosti QTL (obr. 1 a rozšírené údaje, obr. 5a, b).

Prepisovanie sekvencií

Z predchádzajúcich experimentov boli k dispozícii zostavené prepisy normalizovanej cDNA knižnice všetkých životných štádií a rôznych kmeňov C. marinus (sekvenovanie 454) a údaje o sekvenovaní RNA boli dostupné pre dospelých kmeňov Jean (sekvenovanie Illumina). Ďalej, konkrétne na anotáciu genómu, bola každá RNA z 80 lariev tretieho stupňa z laboratórnych kmeňov Jean a Por pripravená na sekvenovanie RNA podľa štandardných protokolov (doplnková metóda 6). Každá vzorka bola sekvenovaná na jednom pruhu Illumina HiSeq 2000. Všetky transkripčné odčítania boli predložené do Európskeho nukleotidového archívu (ENA) v rámci projektu PRJEB8339.

Pokiaľ ide o údaje o sekvenovaní RNA dospelých a lariev, surové hodnoty sa skontrolovali pomocou fastqc 56, orezali sa na kvalitu adaptérov pomocou cutadapt 47 a prefiltrovali sa tak, aby obsahovali iba dvojice čítania pomocou príkazu interleave v ngm-utils 49 . Reads were assembled separately for larvae and adults with Trinity 57 (path_reinforcement_distance: 25; maximum paired-end insert size: 1, 500 bp; otherwise default parameters).

Anotácia genómu

Automated annotation was performed with MAKER2 58 . Repeats were masked based on all available databases in repeatmasker. MAKER2 combined evidence from assembled transcripts (see above), mapped protein data sets from Culex quinquefasciatus (CpipJ1), Anopheles gambiae (AgamP3), Drosophila melanogaster (BDGP5), Danaus plexippus (DanPle_1.0), Apis mellifera (Amel4.0), Tribolium castaneum (Tcas3), Strigamia maritima (Smar1) and Daphnia pulex (Dappu1) and ab initio gene predictions with AUGUSTUS 59 and SNAP 60 into gene models. AUGUSTUS was trained for C. marinus based on assembled transcripts from the normalized cDNA library. SNAP was run with parameters for A. mellifera , which had the highest congruence with known C. marinus genes in preliminary trials (Supplementary Method 7). MAKER was set to infer gene models from all evidence combined (not transcripts only) and gene predictions without transcript evidence were allowed. Splice variant detection was enabled, single-exon genes had to be larger than 250 bp and intron size was limited to a maximum of 10 kb.

All gene models within the QTL confidence intervals, as well as all putative circadian clock genes and light receptor genes were manually curated: exon–intron boundaries were corrected according to transcript evidence (approximately 500 gene models), chimeric gene models were separated into the underlying individual genes (approximately 100 gene models separated into around 300 gene models) and erroneously split gene models were joined (approximately 15 gene models). Finally, this resulted in 21, 672 gene models, which were given IDs from CLUMA_CG000001 to CLUMA_CG021672 ('CLUMA' for Clunio marinus , following the controlled vocabulary of species from the UniProt Knowledgebase; CG for 'computated gene'). Splice variants of the same gene (detected in 752 gene models) were identified by the suffix '-RA', '-RB' and so on, and the corresponding proteins by the suffix '-PA', '-PB' and so forth.

Gene models were considered as supported if they overlapped with mapped transcripts or protein data (Supplementary Table 1). Gene counts for D. melanogaster were retrieved from BDGP5, version 75.546 and for A. gambiae from AgamP3, version 75.3. The putative identities of the C. marinus gene models were determined in reciprocal BLAST searches, first against UniProtKB/Swiss-Prot (8, 379 gene models assigned) and if no hit was found, second against the non-redundant protein sequences (nr database) at NCBI (1, 802 additional genes assigned). Reciprocal best hits with an e value < 1 × 10 −10 were considered putative orthologues (termed 'putative gene X'), non-reciprocal hits with the same e value were considered paralogues (termed 'similar to'). All remaining gene models were searched against the PFAM database of protein domains (111 gene models assigned; termed 'gene containing domain X'). If still no hit was found, the gene models were left unassigned ('NA').

Synteny comparisons

Genome-wide synteny between the C. marinus , D. melanogaster and A. gambiae genomes was assessed based on reciprocal best BLAST hits ( e value < 10 × 10 -10 ) between the three protein data sets (Ensembl Genomes, Release 22, for D. melanogaster and A. gambiae ). Positions of pairwise orthologous genes were retrieved from the reference genomes (BDGP5, AgamP3 and CLUMA_1.0) and plotted with Circos 61 . C. marinus chromosome arms were delimited based on centromeric and telomeric signatures in genetic diversity and linkage disequilibrium (Extended Data Fig. 3c and Supplementary Table 3; for data source see 'strain re-sequencing' below). Homologues for C. marinus chromosome arms were assigned based on enrichment with putative orthologous genes from specific chromosome arms in D. melanogaster and A. gambiae (Extended Data Figs 3, 4 and Supplementary Table 3). Additionally, for the 5, 388 detected putative 1:1:1 orthologues ( C. marinus : D. melanogaster : A. gambiae ), microsynteny was assessed by testing if all pairs of directly adjacent genes in one species were also directly adjacent in the other species. The degree of microsynteny was then calculated as the fraction of conserved adjacencies among all pairs of adjacent genes. From this fraction the relative levels of chromosomal rearrangements in the evolutionary lineage leading to C. marinus were estimated (Supplementary Note 3 and Extended Data Fig. 4).

Strain re-sequencing

Genetic variation in five C. marinus strains (Extended Data Fig. 1) was assessed based on pooled-sequencing data from field-caught males from the strains of St. Jean-de-Luz (Jean; Basque Coast, France; sampled in 2007; n = 300), Port-en-Bessin (Por; Normandie, France; 2007; n = 300), as well as Vigo (Spain; 2005; n = 100), Helgoland (He; Germany; 2005; n = 300) and Bergen (Ber; Norway; 2005; n = 100). Samples from Vigo and Bergen, were provided by D. Neumann and C. Augustin, respectively. For each strain we chose the largest available number of individuals to obtain the best possible resolution of allele frequencies. Females are not available, because they are virtually invisible in the field. For an overview of the experimental procedure, see Extended Data Fig. 9b. DNA was extracted with a salting-out method 46 from sub-pools of 50 males, the DNA pools were mixed at equal DNA amounts, sheared and prepared as described above and sequenced on four lanes of an Illumina HiSeq2000 with paired-end 100-bp reads (Ber and Vigo combined in one lane, distinguished by index reads). All reads were submitted to the European Nucleotide Archive (ENA) under project PRJEB8339. Sequencing reads were filtered for read quality and adaptor sequences with cutadapt 47 (−b −n 2 −e 0.1 −O 8 −q 13 −m 15), interleaved with ngm-utils 49 and duplicates were removed with fastq-mcf from ea-utils 48 (−D 70). Reads were aligned to the mapped super-scaffolds of assembly CLUMA_1.0 with BWA 50 (aln and sampe; maximal insert size (bp): −a 1500).

Detection of re-arrangements

Based on the unfiltered alignments, the samples from Por and Jean were screened for genomic inversions and indels relative to the reference sequence with the multi-sample version of DELLY 62 . Paired-end information was only considered if the mapping quality was high ( q ≥ 20) (see also Supplementary Note 3).

Population genomic analysis of the timing strains

For population genomic analysis (Extended Data Fig. 9b), the alignments of the pool-sequencing (pool–seq) data from Vigo, Jean, Por, He and Ber were filtered for mapping quality ( q ≥ 20), sorted, merged and indexed with SAMtools 63 . Reads were re-aligned around indels with the RealignerTargetCreator and the IndelRealigner in GATK 64 . The resulting coverage per strain is given in Supplementary Table 5.

For identification of SNPs, a pileup file was created with the mpileup command of SAMtools 63 . Base Alignment Quality computation was disabled (−B); instead, after creating a synchronized file with the mpileup2sync script in PoPoolation2 65, indels that occurred more than ten times were masked (including 3 bp upstream and downstream) with the identify-indel-regions and filter-sync-by-gtf scripts of PoPoolations2. F ST values were determined with the fst-sliding script of PoPoolation2, applying a minimum allele count of 10 (so that any false-positive SNPs resulting from the remaining unmasked indels were effectively excluded) and a minimum coverage of 40× for the comparison between Por and Jean or 10× for the comparison of all five strains. F ST was calculated at a single base resolution, as well as in windows of 5 kb (step size, 1 kb). Individual SNPs were only considered for further analyses or plotted if they were significantly differentiated as assessed by Fisher's exact test (fisher-test in PoPoolation2).

Average genome-wide genetic differentiation between timing strains, as obtained by averaging over 5-kb sliding-windows, was compared to the respective timing differences and geographic distances (see Supplementary Table 8) in Mantel tests (Pearson's product moment correlation; 9, 999 permutations), as implemented in the vegan package in the R statistical programming environment (ref. 66). Geographic distances and circadian timing differences were determined as described previously 67 (see Supplementary Table 8). For determination of lunar timing differences when comparing lunar with semilunar rhythms see Supplementary Note 6. In order to find genomic regions for which genetic differentiation is correlated with the timing differences between strains, the Mantel test was then applied to 5-kb genomic windows every 1 kb along the reference sequence. 5 kb is roughly the average size of a gene locus in C. marinus . Windows with a correlation coefficient of r ≥ 0.5 were tested for significance (999 permutations). For each genomic position the number of overlapping significantly correlated 5-kb windows was enumerated, resulting in a correlation score (CS; ranging from 0 to 5).

Genetic diversity, measured as Watterson's theta ( θ W ), for each strain was assessed with PoPoolation1.1.2 (ref. 68) in 20-kb windows with 10-kb steps. In order to save computing time, the pileup files of Jean, Por and He were linearly downscaled to 100× coverage with the subsample-pileup script ('fraction' option), positions below 100× coverage were discarded. Indel regions were excluded (default in PoPoolation 1.1.2) and a minimum of 66% of a sliding window needed to be covered. SNPs were only considered in θ W calculations if present ≥2 times, leading to slight inconsistencies in θ W estimates between strains due to differing coverage, but not affecting diversity comparisons within strains.

Linkage disequilibrium between the SNPs was determined for the Por and Jean strains with LDx 69, assuming physical linkage between alleles on the same read or read pairs. r 2 was determined by a maximum likelihood estimator, minimum and maximum read depths corresponded to the 2.5% and 97.5% coverage depths for each population (Jean, 111–315; Por, 98–319), total insert distance was limited to 600 bp, minimum phred-scaled base quality was 20, minimum allele frequency was 0.1 and a minimum coverage per pair of SNPs was 11. SNPs were binned by their physical distance for the plots (0–200 bp, 200–400 bp, 400–600 bp), with the mean value plotted.

Finally, small indels (<30 bp) in the Por and Jean strains were detected with the UnifiedGenotyper (−glm INDEL) in GATK 64 for positions with more than 20× coverage. Genetic differentiation for indels was calculated with the classical formula F ST = ( H T − H S )/ H T, where H S is the average expected heterozygosity according to Hardy–Weinberg Equilibrium (HWE) in the two subpopulations and H T is the expected heterozygosity in HWE of the hypothetical combined total population. If more than two alleles were present, only the two most abundant alleles were considered in the calculation of F ST .

Assessment of candidate genes

Gene models from the automated annotation were considered candidate genes, if they fulfilled the following criteria. (1) The gene was located within the reference sequence corresponding to the QTL confidence intervals as determined for the Por and Jean strains. (2) The gene contained a strongly differentiated SNP or small indel or it was directly adjacent to such a SNP or small indel ( F ST ≥ 0.8 for Por versus Jean, that is, the strains used in QTL mapping). This resulted in a preliminary list of 133 genes based on the comparison between Por and Jean (Supplementary Table 6). These candidate genes were narrowed down based on their overlap with genomic 5-kb windows, for which genetic differentiation between five European timing strains correlated with their timing differences (Fig. 1a, Extended Data Fig. 5a, b and Supplementary Table 9).

The location and putative effects of the SNPs and indels relative to the gene models were assessed with SNPeff 70 (−ud 0, otherwise default parameters; Extended Data Fig. 5c, d and Supplementary Tables 6, 9).

For Gene Ontology (GO) term analysis, all C. marinus gene models with putative orthologues in the UniProtKB/Swiss-Prot and non-redundant protein sequences (nr) databases based on reciprocal best BLAST hits (see above) were annotated with the GO terms of their detected orthologues (6, 837 gene models). Paralogues were not annotated. The enrichment of candidate SNPs and indels ( F ST ≥ 0.8 between Por and Jean) in specific GO terms was tested with SNP2GO 71 (min.regions = 1, otherwise default parameters). Hyper-geometric sampling was applied to test if individual genes of a GO term or a whole pathway of genes are enriched for SNPs (Supplementary Table 7).

Molecular characterization of CaMKII.1

RNA-seq data of the Por and Jean strains for CaMKII.1 were obtained from the larval RNA sequencing experiment described above. Besides four assembled full-length transcripts (RA–RD) from RNA-seq and assembled EST libraries, additional partial transcripts (RE–RO) were identified by PCR amplification (for PCR primers see Supplementary Table 15), gel extraction (QIAquick Gel Extraction Kit, Qiagen), cloning with the CloneJET PCR Cloning Kit (Thermo Scientific) and Sanger sequencing with pJET1.2 primers (LGC Genomics & Microsynth). cDNA was prepared from RNA extracted from third instar larvae of the Por and Jean laboratory strains (RNA extraction with RNeasy Plus Mini Kit, Qiagen; reverse transcription with QuantiTect Reverse Transcription Kit, Qiagen).

qPCR was performed with variant-specific primers and actin was used as a control gene (Supplementary Table 16). cDNA was obtained from independent pools of 20 third instar larvae of the Por and Jean strains. Sample size was ten pools per strain to cover different time points during the day and to test for reproducibility (two samples each at zeitgeber times 0, 4, 8, 16 and 20; for one Por sample extraction failed; RNA extraction and reverse transcription as above). qPCR was performed with Power SYBR Green PCR Master Mix on a StepOnePlus Real Time System (both Applied Biosystems). Fold-changes were calculated according to ref. 72 in a custom excel sheet. The assumption of equal variance was violated for the RD comparison ( F -test) and the assumption of normal distribution was violated for the data of RA and RC in the Por strain (Shapiro–Wilk normality test), possibly reflecting circadian effects in the samples from different times of day. Thus, expression differences were assessed for significance in a two-tailed Wilcoxon rank-sum test (wilcox.test in R 66 ). Holm correction 73 was used for multiple testing (default in p.adjust function of R).

CaMKII.1 minigenes

PCR fragments containing the CaMKII.1 linker region (exons 10–15) were amplified from genomic Por or Jean DNA, respectively, with primers CaMKII-Sc61-F-344112 and CaMKII-Sc61-R-351298 (Supplementary Table 15), cloned with the CloneJET PCR Cloning Kit (Thermo Scientific), transferred into the pcDNA3.1+ vector using NotI and XbaI (Thermo Scientific). These constructs were transfected into D. melanogaster S2R+ cells and RNA was prepared 48 h after transfection. After DNase digestion, isoform expression was analysed by radioactive, splicing-sensitive RT–PCR (primers in Supplementary Table 17) and phosphorimager quantification as described 74 . Identity of isoforms is based on size and sequencing of PCR products. To test for reproducibility, there were seven biological replicates (raw data in Supplementary Table 18). As the assumptions of equal variance ( F -test) and normal distribution of data (Shapiro–Wilk normality test) were not violated, the significance of expression differences was assessed in unpaired, two-sided two-sample t -tests. Holm correction 73 was used for multiple testing (default in p.adjust function of R). S2R+ cells were obtained from the laboratory of S. Sigrist, regularly authenticated by morphology and routinely tested for absence of mycoplasma contamination. The entire experiment was reproduced several months later with three biological replicates (raw data in Supplementary Table 18).

S2 cell luciferase assay

Firefly luciferase is driven from a period 3X69 promoter under control of the CLOCK and CYCLE protein 19, 21 . The D. melanogaster pAc–clk construct was obtained from F. Rouyer, pCopia–Renilla luciferase and period 3X69–luc reporter constructs from M. Rosbash, a [Ca 2+ ]-independent mouse CaMKII T286D was provided by M. Mayford. The CaMKII inhibitor KN-93 was purchased from Abcam (#ab120980).

C. marinus Cyc , C. marinus Clk and C. marinus CaMKII.1–RD were cloned into the pAc5.1/V5–His A plasmid (Invitrogen) with stop codons before the tag. The Q5 Site-Directed Mutagenesis Kit (NEB) was used to make kinase-dead and [Ca 2+ ]-independent versions of C. marinus CaMKII.1–RD (for primers, see Supplementary Table 17).

D. melanogaster S2 cells (Invitrogen) were cultured at 25 °C in Schneider's D. melanogaster medium (Lonza) supplemented with fetal bovine serum (FBS, 10%, heat-inactivated), penicillin (100 U ml −1 ), streptomycin (100 μg ml −1 ) and 2 mM l -glutamine; Sigma). Cells were seeded into 24-well plates (800, 000 cells per well) and transfected with Effectene transfection reagent (Qiagen) according to the manufacturer's instructions. Experiment with mouse [Ca 2+ ]-independent CaMKII: 25 ng pCopia–Renilla , 10 ng period 3X69–luc , 0.5 ng D. melanogaster pAc–clk , 200 ng mouse pAc–CaMKII T286D . Experiment with CaMKII inhibitor KN-93: 25 ng pCopia–Renilla , 10 ng period 3X69–luc , 0.5 ng D. melanogaster pAc–clk , various amounts of KN-93. Experiment with C. marinus genes: 25 ng pCopia–Renilla , 10 ng period 3X69–luc , 100 ng C. marinus pAc–cyc , 100 ng C. marinus pAc–clk , 200 ng C. marinus CaMKII.1–RD K42R or 200 ng C. marinus CaMKII.1–RD T286D . In all experiments, the transfection mix was filled up with empty pAc5.1/V5–His A vector to a total of 435 ng DNA per well. After 48 h, cells were washed with PBS and lysed with Passive Lysis Buffer (Promega). Luciferase activities were determined on a Synergy H1 plate reader (Biotek) using a Dual-Luciferase Reporter Assay System (Promega). For each biological replicate three independent cell lysates were measured and their mean value determined. Firefly luciferase activity was normalized to Renilla luciferase activity and values were normalized to controls transfected with D. melanogaster pAc–clk or C. marinus pAc–clk and C. marinus pAc–cyc , respectively. S2 cells (Invitrogen/Life Technologies, Cat.no. R690-07) were regularly authenticated by morphology and routinely tested for absence of mycoplasma contamination (Lonza MycoAlert). Sample size was chosen to test for reproducibility.

Circadian free-run experiments

For circadian free-run experiments, culture boxes of the Por, He and Jean strains were transferred from light–dark cycle (16:8) to constant dim light (light–light cycle, about 100 lx). Emerging adults were collected in 1-h intervals by a custom made C. marinus fraction collector (similar to those described in ref. 75) and counted once a day. Because collection was automated, the experimenter had no influence on the results and blinding was not necessary. As the circalunar clock restricts adult emergence to a few days, the circadian emergence rhythm can only be assessed over a few days. Several culture boxes were transferred to a light–light cycle at different time points. The resulting emergence data were combined for each strain using the switch to a light–light cycle as a common reference point. We used the maximum number of available individuals. Free-running period was calculated as the mean interval between subsequent emergence peaks, weighting each peak by the number of individuals.

Dostupnosť údajov

All sequence data are deposited in the European Nucleotide Archive (ENA) under PRJEB8339. The reference genome is also on ClunioBase (//cluniobase.cibiv.univie.ac.at). Machine readable super-scaffolding data and the computer source code for the removal of repeated edges are supplied as source data files.

Rozšírené údaje

Rozšírené údaje

  1. 1.

    The biology of Clunio marinus .

  2. 2.

    The reconstructed chromosomes of C. marinus based on the genetic linkage map.

  3. 3.

    C. marinus genome characterization.

  4. 4.

    Synteny analyses of C. marinus chromosome arms.

  5. 5.

    Population genomic analysis of QTLs C1/L1 and C2 and genome-wide analysis of locations and putative effects of SNPs and indels.

  6. 6.

    CaMKII regulates CLK/CYC transcriptional activity and exhibits strain-specific splice variants.

  7. 7.

    A differentiated 125-bp insertion in the CaMKII locus.

  8. 8.

    Model of circadian timing adaptation via sequence differences in the CaMKII.1 genomic locus.

  9. 9.

    Analyses overview.

  10. 10.

    Arrangement of the mitochondrial genome and of the histone gene cluster in C. marinus .

Doplnková informácia

Súbory PDF

  1. 1.

    Doplnková informácia

    This file contains Supplementary Tables 1-19, Supplementary Methods, Supplementary Notes, Supplementary References and a Supplementary Figure – see contents page for details.

Súbory ZIP

  1. 1.

    Doplňujúce údaje

    This zipped file contains .yaml files containing all changes made to the genome assembly during the super-scaffolding process.

  2. 2.

    Doplňujúce údaje

    This zipped file contains the source code for the software "Repeated Edge Remover (RE 2 )".

Komentáre

Odoslaním komentára súhlasíte s tým, že budete dodržiavať naše zmluvné podmienky a pokyny pre komunitu. Ak zistíte, že je niečo urážlivé alebo nie je v súlade s našimi podmienkami alebo pokynmi, označte ho ako nevhodné.