COSMIC: somatisk cancergenetik med hög upplösning

Abstract

COSMIC, Catalogue of Somatic Mutations in Cancer (http://cancer.sanger.ac.uk) är en resurs med hög upplösning för att utforska mål och trender inom genetiken för mänsklig cancer. COSMIC är för närvarande den bredaste databasen över mutationer i cancer och informationen i COSMIC kureras av expertforskare, främst genom att granska ett stort antal vetenskapliga publikationer. Över 4 miljoner kodande mutationer beskrivs i v78 (september 2016), som kombinerar resultat från genomomfattande sekvensering från 28 366 tumörer med fullständig manuell kurering av 23 489 enskilda publikationer med fokus på 186 nyckelgener och 286 nyckelfusionspar inom alla cancerformer. Molekylär profilering av ett stort antal tumörer har också gjort det möjligt att annotera mer än 13 miljoner icke-kodande mutationer, 18 029 genfusioner, 187 429 omarrangemang av arvsmassan, 1 271 436 onormala kopianalyser, 9 175 462 onormala uttrycksvarianter och 7 879 142 differentiellt metylerade CpG-dinukleotider. COSMIC beskriver nu läkemedelsresistensens genetik, nya somatiska genmutationer som gör det möjligt för en tumör att undvika terapeutiska cancerläkemedel. COSMIC v78, som inledningsvis fokuserar på högt karakteriserade läkemedel och gener, innehåller breda profiler av resistensmutationer för 20 läkemedel och beskriver återkommande 301 unika resistensalleler i 1934 läkemedelsresistenta tumörer. All information från COSMIC-databasen är fritt tillgänglig på COSMIC:s webbplats.

INLEDNING

En stor del av cancer hos människor orsakas av somatiska mutationer under en individs livstid, och genom storskalig sekvensering av patientkohorter har man nu beskrivit miljontals sådana mutationer i det mänskliga genomet. Catalogue of Somatic Mutations in Cancer (COSMIC) är ett databassystem som samlar dessa uppgifter om somatiska mutationer från en mängd olika offentliga källor i ett standardiserat arkiv och gör det lätt att utforska dem på en mängd olika grafiska, tabellerade och nedladdningsbara sätt. För att ge största möjliga stöd till cancerforskningen omfattar COSMIC alla former av mänsklig cancer, från de vanligaste cancerformerna i lung-, bröst- och tjocktarmscancer till extremt sällsynta former av blodcancer som endast observeras av en kliniker en eller två gånger under en karriär.

Cosmic startade 2004 med kureringar av endast fyra mänskliga gener (1) och har vuxit till ett stort genomövergripande system för att utforska mönster av somatiska mutationer i alla cancerformer. Dessutom har nyligen genomförda studier karakteriserat särskilda mutationer i utvecklingen av genetisk resistens mot kliniska terapier. Samtidigt som COSMIC säkerställer att COSMIC omfattar hela täckningen av mänsklig cancergenetik, betonas dessa resistensmutationer i ett nytt avsnitt för att belysa deras inverkan på klinisk onkologi.

Databasens innehåll

Som tidigare beskrivits (2,3) sker kurering av data om somatiska mutationer i COSMIC via två parallella vägar. Expertmanuell litteraturkurering gäller de viktigaste cancergenerna, med betoning på fullständig och uttömmande kurering av befintlig litteratur före publicering, följt av regelbundna uppdateringar. Dessa viktiga cancergener väljs ut från Cancer Gene Census (4), en förteckning över över 600 gener med betydande bevis som beskriver deras starka roll i onkologi. Hög kvalitetskontroll resulterar i att över 30 % av artiklarna avvisas på grund av inkonsekvens eller otillräckliga detaljer. Parallellt kräver expertkurering av tumöranalyser som omfattar hela arvsmassan manuell tilldelning av tumörklassificeringar och kliniska uppgifter, men stora filer med uppgifter om genetiska varianter annoteras och laddas upp via ett halvautomatiserat system som använder Ensembl som källa för transkriptomdata. Det totala innehållet i version v78 (september 2016) beskrivs i tabell 1.

Totalt innehåll i version 78 av COSMIC-databasen (september 2016)

Tabell 1.

Totalt innehåll i version 78 av COSMIC-databasen (september 2016)
1 235 846 Tumörprover
4 067 689 Observerade kodande mutationer
18 029 Observerade Genfusioner
1 271 436 Kopianummervarianter
9 175 462 Genuttryck Varianter
7 879 142 Differentiellt metylerade CpGs
13 347 517 Non-kodande varianter
187 429 Strukturella mutationer
23 096 Papers: Manuell kuratering
393 Genomiska publikationer
277 TCGA/ICGC/celllinjestudier
28 366 Hela genomet
1 235 846 Tumörprover
4 067 689 Observerat Kodande mutationer
18 029 Observerade genfusioner
1 271 436 Kopieringsnummervarianter
9 175 462 Varianter för genuttryck
7 879 142 Differentiellt metylerade CpGs
13 347 517 Non-kodande varianter
187 429 Strukturella mutationer
23 096 Papers: Manuell kurering
393 Genomiska publikationer
277 TCGA/ICGC/Cell Line Studies
28 366 Hela genomet
Tabell 1.

Totalt innehåll i version 78 av COSMIC-databasen (september 2016)
1 235 846 Tumörprover
4 067 689 Observerade kodande mutationer
18 029 Observerade Genfusioner
1 271 436 Kopianummervarianter
9 175 462 Genuttryck Varianter
7 879 142 Differentiellt metylerade CpGs
13 347 517 Non-kodande varianter
187 429 Strukturella mutationer
23 096 Papers: Manuell kuratering
393 Genomiska publikationer
277 TCGA/ICGC/celllinjestudier
28 366 Hela genomet
1 235 846 Tumörprover
4 067 689 Observerat Kodande mutationer
18 029 Observerade genfusioner
1 271 436 Kopieringsnummervarianter
9 175 462 Varianter för genuttryck
7 879 142 Differentiellt metylerade CpGs
13 347 517 Non-kodande varianter
187 429 Strukturella mutationer
23 096 Papers: Manuell kurering
393 Genomiska publikationer
277 TCGA/ICGC/Cell Line Studies
28 366 Whole Genomes

Somatiska mutationsdata samlas in för alla cancersjukdomar, för närvarande 1335 sjukdomsbeskrivningar i mer än 5000 detaljerade klassificeringar. Manuell litteraturkurering fokuserar på punktmutationer (mutationer av enstaka nukleotider, små insättningar och borttagningar) och genfusioner. Tumörprofilering som omfattar hela genomet kan dock vara mycket bredare. Medan genomisk litteratur vanligtvis betonar punktmutationer, omfattar större konsortiefokuserade dataportaler som The Cancer Genome Atlas (5) (TCGA; http://cancergenome.nih.gov) och International Cancer genome Consortium (6) (ICGC; https://dcc.icgc.org) mycket bredare annotationer, inklusive punktmutationer, avvikelser i kopieringsnummer, genuttrycksvarianter, DNA-metyleringsvarianter och strukturella omarrangemang i genomet, vilka alla kureras i COSMIC och kombineras med andra kureringar. För att understryka effektiviteten av litteraturkureringens tillvägagångssätt är över 60 % av COSMIC:s innehåll för hela genomet kuraterat från vetenskaplig litteratur, medan mindre än en tredjedel kommer från konsortiekällor.

När det väl är kuraterat i COSMIC standardiseras och kombineras alla data i en enda databas. Varje mutation tilldelas en koordinat på det mänskliga referensgenomet. Sedan 2015 är standardreferensen GRCh38, men ett arkivsystem på GRCh37 upprätthålls. Varje mutation tilldelas antingen en kodande eller icke-kodande annotation. Icke-kodande beskrivningar är enkla uttalanden om DNA-sekvensförändringar på specificerade genomiska platser. Kodande mutationer kommenteras dessutom enligt deras inverkan på den gen de påverkar, genom att beskriva kodande nukleotidsekvensförändringar och peptidsekvensförändringar. Manuellt kurerade mutationer, på viktiga cancercensusgener, är annoterade till de transkriptioner som har mest stöd i litteraturen (för att på bästa sätt stödja den grupp som granskar dessa gener). Alla andra genvariationer annoteras dock via Ensembl-databasen (7) till det längsta CCDS-transkriptet (Consensus Coding Domain Sequences; 8). Genfusioner beskrivs i termer av deras exoninnehåll från varje partnergen. Återigen är de transkript som väljs ut för att beskriva fusioner de som används mest i litteraturen, vilket garanterar bästa möjliga stöd till denna gemenskap. Genuttrycksvarianter är ytterligare numeriska värden (Z-poäng) som är kopplade till namngivna gener i COSMIC och som hänvisar till uttrycksskillnader i varje prov från en populationsnorm (beräknad per sjukdomskohort). Kopieringsnummerförändringar är annoterade för att beskriva ett ploidievärde för varje gen i varje testat tumörprov, och beskrivs som ökning eller minskning jämfört med det genomsnittliga ploidievärdet i varje tumör. Hyper/hypo-metylerade CpG-dinukleotider beskrivs i ett prov när betavärdet för varje sond skiljer sig väsentligt från normen för populationen per sjukdom. Slutligen ges strukturella brytpunkter grundläggande annotationer till referensgenomkoordinater och tolkas till mer beskrivande konsekvensannotationer när de stöds av ytterligare publicerad information.

Tumörklassificering är standardiserad och beskrivs i flera nomenklaturer för att säkerställa hög upplösning, men också för att underlätta integrativa analyser. Varje tumörprov klassificeras primärt i COSMIC enligt en anpassad vokabulär som utvecklats av ett team av ledande patologer; tillgänglig och beskriven här: http://cancer.sanger.ac.uk/cosmic/classification. Denna klassificering översätts nu till National Cancer Institute thesaurus (”NCIt”; 9; https://ncit.nci.nih.gov/ncitbrowser), som valts ut som den offentliga ontologin med högsta upplösning för alla cancersjukdomar. Parallellt med detta översätts NCIt-klassificeringarna också till Experimental Factor Ontology-klassificeringar (”EFO”; 10) som stöder flera sätt att integrera COSMIC-data i bredare analyser inom cancergenetik.

En ökad genomisk kurering har lett till ett större utbud av varianter som annoterats över hela genomet, och varje mänsklig gen visar nu en spridning av somatiska mutationer över hela sin längd. För att minska komplexiteten i dessa data och stödja studier som identifierar sjukdomsdrivande faktorer är alla punktmutationer i COSMIC märkta med en status för en enskild nukleotidpolymorfism (SNP) och ett patogenitetsvärde. SNP-statusen definierar om varje variant tidigare har beskrivits i 1000 genomes-studien (11) eller i en panel av normala prover som används som kontroller i ICGC:s genomiska profileringsexperiment. Patogenicitetsvärden bestäms av algoritmen FATHMM-MKL (12) med poäng som tolkas för att ange varje variant som ”patogen” eller ”neutral”.

Ett nytt ämne för kurering infördes 2016, som omfattar genetik av läkemedelsresistens. Som beskrivits har miljontals mutationer observerats i cancer, med tusentals alleler som är inblandade i sjukdomsorsaken. Av dessa beskrivs dessutom ett litet antal som orsakar klinisk resistens mot läkemedelsterapier. Dessa detaljer, när de publiceras, fångas också upp i COSMIC:s kureringsprocesser, och i den senaste versionen (v78; september 2016) beskrivs de olika mutationer som ger resistens mot 20 behandlingar mot cancer.

DATA TILLGÅNG

COSMIC är lättast att utforska genom att använda dess offentliga webbplats (http://cancer.sanger.ac.uk). Den har byggts upp för att göra de många annotationerna i COSMIC lätta att utforska på användarvänliga grafiska sätt, samtidigt som den tillhandahåller stora tabellerade datamängder som ligger till grund för varje presentation. Utöver denna webbplats, som beskrivs nedan, har man sökt efter möjligheter att göra COSMIC tillgängligt för andra resurser så att de kan lägga till en bred cancerkontext till ytterligare offentliga genomiska resurser. COSMIC stöder till exempel direkt forskning om barncancer med fullständiga datamängder i St. Jude ProteinPaint (13) (https://pecan.stjude.org/#/proteinpaint), ger en genomomfattande kontext för somatisk cancervariation i Ensembl (7) (http://www.ensembl.org) och lyfter fram onkologiska mål i Cancer Gene Census i OpenTargets (https://www.opentargets.org). En COSMIC-beacon (http://cancer.sanger.ac.uk/cosmic/beacon) finns också tillgänglig, i enlighet med GA4GH-standarderna (http://ga4gh.org/#/beacon), vilket gör det möjligt att söka i COSMIC inom ramen för stora federerade analyser. Det fullständiga databasinnehållet i en mängd användbara format, inklusive Oracle-dumpfiler, kan erhållas via nedladdning (http://cancer.sanger.ac.uk/cosmic/download), vilket kräver registrering (https://cancer.sanger.ac.uk/cosmic/register).

Website overview

Cosmic-webbplatsen är tillgänglig online på http://cancer.sanger.ac.uk. På förstasidan (figur 1) finns flera sätt att utforska databasen (”Resources”, ”Tools”) och en rad sidor som beskriver databasens innehåll, hur data genererades och detaljer om tillgång till den (”Expert Curation”, ”Data”). På höger sida sammanfattar ett Circos-diagram mutationsåterfall i alla tumörgenom i COSMIC (version 78, september 2016, innehåller 28 366 genomer och exom). Med en inzoomad version för närmare utforskning (http://cancer.sanger.ac.uk/cosmic/landscape) av återkommande toppar är denna bild klickbar och svarar med ett detaljerat genomiskt perspektiv över den valda regionen. COSMIC navigeras dock främst via den centrala ”Search”-rutan som accepterar alla gennamn eller synonymer, mutationssyntax, namn på prov/celllinje eller artikelförfattare och svarar med en lista över alternativ som matchar den inmatade söktermen tillsammans med några detaljer som underlättar urvalet. När du klickar på ett val visas en sammanfattningssida med en översikt över den valda genen, provet, mutationen eller publikationen, med ytterligare länkar för att specialisera en sökning i COSMIC; på detta sätt kan trender för somatiska mutationer utforskas i detalj för flera gener och sjukdomstyper.

Figur 1.

Framsidan för COSMIC erbjuder enkla sätt att söka och navigera i databasen; olika verktyg finns tillgängliga för olika perspektiv på liknande data, och flera beskrivande sidor beskriver datakureringsförfaranden och aktuellt innehåll.

Figur 1.

Framsidan av COSMIC erbjuder enkla sätt att söka och navigera i databasen; olika verktyg finns tillgängliga för olika perspektiv på liknande data, och flera beskrivande sidor ger detaljerade uppgifter om datakureringsförfaranden och aktuellt innehåll.

Mutationstrender i COSMIC är lättast att utforska när man börjar med en specifik gen eller cancersjukdom. Gen-sökningar, som i första hand styrs av HUGO:s (Human Genome Organisation) gennamn (http://www.genenames.org/), kommer också att söka alla gen-synonymer (liksom andra termer, inklusive prov/mutation/författare) och återge alla poster som innehåller de angivna tecknen. En sökning på ”PTEN” kommer till exempel att ge en gen, eftersom detta gennamn är unikt. En sökning på ”RAS” ger dock 70 poster, eftersom denna term förekommer i flera gennamn och synonymer; att välja en medlem av RAS-familjen (t.ex. KRAS) ger ett mer specifikt resultat.

När en gen väljs börjar COSMIC genanalysen genom att visa fördelningen av mutationer över genens längd i ett histogramformat. I denna grafik representerar x-axeln den linjära peptidsekvensen (från metionin till stopp), med ett alternativ för att representera nukleotider i stället för aminosyror (i den högra filtreringsrutan). Histogrammet sammanfattar mutationsinnehållet för flera olika mekanismer och omfattar flera Y-axlar som är vertikalt anpassade, med en topphöjd som representerar antalet prover där varje mutation observerades (skalstrecket på vänster sida visar antalet prover som muterats vid varje position). Från toppen till botten visar mini-histogrammen toppar för återkommande mutationer i gensekvensen för: enstaka nukleotisubstitutioner, multinukleotisubstitutioner, små insättningar, små deletioner, ökning/förlust av antalet kopior, överexpression/underexpression av gener och hyper/hypo-metylerade CpG-dinukleotider. Figur 2 visar till exempel mutationsprofilen för ABL1-genen, som är en viktig orsak till blodcancer. Det är tydligt att de flesta cancermutationer samlas inom och runt tyrosinkinasdomänen för denna peptid, vilket är karakteristiskt för drivande mutationer i denna breda genfamilj. Med hjälp av de vänstra skalstängerna för att bedöma effekten av varje typ av mutation driver ABL1 i första hand cancerutveckling genom punktmutationer i kinasdomänen och överuttryck. Endast ett litet antal andra mutationstyper observeras. Grafiken är zoombar och kräver att man klickar och drar muspekaren över den intressanta regionen för att visa den mer detaljerat.

Figur 2.

Huvudhistogrammet för genanalys sammanfattar allt innehåll av mutationer i en enskild gen, i det här fallet genen ABL1. Histogrammen representerar uppifrån och ner mutationsåterfall vid varje nukleotid/aminosyraposition, uppdelat i separata segment för enkel nukleotisubstitutioner, multinukleotisubstitutioner, insättningar, deletioner, ökning/förlust av antalet kopior, över-/underexpression av gener och CpG-hyper/hypo-metylering. Mutationsåterkommande över tyrosinkinasdomänen (markerad i lila) indikerar att detta, när det är muterat, är den nyckelregion som driver cancer.

Figur 2.

Huvudavsnittet av histogrammet för genanalysen sammanfattar allt mutationsinnehåll över en enskild gen, i det här fallet genen ABL1. Histogrammen representerar uppifrån och ner mutationsåterfall vid varje nukleotid/aminosyraposition, uppdelat i separata segment för enkel nukleotisubstitutioner, multinukleotisubstitutioner, insättningar, deletioner, ökning/förlust av antalet kopior, över- eller underexpression av genen och CpG-hyper/hypo-metylering. Mutationer som återkommer i tyrosinkinasdomänen (markerad i lila) tyder på att detta, när det är muterat, är den nyckelregion som driver cancer.

Med hjälp av filtreringsrutan på höger sida kan detta histogram (tillsammans med all information i andra flikar på den här sidan) sållas och utforskas på flera olika sätt, med alternativ för att välja mutationer från en viss vävnad eller sjukdom, eller en viss genregion, specificera endast bekräftade somatiska mutationer, eller endast cellinjer eller patientprover, samt en mängd andra mer mekanistiska mutationsegenskaper.

Vi visar på webbsidan olika perspektiv på en gens mutationsinnehåll i separata ”flikar” som är placerade högst upp på sidan och erbjuder flera sätt att granska den stora mängden information som finns tillgänglig. Särskilt användbart för att utforska inverkan av utvalda gener över hundratals kurerade cancertyper, visar ”Tissue” en uppdelning av mutationer över vävnader och sjukdomar arrangerade i en matris. Fyra mutationstyper visas på x-axeln och primära vävnadstyper på y-axeln. Mellan dessa visar små röda histogram med enstaka staplar effekten av varje mutationstyp på varje vävnad, där större staplar indikerar en högre effekt, vilket gör det möjligt att mycket snabbt utvärdera vilka vävnader som påverkas mest av den valda genen (”n” visas också för att utvärdera betydelsen av den röda staplen; om siffran är liten är betydelsen låg). För ABL1 är den längsta stapeln ”Haematopoietic & Lymphoid”, vilket visar på dess inverkan på blodcancer. Om man klickar på frasen ”Haematopoietic & Lymphoid” visas en uppdelning av cancersjukdomsklassificeringarna under denna vävnad, vilket visar att ABL1-mutationer i första hand driver 28 % av de utvärderade kroniska myeloida leukemierna och 32 % av de akuta lymfoblastiska leukemierna (i COSMIC v78).

Cancer browser

Cancersjukdomar navigeras enklast med hjälp av Cancer Browser (http://cancer.sanger.ac.uk/cosmic/browse/tissue), där ett urval kan göras från en lista, vilket gör att man slipper skriva in ofta komplexa patologitermer. Det är viktigt att välja en primär vävnad, därefter erbjuds ett urval av relaterade termer för subvävnad, histologi och subhistologi. Dessa är alla klickbara, och alla val kan hoppas över med hjälp av det översta alternativet ”inkludera alla”. När ett val har gjorts kan man genom att klicka på ”Go” beräkna mutationsprofiler för alla gener för den valda sjukdomen. Om man t.ex. bara väljer lungcancer och trycker på Go visas omedelbart de 20 mest frekvent muterade generna i lungcancer (ordnade efter mutationsfrekvens), där man i första hand lyfter fram välkaraktäriserade gener som TP53, EGFR och KRAS). I likhet med sidorna för genanalys erbjuder ytterligare flikar olika perspektiv på mutationsbördan för den valda sjukdomen.

Genombrowser

Somatiska mutationer i cancer är nu annoterade över hela det mänskliga genomet. Med över 4 miljoner kodande punktmutationer och över 13 miljoner icke-kodande punktmutationer är en metod för att utvärdera den genomiska kontexten över denna information nödvändig. COSMIC Genome Browser (http://cancer.sanger.ac.uk/cosmic/browse/genome) uppnår detta genom att visa alla COSMIC-mutationsdata i linje med en rad genomiska annotationer, med hjälp av en instans av Jbrowse-plattformen (14) som gör enorma data lätt och snabbt utforskbara. På systemets förstasida finns den ovan beskrivna sökfunktionen, men den returnerar en genomisk (snarare än genisk) bild av det gjorda urvalet. De första vyerna visar genstruktur, punktmutationer och brytpunkter i genomstrukturen för den valda regionen. Genom att zooma in och ut kan man utforska detaljer och trender i en genomisk region, och detaljer om mutationer omvandlas till histogram när uppgifterna blir för många på skärmen. På den vänstra sidan av skärmen erbjuds ett antal ytterligare spår, uppdelade på annoteringar av genomisk struktur/funktion från Ensembl-databasen (7) och flera annoteringar av somatiska mutationer från COSMIC-databasen. Dessa gör det möjligt att undersöka alla uppgifter om somatiska mutationer och variationer i linje med strukturer för kodande gener, icke-kodande RNA (inklusive mikroRNA) och regulatoriska regioner. Dessutom görs innehållet i dbSNP (15) (https://www.ncbi.nlm.nih.gov/snp/) tillgängligt för att möjliggöra utforskning av sambanden mellan somatiska mutationer i COSMIC och bredare mänsklig variation som omfattas av dbSNP.

Genetik av läkemedelsresistens

I takt med att precisionsmedicinen utvecklas växer det fram alltmer litteratur som beskriver genetiska reaktioner på riktade terapier. Somatiska mutationer som förvärvats under tumörutvecklingen är ofta under selektivt tryck när monoterapier tillämpas på cancerpatienter, vilket leder till att nya kloner som innehåller resistenta alleler uppstår och orsakar terapisvikt. COSMIC samlar nu denna information (se översikt på http://cancer.sanger.ac.uk/cosmic/drug_resistance) och beskriver de olika somatiska mutationer som orsakar resistens mot utvalda terapier. I v78 av COSMIC (september 2016) beskrivs 20 läkemedel i detalj och 301 unika sekvensvarianter som har orsakat läkemedelsresistens i 1934 tumörprover. Denna information presenteras på COSMIC-webbplatsen i grafisk form med cirkeldiagram och histogram som beskriver återkommande gener och mutationer i utvecklingen av terapiresistens. Till exempel har tumörer som drivs av ABL1-mutationer behandlats med fyra namngivna terapier (Imatinib, Dasatinib, Bosutinib och Nilotinib) samt andra icke namngivna kinashämmare. Landskapet av resistens mot dessa läkemedel presenteras på http://cancer.sanger.ac.uk/cosmic/gene/analysis?ln=ABL1#dt, med alternativ för att se de olika gener som är inblandade eller det mycket större utbudet av sekvensvarianter (figur 3).

Figur 3.

Flera namngivna terapier har beskrivits för behandling av ABL1-drivna cancerformer, och i många studier har man rapporterat om nya mutationer som orsakar resistens mot dessa terapier. Detta histogram visar en lång lista över mutationer som är förknippade med resistens mot namngivna terapier, med ett histogram som visar deras återkomst.

Figur 3.

Flera namngivna terapier har beskrivits för behandling av ABL1-drivna cancerformer och många studier har rapporterat om nya mutationer som orsakar resistens mot dessa terapier. Detta histogram visar en lång lista över mutationer som är förknippade med resistens mot namngivna terapier, med ett histogram som visar deras återkomst.

COSMIC cell lines

Parallellt med COSMIC-kurationerna som visas på COSMIC:s huvudwebbplats gör ”COSMIC Cell Lines” (http://cancer.sanger.ac.uk/cell_lines) molekylär profilering av 1015 cancercellinjer som vanligen används inom laboratorieforskningen, särskilt vid utvärderingar av läkemedelsaktivitet och -effekt, tillgänglig. Detta är en separat men parallell databas som innehåller uppdateringar av den information som publiceras i (16), inklusive fullständig exomsekvensering av varje cellinje, analys av antalet kopior och analys av genuttryck. Ytterligare information läggs till allteftersom ytterligare experiment avslutas. Uppgifterna finns på en analytisk webbplats med identisk funktionalitet som det kurerade COSMIC-systemet (beskrivet ovan), med ytterligare länkar till rådatafiler och utvärderingar av läkemedelskänslighet (finns på http://www.cancerrxgene.org/).

Downloads

Förutom den kostnadsfria och öppna presentationen av COSMIC på den offentliga webbplatsen kan COSMIC också laddas ner i flera olika format (https://cancer.sanger.ac.uk/cosmic/download). Flera filer i TSV-format (Tab-separated format) eller VCF-format (Variant call format) ger fullständiga datamängder för varje COSMIC-utgåva, och hela databasen tillhandahålls som en fullständig Oracle-exportfil. Nedladdning av fullständiga COSMIC-datauppsättningar kräver registrering, men efterföljande tillgång är fullständig och gratis för alla akademiska och icke-vinstdrivande institut (https://cancer.sanger.ac.uk/cosmic/register).

FRAMTIDIGT ARBETE

COSMIC byggs i första hand upp genom kuratering av publicerad litteratur av expertforskare. Detta är fortfarande ett viktigt fokus, och i takt med att teamet expanderar har COSMIC kunnat omfatta en större bredd av annoteringar, vilket nyligen resulterade i det nya fokuset på Genetics of Drug Resistance (läkemedelsresistensens genetik). Alla aspekter av genetisk kuratering av cancer kommer att fortsätta, med tonvikt på att samla in detaljer för djupa beskrivande kommentarer om viktiga cancergener och breda molekylära profiler om cancergenom. COSMIC-databasen har vuxit avsevärt under de senaste utgåvorna, och man räknar med att denna tillväxt kommer att fortsätta (figur 4).

Figur 4.

COSMIC har vuxit snabbt under de senaste åren, i takt med att ett större antal gener har kurerats och ytterligare mutationsmekanismer har tagits med. Grafen visar en enkel representation av storleken på den databas som ligger till grund för COSMIC-webbplatsen från 2010 till 2016 (gzippad Oracle dmp-fil, i Mb).

Figur 4.

COSMIC har vuxit snabbt under de senaste åren, i takt med att ett större antal gener kuratiserats och ytterligare mutationsmekanismer har inkluderats. Grafen visar en enkel representation av storleken på databasen som stöder COSMIC-webbplatsen från 2010 till 2016 (gzippad Oracle dmp-fil, i Mb).

Informationen i COSMIC-databasen görs tillgänglig på ett antal olika sätt, och dessa kommer att utökas. Genom att COSMIC-webbplatsen omfattar analytisk navigering av stora data om flera olika sjukdomar och mekanismer blir den alltmer komplex, och omformningen av vissa av dess presentationer kommer att göra den lättare att utforska. Stöd till extern integrering av COSMIC är också en prioritet. Ett programmatiskt API kommer att övervinna en stor del av det nuvarande behovet av att ladda ner stora datafiler och kommer att vara till stor hjälp för att stödja studier som behöver sammanföra stora datamängder. På detta sätt kommer COSMIC att fortsätta att stödja ett brett spektrum av cancerforskningsundersökningar, från dem som utforskar primära tumörers genetik, via diagnostik och identifiering av mål för läkemedel, till dem som försöker förstå svaren på kliniska ingrepp.

ÅTERKÄNNANDE

Majoriteten av det här arbetet har stötts av Wellcome Trust under bidragsreferens 077012/Z/05/Z. Ytterligare medel för att stödja ytterligare kurering och utveckling av webbplatsen har tillhandahållits genom licensiering av COSMIC-databasen till kommersiella organisationer. Författarna vill dessutom tacka för stöd via samarbetsrelationer med Bayer Pharmaceuticals, AstraZeneca, Cancer Research Technology och Astex Pharmaceuticals.

FONDERING

Wellcome Trust ; licensiering av COSMIC-databasen . Finansiering av avgift för öppen tillgång: Wellcome Trust .

Intressekonflikter. Inga deklarerade.

Bamford
S.

,

Dawson
E.

,

Forbes
S.

,

Clements
J.

,

Pettett
R.

,

Dogan
A.

,

Flanagan
A.

,

Teague
J.

,

Futreal
P.A.

,

Stratton
M.R.

och andra.

Databasen och webbplatsen COSMIC (Catalogue of Somatic Mutations in Cancer)

.

Br. J. Cancer

.

2004

;

91

:

355

358

.

Forbes
S.A.

,

Beare
D.

,

Gunasekaran
P.

,

Leung
K.

,

Bindal
N.

,

Boutselakis
H.

,

Ding
M.

,

Bamford
S.

,

Cole
C.

,

Ward
S.

och andra.

COSMIC: utforskning av världens kunskap om somatiska mutationer i cancer hos människor

.

Nucleic Acids Res.
2015

;

43

:

D805

D811

.

Forbes
S.A.

,

Beare
D.

,

Bindal
N.

,

Bamford
S.

,

Ward
S.

,

Cole
C.G.

,

Jia
M.

,

Kok
C.

,

Boutselakis
H.

,

De
T.

et al. .

COSMIC: High-Resolution Cancer Genetics Using the Catalogue of Somatic Mutations in Cancer

.

Curr. Protoc. Hum. Genet.
2016

;

91

:

10.11.1

10.11.37

.

Futreal
P.A.

,

Coin
L.

,

Marshall
M.

,

Down
T.

,

Hubbard
T.

,

Wooster
R.

,

Rahman
N.

,

Stratton
M.R.

.

En kartläggning av mänskliga cancergener

.

Nat. Rev. Cancer

.

2004

;

4

:

177

183

.

Collins
F.S.

,

Barker
A.D.

.

Kartläggning av cancergenomet. Att fastställa vilka gener som är inblandade i cancer kommer att hjälpa till att staka ut en ny kurs i det komplexa landskapet av mänskliga maligniteter

.

Sci. Am.
2007

;

296

:

50

57

.

Hudson
T.J.

,

Anderson
W.

,

Artez
A.

,

Barker
A.D.

,

Bell
C.

,

Bernabé
R.R.

,

Bhan
M.K.

,

Calvo
F.

,

Eerola
I.

,

Gerhard
D.S.

och andra.

Internationellt nätverk för cancergenomprojekt

.

Nature

.

2010

;

464

:

993

998

.

Yates
A.

,

Akanni
W.

,

Amode
M.R.

,

Barrell
D.

,

Billis
K.

,

Carvalho-Silva
D.

,

Cummins
C.

,

Clapham
P.

,

Fitzgerald
S.

,

Gil
L.

och andra.

Ensembl, 2016

.

Nucleic Acids Res.
2016

;

44

:

D710

D716

.

Pruitt
K.D.

,

Harrow
J.

,

Harte
R.A.

,

Wallin
C.

,

Diekhans
M.

,

Maglott
D.R.

,

Searle
S.

,

Farrell
C.M.

,

Loveland
J.E.

,

Ruef
B.J.

,

Hart
E.

et al.

Projektet för konsensuskodningssekvenser (CCDS): Identifiera en gemensam uppsättning proteinkodande gener för människans och musens genom

.

Genome Res.
2009

;

19

:

1316

1323

.

Sioutos
N.

,

de Coronado
S.

,

Haber
M.W.

,

Hartel
F.W.

,

Shaiu
W.L.

,

Wright
L.W.

.

NCI Thesaurus: en semantisk modell som integrerar cancerrelaterad klinisk och molekylär information

.

J. Biomed. Inform.
2007

;

40

:

30

43

.

Malone
J.

,

Holloway
E.

,

Adamusiak
T.

,

Kapushesky
M.

,

Zheng
J.

,

Kolesnikov
N.

,

Zhukova
A.

,

Brazma
A.

,

Parkinson
H

.

Modellering av provvariabler med en experimentell faktorontologi

.

Bioinformatik

.

2010

;

26

:

1112

1118

.

The 1000 genomes project consortium

.

En global referens för mänsklig genetisk variation

.

Nature

.

2015

;

526

:

68

74

.

Shihab
H.A.

,

Rogers
M.F.

,

Gough
J.

,

Mort
M.

,

Cooper
D.N.

,

Day
I.N.

,

Gaunt
T.R.

,

Campbell
C.

.

En integrativ metod för att förutsäga de funktionella effekterna av variationer i icke-kodande och kodande sekvenser

.

Bioinformatik

.

2015

;

31

:

1536

1543

.

Zhou
X.

,

Edmonson
M.N.

,

Wilkinson
M.R.

,

Patel
A.

,

Wu
G.

,

Liu
Y.

,

Li
Y.

,

Zhang
Z.

,

Rusch
M.C.

,

Parker
M.

och andra.

Exploring genomic alteration in pediatric cancer using ProteinPaint

.

Nat. Genet.
2016

;

48

:

4

6

.

Buels
R.

,

Yao
E.

,

Diesh
C.M.

,

Hayes
R.D.

,

Munoz-Torres
M.

,

Helt
G.

,

Goodstein
D.M.

,

Elsik
C.G.

,

Lewis
S.E.

,

Stein
L.

och andra.

JBrowse: en dynamisk webbplattform för genomvisualisering och analys

.

Genome Biol.
2016

;

17

:

66

90

.

Sherry
S.T.

,

Ward
M.H.

,

Kholodov
M.

,

Baker
J.

,

Phan
L.

,

Smigielski
E.M.

,

Sirotkin
K.

.

dbSNP: NCBI:s databas för genetisk variation

.

Nucleic Acids Res.
2001

;

29

:

308

311

.

Iorio
F.

,

Knijnenburg
T.A.

,

Vis
D.J.

,

Bignell
G.R.

,

Menden
M.P.

,

Schubert
M.

,

Aben
N.

,

Gonçalves
E.

,

Barthorpe
S.

,

Lightfoot
H.

och andra.

En landskap av farmakogenomiska interaktioner i cancer

.

Cell

.

2016

;

166

:

740

754

.

© The Author(s) 2016. Publicerad av Oxford University Press på uppdrag av Nucleic Acids Research.
Detta är en Open Access-artikel som distribueras enligt villkoren i Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), som tillåter obegränsad återanvändning, distribution och reproduktion i vilket medium som helst, under förutsättning att originalverket är korrekt citerat.

Lämna ett svar

Lämna ett svar

Din e-postadress kommer inte publiceras.