COSMIC: genetica somatica del cancro ad alta risoluzione

Abstract

COSMIC, il Catalogo delle mutazioni somatiche nel cancro (http://cancer.sanger.ac.uk) è una risorsa ad alta risoluzione per esplorare obiettivi e tendenze nella genetica del cancro umano. Attualmente il più ampio database di mutazioni nel cancro, le informazioni in COSMIC sono curate da scienziati esperti, principalmente esaminando un gran numero di pubblicazioni scientifiche. Oltre 4 milioni di mutazioni codificanti sono descritte nella v78 (settembre 2016), combinando i risultati del sequenziamento genome-wide da 28 366 tumori con una completa curatela manuale di 23 489 pubblicazioni individuali focalizzate su 186 geni chiave e 286 coppie di fusione chiave in tutti i tumori. Il profiling molecolare di un gran numero di tumori ha anche permesso l’annotazione di più di 13 milioni di mutazioni non codificanti, 18 029 fusioni di geni, 187 429 riarrangiamenti del genoma, 1 271 436 segmenti di numero di copie anormali, 9 175 462 varianti di espressione anormali e 7 879 142 dinucleotidi CpG metilati in modo diverso. COSMIC ora dettaglia la genetica della resistenza ai farmaci, nuove mutazioni genetiche somatiche che permettono a un tumore di eludere i farmaci terapeutici contro il cancro. Concentrandosi inizialmente su farmaci e geni altamente caratterizzati, COSMIC v78 contiene ampi profili di mutazioni di resistenza attraverso 20 farmaci, dettagliando la ricorrenza di 301 alleli di resistenza unici in 1934 tumori resistenti ai farmaci. Tutte le informazioni del database COSMIC sono disponibili gratuitamente sul sito web COSMIC.

INTRODUZIONE

Una gran parte del cancro umano è causato dall’acquisizione di mutazioni somatiche nel corso della vita di un individuo, e il sequenziamento su larga scala di coorti di pazienti ha ora descritto milioni di tali mutazioni nel genoma umano. Il Catalogue of Somatic Mutations in Cancer (COSMIC) è un sistema di database che raccoglie questi dati sulle mutazioni somatiche da una varietà di fonti pubbliche in un repository standardizzato, e li rende facilmente esplorabili in una varietà di modi grafici, tabulati e scaricabili. Per fornire il massimo supporto alla ricerca sul cancro, COSMIC comprende tutte le forme di cancro umano, dai tumori più frequenti del polmone, del seno e del colon, a forme estremamente rare di cancro del sangue, osservate da un clinico solo una o due volte in una carriera.

Iniziato nel 2004 con la cura di soli quattro geni umani (1), COSMIC è cresciuto fino a diventare un grande sistema a livello di genoma per esplorare i modelli di mutazioni somatiche in tutti i tumori; sostanziali dati genetici sono ora generati di routine nei tumori umani e questo è catturato da esperti, procedure di cura standardizzate. Inoltre, studi recenti hanno caratterizzato particolari mutazioni nell’evoluzione della resistenza genetica alle terapie cliniche. Pur garantendo che COSMIC comprenda l’intera copertura della genetica del cancro umano, queste mutazioni di resistenza sono enfatizzate in una nuova sezione per evidenziare il loro impatto in oncologia clinica.

Contenuto del database

Come descritto in precedenza (2,3), la cura dei dati sulle mutazioni somatiche in COSMIC procede attraverso due percorsi paralleli. La curation manuale di esperti si rivolge ai più importanti geni del cancro, enfatizzando una curation completa ed esaustiva della letteratura esistente prima del rilascio, seguita da aggiornamenti regolari. Questi geni chiave del cancro sono selezionati dal Cancer Gene Census (4), un elenco di oltre 600 geni con prove sostanziali che descrivono il loro forte ruolo in oncologia. L’elevato controllo di qualità si traduce nel rifiuto di oltre il 30% dei documenti a causa di incoerenza o di dettagli insufficienti. In parallelo, la curatela esperta delle analisi dei tumori a livello genomico richiede l’assegnazione manuale delle classificazioni dei tumori e dei dettagli clinici, ma grandi file di dati sulle varianti genetiche sono annotati e caricati tramite un sistema semi-automatico che utilizza Ensembl come fonte di dati del trascrittoma. Il contenuto totale nella versione v78 (settembre 2016) è descritto nella tabella 1.

Contenuto totale nella versione 78 del database COSMIC (settembre 2016)

Tabella 1.

Contenuto totale nella versione 78 del database COSMIC (settembre 2016)
1 235 846 Campioni di tumore
4 067 689 Mutazioni codificanti osservate
18 029 Mutazioni osservate Fusioni geniche
1 271 436 Varianti del numero di copia
9 175 462 Espressione genica Varianti
7 879 142 CpGs metilate differenzialmente
13 347 517 Non-varianti codificanti
187 429 Mutazioni strutturali
23 096 Carte: Curatela manuale
393 Pubblicazioni genomiche
277 StudiTCGA/ICGC/Cell Line
28 366 Genomi interi
1 235 846 Campioni di tumore
4 067 689 Osservate Mutazioni codificanti
18 029 Fusioni geniche osservate
1 271 436 Varianti numero di copia
9 175 462 Varianti di espressione genica
7 879 142 CpGs differenzialmente metilate
13 347 517 Non-varianti codificanti
187 429 Mutazioni strutturali
23 096 Carte: Correzione manuale
393 Pubblicazioni genomiche
277 TCGA/ICGC/Cellula Line Studies
28 366 Genomi interi
Tabella 1.

Contenuto totale nella versione 78 del database COSMIC (settembre 2016)
1 235 846 Campioni di tumore
4 067 689 Mutazioni codificanti osservate
18 029 Mutazioni osservate Fusioni geniche
1 271 436 Varianti del numero di copia
9 175 462 Espressione genica Varianti
7 879 142 CpGs metilate differenzialmente
13 347 517 Non-varianti codificanti
187 429 Mutazioni strutturali
23 096 Carte: Curatela manuale
393 Pubblicazioni genomiche
277 StudiTCGA/ICGC/Cell Line
28 366 Genomi interi
1 235 846 Campioni di tumore
4 067 689 Osservate Mutazioni codificanti
18 029 Fusioni geniche osservate
1 271 436 Varianti numero di copia
9 175 462 Varianti di espressione genica
7 879 142 CpGs differenzialmente metilate
13 347 517 Non-varianti codificanti
187 429 Mutazioni strutturali
23 096 Carte: Curatela manuale
393 Pubblicazioni genomiche
277 StudiTCGA/ICGC/Cell Line
28 366 Whole Genomes

I dati sulle mutazioni somatiche sono raccolti in tutte le malattie tumorali, attualmente 1335 descrizioni di malattie attraverso più di 5000 classificazioni dettagliate. La curatela manuale della letteratura si concentra sulle mutazioni puntiformi (mutazioni a singolo nucleotide, piccole inserzioni e delezioni) e sulle fusioni geniche. Tuttavia, il profilo dei tumori a livello genomico può essere molto più ampio. Mentre la letteratura genomica di solito enfatizza le mutazioni puntiformi, i più grandi portali di dati incentrati sui consorzi, tra cui The Cancer Genome Atlas (5) (TCGA; http://cancergenome.nih.gov) e International Cancer genome Consortium (6) (ICGC; https://dcc.icgc.org) comprendono annotazioni molto più ampie, tra cui mutazioni puntiformi, aberrazioni del numero di copie, varianti di espressione genica, varianti di metilazione del DNA e riarrangiamenti genomici strutturali, che sono tutti curati in COSMIC e combinati con altre annotazioni. Sottolineando l’efficacia dell’approccio di cura della letteratura, oltre il 60% del contenuto genomico di COSMIC è curato dalla letteratura scientifica, mentre meno di un terzo proviene da fonti del consorzio.

Una volta curati in COSMIC, tutti i dati sono standardizzati e combinati in un unico database. Ad ogni mutazione viene assegnata una coordinata sul genoma umano di riferimento. Dal 2015, il riferimento predefinito è GRCh38, ma viene mantenuto un sistema di archivio su GRCh37. Ad ogni mutazione viene assegnata un’annotazione codificante o non codificante. Le descrizioni non codificanti sono semplici dichiarazioni di cambiamento della sequenza del DNA in posizioni genomiche specifiche. Le mutazioni codificanti sono inoltre annotate in base al loro impatto sul gene che influenzano, descrivendo il cambiamento della sequenza di nucleotidi codificanti e il cambiamento della sequenza peptidica. Le mutazioni curate manualmente, sui geni chiave del Cancer Census, sono annotate alle trascrizioni che sono più supportate nella letteratura (per supportare al meglio la comunità che esamina questi geni). Tuttavia, tutte le altre variazioni geniche sono annotate tramite il database Ensembl (7) alla trascrizione CCDS più lunga (Consensus Coding Domain Sequences; 8). Le fusioni geniche sono descritte in termini di contenuto di esoni di ciascun gene partner. Anche in questo caso, le trascrizioni che vengono selezionate per descrivere le fusioni sono quelle più utilizzate in letteratura, garantendo il miglior supporto a questa comunità. Le varianti di espressione genica sono valori numerici aggiuntivi (Z-scores) collegati ai geni nominati in COSMIC, che si riferiscono alle differenze di espressione in ogni campione da una norma di popolazione (calcolata per coorte di malattie). I cambiamenti del numero di copie sono annotati per descrivere un valore di ploidia per ogni gene in ogni campione di tumore analizzato e descritti come guadagno o perdita rispetto al valore medio di ploidia in ogni tumore. I dinucleotidi CpG iper/ipo-metilati sono descritti in un campione quando il valore beta per ogni sonda differisce sostanzialmente dalla norma della popolazione per malattia. Infine, ai punti di rottura strutturali vengono date annotazioni di base alle coordinate del genoma di riferimento, e interpretate in annotazioni di conseguenza più descrittive quando supportate da ulteriori informazioni pubblicate.

La classificazione dei tumori è standardizzata e descritta in diverse nomenclature per garantire l’alta risoluzione, ma anche per facilitare le analisi integrative. Ogni campione di tumore è principalmente classificato in COSMIC secondo un vocabolario personalizzato sviluppato da un team di patologi leader; disponibile e descritto qui: http://cancer.sanger.ac.uk/cosmic/classificazione. Questa classificazione è ora tradotta nel thesaurus del National Cancer Institute (“NCIt”; 9; https://ncit.nci.nih.gov/ncitbrowser), selezionato come l’ontologia pubblica a più alta risoluzione tra le malattie tumorali. In parallelo, le classificazioni NCIt sono anche tradotte in classificazioni Experimental Factor Ontology (“EFO”; 10) che supportano molteplici modi per integrare i dati COSMIC in analisi più ampie in tutta la genetica del cancro.

L’aumento della cura genomica ha portato a una gamma più ampia di varianti annotate nel genoma, con ogni gene umano che ora mostra una diffusione di mutazioni somatiche in tutta la sua lunghezza. Per ridurre la complessità di questi dati e supportare gli studi che identificano i driver di malattia, tutte le mutazioni puntiformi in COSMIC sono etichettate con uno stato di polimorfismo a singolo nucleotide (SNP) e un valore di patogenicità. Lo stato SNP definisce se ogni variante è stata precedentemente descritta nello studio 1000 genomi (11), o in un pannello di campioni normali utilizzati come controlli negli esperimenti di profiling genomico ICGC. Punteggi di patogenicità sono determinati dall’algoritmo FATHMM-MKL (12) con punteggi interpretati per specificare ogni variante come ‘patogena’ o ‘neutra’.

Un nuovo argomento per la cura è stato introdotto nel 2016, comprendente la genetica della resistenza ai farmaci. Come descritto, milioni di mutazioni sono state osservate nel cancro, con migliaia di alleli implicati nella causalità della malattia. Di queste, un piccolo numero è inoltre descritto come causa della resistenza clinica alle terapie farmaceutiche. Questi dettagli, quando pubblicati, sono anche catturati nei processi di cura di COSMIC, con l’ultima versione (v78; settembre 2016) che descrive la gamma di mutazioni che conferiscono resistenza a 20 trattamenti anticancro.

ACCESSO AI DATI

COSMIC è più facilmente esplorabile utilizzando il suo sito web pubblico (http://cancer.sanger.ac.uk). Questo è stato costruito su misura per rendere le molte annotazioni in COSMIC facili da esplorare in modi grafici user-friendly, mentre fornisce anche grandi serie di dati tabulati che sostengono ogni presentazione. Oltre a questo sito web, descritto di seguito, sono state perseguite opportunità per rendere COSMIC disponibile ad altre risorse, consentendo loro di aggiungere un ampio contesto oncologico ad altre risorse genomiche pubbliche. Per esempio, COSMIC supporta direttamente la ricerca sul cancro pediatrico con set di dati completi in St. Jude ProteinPaint (13) (https://pecan.stjude.org/#/proteinpaint), fornisce il contesto genomico della variazione somatica del cancro in Ensembl (7) (http://www.ensembl.org) e mette in evidenza gli obiettivi oncologici attraverso il Cancer Gene Census in OpenTargets (https://www.opentargets.org). È disponibile anche un beacon COSMIC (http://cancer.sanger.ac.uk/cosmic/beacon), conforme agli standard GA4GH (http://ga4gh.org/#/beacon), che permette di interrogare COSMIC all’interno di grandi analisi federate. I contenuti completi del database in una varietà di formati utili, compresi i file di dump Oracle, possono essere ottenuti tramite download (http://cancer.sanger.ac.uk/cosmic/download), richiedendo la registrazione (https://cancer.sanger.ac.uk/cosmic/register).

Sintesi del sito web

Il sito web di COSMIC è disponibile online all’indirizzo http://cancer.sanger.ac.uk. La prima pagina (Figura 1) offre diversi modi per esplorare il database (‘Risorse’, ‘Strumenti’), e una serie di pagine che descrivono il contenuto del database, come i dati sono stati generati, e dettagli sul suo accesso (‘Expert Curation’, ‘Dati’). Sul lato destro, un diagramma Circos riassume la ricorrenza delle mutazioni in tutti i genomi tumorali in COSMIC (versione 78, settembre 2016, contiene 28.366 genomi ed esomi). Con una versione ingrandita per una più stretta esplorazione (http://cancer.sanger.ac.uk/cosmic/landscape) dei picchi ricorrenti, questa immagine è cliccabile e risponde con una prospettiva genomica dettagliata attraverso la regione scelta. Principalmente, tuttavia, COSMIC è navigato attraverso la casella centrale di ‘Ricerca’ che accetta qualsiasi nome di gene o sinonimo, sintassi di mutazione, nome del campione/linea cellulare o autore della carta e risponde con un elenco di opzioni corrispondenti al termine di ricerca inserito insieme ad alcuni dettagli per aiutare la selezione. Una volta cliccata la selezione, viene mostrata una pagina di riepilogo che mostra il gene, il campione, la mutazione o la pubblicazione selezionati, con ulteriori link per specializzare una ricerca in COSMIC; in questo modo le tendenze delle mutazioni somatiche possono essere esplorate in dettaglio su più geni e tipi di malattia.

Figura 1.

La prima pagina di COSMIC fornisce facili modi per cercare e navigare nel database; vari strumenti sono disponibili per diverse prospettive su dati simili, e molteplici pagine descrittive dettagliano le procedure di cura dei dati e i contenuti attuali.

Figura 1.

La prima pagina di COSMIC fornisce facili modi per cercare e navigare nel database; vari strumenti sono disponibili per diverse prospettive su dati simili, e molteplici pagine descrittive dettagliano le procedure di cura dei dati e i contenuti attuali.

Le tendenze di mutazione in COSMIC sono più facilmente esplorabili quando si inizia con un gene specifico o una malattia tumorale. Guidate principalmente dai nomi dei geni della Human Genome Organisation (HUGO) (http://www.genenames.org/), le ricerche sui geni cercheranno anche tutti i sinonimi dei geni (così come altri termini, inclusi campione/mutazione/autore) e restituiranno tutte le voci che includono i caratteri specificati. Per esempio, la ricerca di ‘PTEN’ restituirà un solo gene, poiché questo nome di gene è unico. Tuttavia, la ricerca di ‘RAS’ restituisce 70 voci, dal momento che questo termine si verifica in più nomi di geni e sinonimi; scegliendo un membro della famiglia RAS (ad esempio KRAS) restituisce un risultato più specifico.

Una volta selezionato un gene, COSMIC inizia l’analisi del gene mostrando la distribuzione delle mutazioni attraverso la lunghezza del gene in un formato istogramma. In questo grafico, l’asse x rappresenta la sequenza peptidica lineare (dalla metionina allo stop), con un’opzione per rappresentare i nucleotidi invece degli aminoacidi (nella casella dei filtri a destra). Il grafico dell’istogramma riassume il contenuto di mutazione attraverso diversi meccanismi, comprendendo diversi assi Y, allineati verticalmente, con l’altezza del picco che rappresenta il numero di campioni in cui ogni mutazione è stata osservata (la barra della scala sul lato sinistro mostra il numero di campioni mutati in ogni posizione). Dall’alto in basso, i mini-istogrammi mostrano i picchi di ricorrenza delle mutazioni attraverso la sequenza genica per: sostituzioni nucleotidiche singole, sostituzioni multinucleotidiche, piccole inserzioni, piccole delezioni, aumento/perdita del numero di copie, sovraespressione/undereespressione del gene e dinucleotidi CpG iper/ipometilati. Per esempio, la Figura 2 mostra il profilo di mutazione per il gene ABL1, uno dei principali motori dei tumori del sangue. Chiaramente la maggior parte delle mutazioni del cancro si raggruppano all’interno e intorno al dominio tirosin-chinasico di questo peptide, una caratteristica delle mutazioni di driver in questa ampia famiglia di geni. Usando le barre della scala di sinistra per giudicare l’impatto di ogni tipo di mutazione, ABL1 guida principalmente lo sviluppo del cancro attraverso mutazioni puntiformi del dominio della chinasi e la sovraespressione. Si osserva solo un piccolo numero di altri tipi di mutazioni. Il grafico è zoomabile, richiedendo un semplice click e trascinamento del cursore del mouse sulla regione di interesse per visualizzarla in modo più dettagliato.

Figura 2.

L’istogramma principale di Gene Analysis riassume tutto il contenuto delle mutazioni su un singolo gene, in questo caso il gene ABL1. Dall’alto in basso, gli istogrammi rappresentano la ricorrenza delle mutazioni, in ogni posizione nucleotidica/aminoacidica, divisa in segmenti separati per sostituzioni nucleotidiche singole, sostituzioni multinucleotidiche, inserzioni, delezioni, aumento/perdita del numero di copie, sovra/sottoespressione del gene e iper/ipo-metilazione CpG. La ricorrenza delle mutazioni nel dominio della tirosin-chinasi (evidenziato in viola) indica che questa, quando mutata, è la regione chiave che guida il cancro.

Figura 2.

L’istogramma principale di Gene Analysis riassume tutto il contenuto delle mutazioni in un singolo gene, in questo caso il gene ABL1. Dall’alto in basso, gli istogrammi rappresentano la ricorrenza delle mutazioni, in ogni posizione nucleotidica/aminoacidica, divisa in segmenti separati per sostituzioni nucleotidiche singole, sostituzioni multinucleotidiche, inserzioni, delezioni, aumento/perdita del numero di copie, sovra/sottoespressione del gene e iper/ipo-metilazione CpG. La ricorrenza delle mutazioni nel dominio della tirosin-chinasi (evidenziato in viola) indica che questa, quando mutata, è la regione chiave che guida il cancro.

Il riquadro dei filtri a destra permette a questo istogramma (insieme a tutte le informazioni in altre schede di questa pagina) di essere vagliato ed esplorato in più modi, con opzioni per selezionare le mutazioni da un particolare tessuto o malattia, o una particolare regione genica, specificare solo le mutazioni somatiche confermate, o solo linee cellulari o campioni di pazienti, così come una varietà di altre caratteristiche di mutazione più meccaniche.

La pagina web mostra diverse prospettive sul contenuto delle mutazioni di un gene in “schede” separate, disposte nella parte superiore della pagina, offrendo diversi modi per esaminare la grande quantità di informazioni disponibili. Particolarmente utile per esplorare l’impatto dei geni selezionati attraverso centinaia di tipi di cancro curati, ‘Tissue’ mostra una ripartizione delle mutazioni attraverso i tessuti e le malattie disposte in una matrice. Quattro tipi di mutazione sono mostrati sull’asse delle x e i tipi di tessuto primario sull’asse delle y. Tra questi, piccoli istogrammi rossi a barra singola mostrano l’impatto di ogni tipo di mutazione su ogni tessuto, le barre più grandi indicano un impatto maggiore, permettendo una valutazione molto rapida di quali tessuti sono colpiti maggiormente dal gene selezionato (‘n’ è anche mostrato per valutare la significatività della barra rossa; se il numero è piccolo, la significatività è bassa). Per ABL1, la barra più lunga è ‘Haematopoietic & Lymphoid’, evidenziando il suo impatto nei tumori del sangue. Cliccando sulla frase ‘Ematopoietico & linfoide’ verrà mostrata una ripartizione delle classificazioni delle malattie tumorali sotto questo tessuto, indicando che le mutazioni ABL1 guidano principalmente il 28% delle leucemie mieloidi croniche valutate, e il 32% delle leucemie linfoblastiche acute (in COSMIC v78).

Cancer browser

Le malattie tumorali sono più facilmente navigabili utilizzando il Cancer Browser (http://cancer.sanger.ac.uk/cosmic/browse/tissue), dove una selezione può essere fatta da una lista, evitando la necessità di digitare termini patologici spesso complessi. La selezione di un tessuto primario è essenziale, poi viene offerta una scelta tra i termini correlati di subtessuto, istologia e subistologia. Questi sono tutti cliccabili, e tutte le scelte possono essere saltate usando l’opzione superiore ‘include all’. Una volta effettuata la selezione, cliccando su ‘Go’ verranno calcolati i profili di mutazione su tutti i geni per la malattia selezionata. Per esempio, scegliendo semplicemente il cancro del ‘Polmone’ e premendo Go, mostra immediatamente i primi 20 geni più frequentemente mutati nel cancro del polmone (ordinati per frequenza di mutazione), evidenziando principalmente i geni ben caratterizzati come TP53, EGFR e KRAS). Simile alle pagine di analisi dei geni, le schede aggiuntive offrono diverse prospettive sul peso delle mutazioni della malattia selezionata.

Browser del genoma

Le mutazioni sintomatiche nel cancro sono ora annotate nell’intero genoma umano. Con oltre 4 milioni di mutazioni puntiformi codificanti e oltre 13 milioni di mutazioni puntiformi non codificanti, un metodo per valutare il contesto genomico attraverso queste informazioni è essenziale. Il COSMIC Genome Browser (http://cancer.sanger.ac.uk/cosmic/browse/genome) realizza questo, mostrando tutti i dati di mutazione COSMIC allineati con una serie di annotazioni genomiche, utilizzando un’istanza della piattaforma Jbrowse (14) che rende i dati enormi facilmente e rapidamente esplorabili. La prima pagina di questo sistema offre la funzionalità di ricerca, descritta sopra, ma restituisce una vista genomica (piuttosto che genica) sulla selezione effettuata. Le viste iniziali mostrano la struttura del gene, le mutazioni puntiformi e i punti di rottura della struttura del genoma per la regione scelta. Lo zoom in e out permette l’esplorazione dei dettagli e delle tendenze in una regione genomica, con i dettagli delle mutazioni che si trasformano in istogrammi quando i dati diventano troppo affollati sullo schermo. Sul lato sinistro dello schermo, viene offerto un certo numero di tracce aggiuntive, divise in annotazioni di struttura/funzione genomica dal database Ensembl (7) e annotazioni multiple di mutazione somatica dal database COSMIC. Queste permettono l’indagine di tutti i dati di mutazione e variazione somatica in allineamento con le strutture dei geni codificanti, degli RNA non codificanti (inclusi i microRNA) e delle regioni regolatrici. Inoltre, il contenuto di dbSNP (15) (https://www.ncbi.nlm.nih.gov/snp/) è reso disponibile, per consentire l’esplorazione delle relazioni tra le mutazioni somatiche in COSMIC e la più ampia variazione umana compresa da dbSNP.

Genetica della resistenza ai farmaci

Con il progredire della medicina di precisione, sta emergendo una crescente letteratura che descrive le risposte genetiche alle terapie mirate. Le mutazioni somatiche acquisite durante l’evoluzione del tumore sono spesso sotto pressione selettiva quando le monoterapie vengono applicate ai pazienti oncologici, portando all’emergere di nuovi cloni contenenti alleli resistenti e causando il fallimento terapeutico. COSMIC ora cura queste informazioni (riassunte in http://cancer.sanger.ac.uk/cosmic/drug_resistance), descrivendo la gamma di mutazioni somatiche che causano resistenza a terapie selezionate. Nella v78 di COSMIC (settembre 2016), 20 farmaci sono dettagliati, descrivendo 301 varianti di sequenza uniche che hanno causato resistenza ai farmaci in 1934 campioni di tumore. Queste informazioni sono presentate nel sito COSMIC in forma grafica con grafici a torta e istogrammi che descrivono la ricorrenza di geni e mutazioni nell’evoluzione della resistenza terapeutica. Per esempio, i tumori guidati da mutazioni ABL1 sono stati trattati con quattro terapie denominate (Imatinib, Dasatinib, Bosutinib e Nilotinib) e con altri inibitori di chinasi senza nome. Il panorama della resistenza a questi farmaci è presentato a http://cancer.sanger.ac.uk/cosmic/gene/analysis?ln=ABL1#dt, con opzioni per vedere la gamma di geni coinvolti, o la gamma molto più ampia di varianti di sequenza (Figura 3).

Figura 3.

Sono state descritte diverse terapie che trattano i tumori ABL1-driven, e molti studi hanno riportato nuove mutazioni che causano resistenza a queste terapie. Questo istogramma mostra una lunga lista di mutazioni associate alla resistenza alle terapie nominate, con una barra dell’istogramma che mostra la loro ricorrenza.

Figura 3.

Diverse terapie nominate sono state descritte per trattare i tumori guidati da ABL1, e molti studi hanno riportato nuove mutazioni che causano resistenza a queste terapie. Questo istogramma mostra una lunga lista di mutazioni associate alla resistenza alle terapie, con una barra dell’istogramma che mostra la loro ricorrenza.

Linee cellulari COSMIC

In parallelo alle cure COSMIC mostrate sul sito principale COSMIC, ‘COSMIC Cell Lines’ (http://cancer.sanger.ac.uk/cell_lines) rende disponibile il profilo molecolare di 1015 linee cellulari di cancro comunemente usate nella ricerca di laboratorio, in particolare nelle valutazioni di attività ed efficacia farmaceutica. Si tratta di un database separato ma parallelo, che presenta gli aggiornamenti di tutte le informazioni pubblicate in (16), compreso il sequenziamento completo dell’esoma di ogni linea cellulare, l’analisi del numero di copie e l’analisi dell’espressione genica. Ulteriori informazioni vengono aggiunte quando vengono completati ulteriori esperimenti. I dati sono ospitati in un sito web analitico con funzionalità identiche al sistema COSMIC curato (descritto sopra), con ulteriori collegamenti ai file di dati grezzi e alle valutazioni di sensibilità ai farmaci (ospitati a http://www.cancerrxgene.org/).

Downloads

Oltre alla presentazione gratuita e aperta di COSMIC nel suo sito web pubblico, COSMIC è anche disponibile per il download in più formati (https://cancer.sanger.ac.uk/cosmic/download). File multipli in formato TSV (Tab-separated format) o VCF (Variant call format) forniscono set di dati completi per ogni release di COSMIC, e l’intero database è fornito come file di esportazione Oracle completo. Il download dei set di dati completi di COSMIC richiede la registrazione, ma l’accesso successivo è completo e gratuito per tutti gli istituti accademici e non profit (https://cancer.sanger.ac.uk/cosmic/register).

FUTURE WORK

COSMIC è costruito principalmente attraverso la cura della letteratura pubblicata da scienziati esperti. Questo è ancora uno degli obiettivi principali, e man mano che questo team si espande, COSMIC è stato in grado di comprendere una maggiore ampiezza di annotazioni, che recentemente ha portato alla nuova attenzione sulla genetica della resistenza ai farmaci. Tutti gli aspetti della cura genetica del cancro continueranno, con un’enfasi sulla raccolta di dettagli per annotazioni descrittive profonde attraverso i geni chiave del cancro, e ampi profili molecolari attraverso i genomi del cancro. Il database COSMIC è cresciuto considerevolmente negli ultimi rilasci, e si prevede che questa crescita continuerà (Figura 4).

Figura 4.

COSMIC è cresciuto rapidamente negli ultimi anni, poiché un numero maggiore di geni viene curato, e vengono inclusi ulteriori meccanismi di mutazione. Il grafico mostra una semplice rappresentazione della dimensione del database che supporta il sito web COSMIC dal 2010 al 2016 (gzipped Oracle dmp file, in Mb).

Figura 4.

COSMIC è cresciuto rapidamente negli ultimi anni, come un maggior numero di geni sono curati, e meccanismi di mutazione aggiuntivi sono inclusi. Il grafico mostra una semplice rappresentazione delle dimensioni del database che supporta il sito web COSMIC dal 2010 al 2016 (file Oracle dmp gzippato, in Mb).

Le informazioni nel database COSMIC sono rese disponibili in diversi modi, e questi saranno ampliati. Comprendendo la navigazione analitica di grandi dati su più malattie e meccanismi, il sito web COSMIC è sempre più complesso, e la riprogettazione di alcune delle sue presentazioni lo renderà più facile da esplorare. Sostenere l’integrazione esterna di COSMIC è anche una priorità. Un’API programmatica supererà gran parte dell’attuale necessità di scaricare grandi file di dati, e sarà molto utile per sostenere gli studi che hanno bisogno di riunire grandi set di dati. In questo modo, COSMIC continuerà a sostenere un’ampia gamma di ricerche sul cancro, da quelle che esplorano la genetica del tumore primario, attraverso l’identificazione del target diagnostico e farmaceutico, a quelle che cercano di capire le risposte all’intervento clinico.

Significativi

La maggior parte di questo lavoro è stata sostenuta dal Wellcome Trust con il riferimento 077012/Z/05/Z. Ulteriori fondi a sostegno della cura aggiuntiva e dello sviluppo del sito web sono stati forniti attraverso la concessione in licenza del database COSMIC a organizzazioni commerciali. Gli autori desiderano inoltre riconoscere il sostegno attraverso rapporti di collaborazione con Bayer Pharmaceuticals, AstraZeneca, Cancer Research Technology e Astex Pharmaceuticals.

FUNDING

Wellcome Trust ; licenza del database COSMIC . Finanziamento della tassa per l’accesso aperto: Wellcome Trust .

Dichiarazione di conflitto di interessi. Nessuno dichiarato.

Bamford
S.

,

Dawson
E.

,

Forbes
S.

,

Clements
J.

,

Pettett
R.

,

Dogan
A.

,

Flanagan
A.

,

Teague
J.

,

Futreal
P.A.

,

Stratton
M.R.

et al.

Il database e il sito web COSMIC (Catalogue of Somatic Mutations in Cancer)

.

Br. J. Cancer

.

2004

;

91

:

355

358

.

Forbes
S.A.

,

Beare
D.

,

Gunasekaran
P.

,

Leung
K.

,

Bindal
N.

,

Boutselakis
H.

,

Ding
M.

,

Bamford
S.

,

Cole
C.

,

Ward
S.

et al. .

COSMIC: esplorare la conoscenza mondiale delle mutazioni somatiche nel cancro umano

.

Nucleic Acids Res.
2015

;

43

:

D805

D811

.

Forbes
S.A.

,

Beare
D.

,

Bindal
N.

,

Bamford
S.

,

Ward
S.

,

Cole
C.G.

,

Jia
M.

,

Kok
C.

,

Boutselakis
H.

,

De
T.

et al. .

COSMIC: Genetica del cancro ad alta risoluzione utilizzando il catalogo delle mutazioni somatiche nel cancro

.

Curr. Protoc. Hum. Genet.
2016

;

91

:

10.11.1

10.11.37

.

Futreal
P.A.

,

Coin
L.

,

Marshall
M.

,

Down
T.

,

Hubbard
T.

,

Wooster
R.

,

Rahman
N.

,

Stratton
M.R.

.

Un censimento dei geni del cancro umano

.

Nat. Rev. Cancer

.

2004

;

4

:

177

183

.

Collins
F.S.

,

Barker
A.D.

.

Mappatura del genoma del cancro. Individuare i geni coinvolti nel cancro aiuterà a tracciare un nuovo percorso attraverso il complesso paesaggio dei tumori umani

.

Sci. Am.
2007

;

296

:

50

57

.

Hudson
T.J.

,

Anderson
W.

,

Artez
A.

,

Barker
A.D.

,

Bell
C.

,

Bernabé
R.R.

,

Bhan
M.K.

,

Calvo
F.

,

Eerola
I.

,

Gerhard
D.S.

et al. .

Rete internazionale di progetti di genoma del cancro

.

Natura

.

2010

;

464

:

993

998

.

Yates
A.

,

Akanni
W.

,

Amode
M.R.

,

Barrell
D.

,

Billis
K.

,

Carvalho-Silva
D.

,

Cummins
C.

,

Clapham
P.

,

Fitzgerald
S.

,

Gil
L.

et al.

Ensembl, 2016

.

Nucleic Acids Res.
2016

;

44

:

D710

D716

.

Pruitt
K.D.

,

Harrow
J.

,

Harte
R.A.

,

Wallin
C.

,

Diekhans
M.

,

Maglott
D.R.

,

Searle
S.

,

Farrell
C.M.

,

Loveland
J.E.

,

Ruef
B.J.

,

Hart
E.

et al.

Il progetto CCDS (consensus coding sequence): Identificazione di un set di geni codificanti proteine comuni per i genomi umani e murini

.

Genome Res.
2009

;

19

:

1316

1323

.

Sioutos
N.

,

de Coronado
S.

,

Haber
M.W.

,

Hartel
F.W.

,

Shaiu
W.L.

,

Wright
L.W.

.

NCI Thesaurus: un modello semantico che integra le informazioni cliniche e molecolari relative al cancro

.

J. Biomed. Inform.
2007

;

40

:

30

43

.

Malone
J.

,

Holloway
E.

,

Adamusiak
T.

,

Kapushesky
M.

,

Zheng
J.

,

Kolesnikov
N.

,

Zhukova
A.

,

Brazma
A.

,

Parkinson
H

.

Modellazione delle variabili del campione con un’ontologia di fattori sperimentali

.

Bioinformatica

.

2010

;

26

:

1112

1118

.

Il consorzio del progetto 1000 genomi

.

Un riferimento globale per la variazione genetica umana

.

Natura

.

2015

;

526

:

68

74

.

Shihab
H.A.

,

Rogers
M.F.

,

Gough
J.

,

Mort
M.

,

Cooper
D.N.

,

Day
I.N.

,

Gaunt
T.R.

,

Campbell
C.

.

Un approccio integrativo per predire gli effetti funzionali della variazione di sequenza non codificante e codificante

.

Bioinformatica

.

2015

;

31

:

1536

1543

.

Zhou
X.

,

Edmonson
M.N.

,

Wilkinson
M.R.

,

Patel
A.

,

Wu
G.

,

Liu
Y.

,

Li
Y.

,

Zhang
Z.

,

Rusch
M.C.

,

Parker
M.

et al.

Esplorazione dell’alterazione genomica nel cancro pediatrico usando ProteinPaint

.

Nat. Genet.
2016

;

48

:

4

6

.

Buels
R.

,

Yao
E.

,

Diesh
C.M.

,

Hayes
R.D.

,

Munoz-Torres
M.

,

Helt
G.

,

Goodstein
D.M.

,

Elsik
C.G.

,

Lewis
S.E.

,

Stein
L.

et al. .

JBrowse: una piattaforma web dinamica per la visualizzazione e l’analisi del genoma

.

Genome Biol.
2016

;

17

:

66

90

.

Sherry
S.T.

,

Ward
M.H.

,

Kholodov
M.

,

Baker
J.

,

Phan
L.

,

Smigielski
E.M.

,

Sirotkin
K.

.

dbSNP: il database NCBI delle variazioni genetiche

.

Nucleic Acids Res.
2001

;

29

:

308

311

.

Iorio
F.

,

Knijnenburg
T.A.

,

Vis
D.J.

,

Bignell
G.R.

,

Menden
M.P.

,

Schubert
M.

,

Aben
N.

,

Gonçalves
E.

,

Barthorpe
S.

,

Lightfoot
H.

et al. .

Un paesaggio di interazioni farmacogenomiche nel cancro

.

Cell

.

2016

;

166

:

740

754

.

© The Author(s) 2016. Published by Oxford University Press on behalf of Nucleic Acids Research.
Questo è un articolo ad accesso aperto distribuito secondo i termini della Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), che permette il riutilizzo, la distribuzione e la riproduzione illimitati su qualsiasi supporto, purché l’opera originale sia adeguatamente citata.

Leave a Reply

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.