谷歌希望憑借人類基因組云端服務(wù)Google Genomics在基因組研究市場占有一席之地,如今,公司正忙于用最好的工具來填滿這個工具箱。
Google Genomics是谷歌2013年推出的一項云端服務(wù),幫助大學實驗室和醫(yī)院等機構(gòu)將患者或科研對象的生物基因儲存到云端上,推進人類基因組信息的存儲、對比和分析。
Google Genomics和基因數(shù)據(jù)創(chuàng)業(yè)公司Tute Genomics日前宣布,Tute Genomics將把其海量基因信息數(shù)據(jù)庫放到Google Genomics平臺上以便于查詢。Google Genomics托管的其他基因數(shù)據(jù)庫還包括1000 Genomes Project、Illumina Platinum Genomes和MSSNG Database for Autism Researchers等。
Google Genomics工程主管、Google+項目前工程主管大衛(wèi)·格雷澤(David Glazer)曾表示,搜索不是搜索關(guān)鍵字,研究人員可以搜索基因組的特定片段及基因組序列,從而找到具有共同變異的基因組片段。
Google Genomics產(chǎn)品經(jīng)理喬納森·秉海姆(Jonathan Bingham)表示,為了區(qū)分自己不僅僅是一個數(shù)據(jù)存儲平臺,Google Genomics還將利用谷歌的搜索工具和計算設(shè)施來處理和分析基因數(shù)據(jù)。
用戶在Google Genomics上存儲數(shù)據(jù)后,還可以共享給任何想共享的人。此外,Google Genomics還支持基因組數(shù)據(jù)的處理,包括變異調(diào)用、三級結(jié)構(gòu)分析(tertiary analysis)和群組對比等。
Google Genomics除了存儲數(shù)據(jù),還提供數(shù)據(jù)分析服務(wù)。秉海姆稱:“Google Genomics建立在Google Cloud云平臺之上,我們需要解決的一個問題是可存儲性。此外,還要便于研究人員進行分析,在速度和靈活性方面要有保證。”
秉海姆還稱,BigQuery就是Google Cloud平臺上的一個云數(shù)據(jù)分析引擎,之前已被證明對于基因組數(shù)據(jù)分析大有幫助。BigQuery是谷歌推出的一項Web服務(wù),允許開發(fā)者使用谷歌架構(gòu)運行SQL語句對超級大數(shù)據(jù)庫進行分析,TB級數(shù)據(jù)十幾秒便可返回結(jié)果。
“向BigQuery加載數(shù)據(jù)后,如來自特定父母群體的基因變異數(shù)據(jù),用戶就可以對一些問題進行查詢,如等位基因頻率、全基因組關(guān)聯(lián)、與表型性狀或藥物治療的關(guān)聯(lián)等,幾秒鐘便可返回結(jié)果?!?br />
但BigQuery是針對無結(jié)構(gòu)數(shù)據(jù)(unstructured data)進行設(shè)計的,因此Google Genomics團隊還對BigQuery引擎進行了調(diào)整,使之適應(yīng)基因組數(shù)據(jù)。
秉海姆表示,此次與Tute Genomics合作后,將允許用戶通過BigQuery進行更深層的數(shù)據(jù)挖掘?!叭藗円呀?jīng)意識到,Google Genomics和BigQuery的結(jié)合允許人們利用基因變異和之前的相關(guān)知識做一些十分有意義的事情。如果你之前做過基因測序研究,或者有了新的人類基因組,可以加入到Tute Genomics數(shù)據(jù)庫中,然后咨詢一些問題。例如,如果我給患者做了基因測序,如何能知道他們的變異?哪些與疾病的關(guān)聯(lián)度最高?如何知道他們對藥物的反應(yīng)?”
這項服務(wù)的成本和速度分別是:88 GB的人類基因組變異信息加入到Tute Genomics數(shù)據(jù)庫僅30秒鐘,費用不到1美元。
Tute Genomics基因數(shù)據(jù)庫是一個“注釋型”數(shù)據(jù)庫,對許多基因變異進行了解讀,所使用的標準包括SIFT、PolyPhen2、PhyloP、GERP++、MutationTaster、MutationAssessor、FATHMM、MetaLR和MetaSVM等。同時,Tute Genomics數(shù)據(jù)庫也整合了自身的預(yù)測系統(tǒng),可預(yù)測單核苷酸多態(tài)性(SNP)或插入缺失標記(InDel)是否與孟德爾表型(Mendelian phenotypes)相關(guān)。
Tute Genomics數(shù)據(jù)庫還整合了公眾數(shù)據(jù),如來自1000 Genomes Project和NHLBI ESP-6500等基因組項目的數(shù)據(jù)。此外,Tute Genomics數(shù)據(jù)庫還包含了來自NCBI的ClinVar數(shù)據(jù)庫的臨床注釋。Tute Genomics首席科學官(CSO)大衛(wèi)·米特曼(David Mittelman)稱,Tute Genomics基因數(shù)據(jù)庫是其他基因變異數(shù)據(jù)庫的補充。
谷歌與Tute Genomics的合作始于去年。當時,Tute Genomics CEO雷德·羅比遜(Reid Robison)與谷歌Google Genomics工程主管格雷澤在一次會議上相遇,發(fā)現(xiàn)兩家公司的產(chǎn)品很適于合作。
米特曼說:“我們對Google Genomics感到很興奮,它不僅允許你存儲基因數(shù)據(jù),還能對其進行分析。在Tute Genomics,我們的工作重心集中在整個注釋層面,但基因變異的背后又意味著什么呢?如何與我們當前的已知內(nèi)容結(jié)合起來呢?就是搜索引擎的任務(wù)了?!?br />
今年2月底,谷歌加入了全球基因組學與健康聯(lián)盟(Global Alliance for Genomics and Health),旨在推進基因組和臨床數(shù)據(jù)的安全和有效共享。對于谷歌這種做法,米特曼表示支持。
米特曼說:“如果你擁有一個知名品牌,招募了一群優(yōu)秀的工程師,正在制定一個開放標準,這些就是成功的關(guān)鍵要素。如果想白手起家,從頭打造自己的體驗,或者與毫無經(jīng)驗的人合作,那意義不大?!?br />
米特曼認為,當前的基因組社區(qū)仍在探索研究與合作的方向,但他對谷歌正在打造的社區(qū)印象深刻。米特曼說:“人們不只是想把數(shù)據(jù)上傳到云端,他們還想進行適當?shù)幕印9雀璧脑搼?zhàn)略就是測試市場的好方法,看看人們是否愿互動。如果人們能夠積極互動,我相信將催生出更多創(chuàng)新?!?br />
Google Genomics產(chǎn)品經(jīng)理秉海姆稱,除了Tute Genomics,谷歌還對與其他更多平臺合作持開放態(tài)度。
Tute Genomics首席科學官米特曼說:“我們將繼續(xù)在Google Cloud平臺上為我們的數(shù)據(jù)庫打造一系列新工具和功能。這只是我們合作的開始,未來數(shù)月還會進行更深入地整合?!?