首先要肯定題主的想法,你的想法是對的,而且這就是現(xiàn)在基因組領域的做法:
我們來看看基因組領域的里程碑事件:
1.人類基因組計劃 (China 1%)的那個,上高中生物書的那個
這個計劃就是題主說的基礎信息,這個框架圖,就是為了給整個今后的基因組分析鋪下骨架,大梁,我們稱之為參考基因組。因為人與人之間絕大多是的信息是一致的,所以理論上講,我們只需要記錄容易突變的hotspot就好了,這樣的點就是多態(tài)性位點。
2.單體型計劃(分為三期)
單體型計劃的目的就是為了充分的了解清楚這些多態(tài)性位點的內(nèi)容,也就是題主說的補丁包,針對不同的種族,打上不同的補丁,這樣我們就不用再重新去構(gòu)建整個基因組了。這個計劃是GWAS分析得到了充分的發(fā)揮,各種疾病位點通過這一計劃被發(fā)現(xiàn)。
(p.s.這個計劃之所以只研究很小很小的一部分多態(tài)性位點,是因為全基因組測序太貴,太貴,太貴在那個時候。這個計劃應該是和人類基因組計劃同時期規(guī)劃的。但是在這個計劃最后一期快完成的時候,NextGenerationSequencing 技術出現(xiàn)了,將測序成本直接按多少個0多少個0往下丟。這個時候人們開始想測全基因組了。于是就有了下面的千人計劃。)
(p.p.s. 在08~09年左右,華大基因的科學家們發(fā)現(xiàn)了,除了參考基因組以外,每個種族還有一套跟參考基因組不同的序列片段,對這些片段進行進一步分析,發(fā)現(xiàn)它們能非常好的反映,不同大陸上的人們的進化關系,這說明,我們的補丁比想象的要復雜的多的多)
3.千人計劃(分為三期)
既然現(xiàn)在大家有錢了,不,是大家測得起了,所以就成立了一個千人計劃,實際上它總共測了2400多個人左右,現(xiàn)在第三期即將結(jié)束。這個計劃的建立的一點,就是為了更進一步了了解不同人群中的多態(tài)性位點的情況。理想的情況是,如果我們有了各個族群的參考基因組,參考多態(tài)性位點,那么我們就能夠更specificly 進行打補丁的工作,這里一個常用的手段就是imputation, 通過reference panel 對你想分析的樣本進行統(tǒng)計推斷,這樣也就不用完全去測序了。