仅用两个月的时间便可以得到一个人的基因组图谱前不久的消息,世界上已经有两个人相继得到了自己个人的基因组图谱。这两个人,一位是DNA双螺旋结构的发现者之一詹姆斯·沃森博士,另一位是开办民间企业积极参与人类基因组测序工作的克雷格勒格·文特尔博士。2003年宣布完成人类基因组测序工程以来才4年,我们便已经进入了能够解读并得到个人基因组图谱的时代。个人的这种遗传信息在医疗上自然有很高的应用价值,但是,如何管理和使用这种个人信息,也是人们十分关心的问题。本文就来展望这个基因组新时代的前景。 以查明人类所具有的全部遗传信息(基因组)为目的的"人类基因组测序工程"的完成,是人类历史上一个具有划时代意义的重大事件。人类的遗传信息取决于A(腺嘌呤)、G(鸟嘌呤)、C(胞嘧啶)和T(胸腺嘧啶)4种碱基在DNA(脱氧核糖核酸)中的排列顺序。人类基因组测序工程完成了多达30亿对这4种碱基的排列顺序(基因组序列)的解读工作(基因组测序)。这样,人类就获得了决定每一个人身体"构成"的那些最基本的信息。但是,如此解读出来的人类基因组序列并不是某一特定个人的基因组序列。从人类基因组测序工程所得到的基因组序列,其实是至少20个人的群体的综合遗传信息,也就是说,是某个人群的"人类基因组标准序列"。但事实上,研究表明,每个人的基因组序列都与标准序列有所不同。基因组序列的个体差异正是没有两个人会完全相同的主要原因,正是这种差异造成了每个人在体质和易患疾病等各个方面的不同。总之,人类基因组测序工程完成了,我们虽然得到了人类基因组的标准序列,但那不过是人体的一个"基本设计图",还不是决定了个体差异的"个人的设计图"。首次得到"个人的基因组图谱" 然而,国际互联网不久前披露,现在已经有两个人得到了自己身体的个人设计图。这两人,一个是同已故的弗朗西斯·克里克博士一起发现了DNA双螺旋结构的詹姆斯·沃森博士,另一个是自己成立塞莱拉基因公司,倡议国际合作积极推动人类基因组测序工程的克雷格勒格·文特尔博士。关于沃森博士的个人基因组图谱,还未见有论文,但关于文特尔博士的个人基因组图谱,有关论文已经发表在2007年9月4日出版的美国科学期刊《公共科学图书馆—生物学》(PLOS Biology)上。在报道文特尔博士基因组图谱的论文中,将文特尔博士的个人基因组序列同人类基因组标准序列进行了对比,结果表明,两者大约有0.5%的差异,也就是说,在每1000个碱基中大约有5个碱基不同。以前曾有估计,认为人类个体间的差异大概会是0.1%左右,这次比较的结果却显示,这种差异达到5倍于以前的估计。顺便提一句,人类与黑猩猩之间基因组序列的差异才不过1.23%。我们每一个人都携带来自父亲和母亲两方面的两套同源染色体。两位博士各自的基因组序列都与人类基因组测序工程所得到的标准序列有所不同。要给出两位博士的基因序列,要对他们分别来自双亲的两套总共60亿对碱基进行排序。分析表明,因为这些基因中至少有一个或一个以上的碱基出现了变异,在文特尔博士的基因组中,有大约44%的基因既非来自父亲的序列,也非来自母亲的序列。通过解读人类个体的基因组,我们得知,人类个体之间的基因组差异很可能要比以前所料想的大得多。使用了人类基因组工程的成果沃森博士的基因组图谱是由美国一家名叫"454 生命科学"的公司(简称"454公司")解读测序得到的。据报道,解读工作才花费了两个月稍多一点的时间,耗资约100万美元。我们知道,通过国际合作完成的人类基因组测序工程,费时13年,耗资约40亿美元。相比之下,对沃森博士基因组的解读工作应该说是进行得非常快的,而且成本也很低。参加过人类基因组测序工程的日本国立情报学研究所的藤山秋佐夫教授指出,之所以能以如此低的成本在如此短的时间里完成沃森博士的基因组的解读工作,正是由于利用了人类基因组测序工程所得到的精确度非常高的数据的缘故。解读沃森博士基因组的工作,也就是查明他的基因组中碱基的排列顺序,在这个过程中,其实就使用了人类基因组标准序列。454公司的具体做法是,先把从沃森血液中采样得到的基因组DNA切割成若干个大小不同的片段,然后解读出这些DNA片段的碱基排列,得到这些DNA片段的平均只有250个碱基的短序列的足够信息。最后,再以这些短序列彼此之间碱基排列顺序相同的部分为线索,将这些短片段拼接起来。但是,仅有250个碱基的DNA片段实在是太短,很难将它们互相拼接起来。因此,实际的做法是,按照这些短序列在人类基因组标准序列中的对应位置将它们连接起来。这次对两位博士个人基因组的解读工作,并不是对他们的全部基因组进行解读。对于沃森博士的基因组,只解读了相当于人类基因组标准序列的大约98.7%;对于文特尔博士的基因组,只解读了95%以上。日本研究基因组的专家、理化学研究所基因组科学综合研究中心的黑木阳子研究员说,所得到的这种个人基因组图谱"还不能说已经'完全'确定了个人的基因组信息"。尽管如此,这次对个人基因组的解读工作还是引起了极大的轰动。主要原因在于,这次对DNA序列的解读工作,解读速度惊人,而成本却很低。解读技术的速度不断提高,成本不断降低,那么可以预料,在不久的将来,我们每一个人便都能够得到自己的基因组图谱了。以今天的发展速度来看,对基因组序列的解读究竟能够加快到什么程度呢?速度更快、成本更低的解读日本研究基因组的专家、理化学研究所基因组科学综合研究中心的丰田敦上级研究员说,目前常用的基因组测序方法,一台设备一天能够测定大约400万个碱基的排列顺序。按照这个速度计算,完成30亿对碱基的测序,需要750天。不仅如此,利用这种传统的方法,为了保证得到高精度的基因组测序结果,还必须对全部基因组反复解读8~10次。而如果利用454公司解读沃森博士的个人基因组所使用的方法,每7.5小时就可以解读大约1亿个碱基。通过简单的计算便可以知道,这种新方法每天可以解读超过3亿个碱基,那么,解读30亿个碱基,只需不到10天的时间。454公司这次对个人基因组的解读工作,重复解读的次数在不同位点有所不同,平均下来大致为6次。预计在今年还会推出一种DNA测序的新技术,只需2.5天就可以完成人类基因组全部碱基的测序工作。提高测序速度的关键,在于增加能够同时解读的碱基序列的数目。解读基因组DNA序列,如前所述,要先将DNA切割为许多DNA片段。使用传统方法,一台设备最多能够同时解读384个DNA片段。然而使用新的解读技术,比如使用454公司的方法,则能够同时解读大约40万个DNA片段。在测序速度得到大幅度提高的同时,测序设备也变得越来越小。测序设备小型化以后,测序所必需的非常昂贵的药剂的用量大为减少,成本也得以相应地降低。 1000美元基因组解读计划测定DNA序列,尽管速度有了大幅度提高,成本也有大幅度下降,但是解读沃森博士的基因组仍然花费了100万美元。要想将这种方法推广到解读一般人的基因组,成本过高,显然是不现实的。在美国,目前正在加紧研究和开发解读基因组的新技术,其目标是要把成本降低到能够应用于解读普通人的基因组的水平,从而为有针对性的医疗服务提供患者个人的遗传信息。美国国家卫生研究所(NIH)正在推动的一项"1000美元基因组解读计划",需要投入大量研究经费,以争取把解读一个人的基因组的成本在2009年前降低到10万美元以内,在2014年前降低到1000美元以内。此外,美国的一个民间机构"X大奖基金会"(X Prize Foundation)也悬赏巨额奖金,鼓励研究和开发快速解读个人基因组的新技术。任何个人或团体,若开发出能够在10天内测定100个人的基因组序列,且精度超过99.999%、覆盖基因组的范围达到98%以上、单人成本控制在万元以内的基因组解读技术,将获得1000万美元的奖金。悬赏的截止日期是2014年10月4日,目前已经有包括454公司在内的4个机构参加了这类新技术的研究计划。开发全新的解读技术目前,还有许多大学和企业另辟蹊径,正在积极研究和开发与上面所提到的方法在原理上全然不同的其他DNA测序方法。其中特别引人注目的是一种叫做"纳米微孔测序技术"(Nanopore Sequencing)的方法。这种方法是,让一个单链DNA分子穿过直径只有几个纳米(1纳米=1亿分之1米)的小孔(纳米微孔),通过测出DNA分子在不同碱基通过时所引起的电流变化来确定碱基的排列顺序。这种方法虽然可以快速测定很长的序列,但是目前尚有许多难题仍未解决(例如,用什么方法控制DNA分子穿过纳米微孔的速度)。这种技术一旦投入实际应用,肯定能够大幅度地降低成本。在医疗中利用个人的基因组信息解读个人基因组的目的,是为了把个人的遗传信息应用于医疗服务。就像本文开头所提到的,我们每个人的基因组都不相同,因而每个人容易罹患的疾病和最有效的治病药物便会有个体差异。因此,利用个人基因组信息,针对个人特点进行治疗和投药的"定制医疗"(order-made medicines)就变成了必不可少的。遗传信息在医疗中最早的应用,是查明某种疾病与患者体内某种基因表达之间的关系。例如,在乳腺癌患者中,不少人癌细胞中HER-2基因扩增,产生非正常的基因拷贝。这种基因会合成HER-2蛋白,基因拷贝增多导致制造的HER-2蛋白过多,最终引起细胞的异常增殖,也就是发生了癌变。治疗这种类型的乳腺癌,现在通常使用的药物是"赫赛汀"(Herceptin)。赫赛汀能够附着在HER-2蛋白上,使其失去作用。这是根据癌细胞的基因有针对性地进行投药的一个典型例子。遗憾的是,乳腺癌这类与基因之间的关系已经十分明确的疾病并不很多。大多数疾病都与患者的数种基因有关,而且还要受生活环境以及如吸烟、饮食这类生活习惯的影响。碱基差异同易患疾病之间的关系科学家已经在对遗传信息的个体差异同容易罹患的疾病之间的关系展开了很多研究。截至目前,研究内容在于把患病人群的基因同未患病人群的基因进行比较,找出二者间的差异,并根据这种差异查明导致容易患病的那些基因和碱基排列。这样的信息对于治疗和预防疾病都十分有用。在基因组的个体差异中,目前研究得最多的是"SNP"(单碱基多态性,又称"单核苷酸多态性")。SNP是指在基因组的某一个位置,原来的一个碱基(例如G)发生变异被置换成了其他的碱基(例如C)。对于某些特定的人群(例如日本人),在100个人中有这种变异的人不只一个。目前,查明SNP在基因组中的分布与疾病的关系是一个很热门的研究课题,在国际互联网上就能查到显示SNP在基因组中位置的图谱。日本实施的一项"定制医疗实现计划"收集了大约30万人的DNA和血清样品以及相应的临床信息,正在进行大规模的SNP分析。人类个体的基因组,除了有SNP的差别,还存在其他差异。比如说,有的个体的基因组内会额外插入若干个碱基,或者缺少若干个碱基,甚至基因的数目也发生了变异。现在的研究,是采用各种不同的方法来查明这些变异。然而,一旦能够使用快速而廉价的方法来解读出个人的基因组,所有这些关于个人基因组差异的信息便都可以一目了然。如何管理和使用"个人的隐私信息" 能够解读出个人的基因组,就意味着掌握了由个体差异所决定的个人特定身份的最基本的信息,也就是一个人的"隐私信息"。这样一来,就有可能产生一些社会问题。黑木研究员说:"在解读个人基因组信息之后,如何管理和使用那些属于私人信息的基因组序列数据将会成为下一个经常会遇到的伦理难题。" 藤山教授告诉我们,研究基因组面临的这个伦理难题,在提出人类基因组工程的时候就曾经一度是人们争论的一个话题。这次解读个人基因组获得了成功,也就意味着在将来有可能得到更多个人的基因组图谱。他认为,这将使得解读基因组的伦理难题再次成为人们关注的热门话题。那么,解读基因组会引出哪些问题呢?人们常常谈到的一个问题是个人保险。比如说,如果某个人的基因组信息表明其容易患某种疾病,那么,保险公司就有可能拒绝此人的投保。人们还担心,雇主也许会由于某个人容易患病而产生歧视,不肯雇佣这个人。此外,为了把个人的基因组数据有效地应用于医学研究,还要求志愿者提供一些基因组之外的其他个人信息。知道了一个人的基因组差异和体质特征,便可以进而知道许多此前并不知道的关于个人的遗传信息。尽管志愿者曾经同意公开这些个人信息,但这样做的结果,除了有可能遇到上面提到的那些麻烦,还要担负其他意想不到的风险。比如说文特尔博士,除了自己的基因组,他还提供了关于家族成员和家谱以及病历和性格等等其他个人信息。美国哈佛大学的乔治·丘奇教授正在进行的一项"个人基因组计划"(Personal Genome Project),要求志愿者同意公开其遗传信息和病历等个人资料。这样做会产生什么后果,将要冒怎样的风险,现在还很难预料。乔治·丘奇教授的研究计划,连同他本人,总共有10个志愿者参加。个人的基因组信息不仅涉及本人,还包含了同自己有血缘关系的亲属和后代的信息。有血缘关系的亲属与提供基因组信息的个人,前者的基因组至少有一部分与后者是相同的(亲子则有一半相同)。因此,公开个人的基因组信息是否需要亲属的同意,也是一个需要考虑的问题。还可能知道了自己不愿知道的事情不仅如此,一旦解读了个人的基因组,还有可能使自己知道了一些自己本不愿意知道的事情,这也会带来麻烦。例如,关于药品的疗效和副作用,这是谁都想知道的。但是,自己有可能会患上今天的医疗技术尚难以治疗的某种疾病,对于这种可能发生的不幸,恐怕许多人并不想知道。沃森博士在同意解读自己的基因组时就曾提出条件,要求不要分析一种叫做"ApoE"的基因。这个基因的碱基排列如果符合某种类型,就容易患上阿尔茨海默氏病(早老性痴呆症)。沃森博士不想知道自己是否容易患上这种疾病。解读基因组的技术发展迅速,普遍解读个人基因组的那一天也许会提前到来。藤山教授认为,"为了那一天的到来现在就应该及早做好准备,对这件事情进行认真的讨论,形成社会共识,是十分必要的"。 …… (更多精彩图片及完整内容请阅览《科学世界》2007年12月号)