第二章
现代音乐
每代人都有属于自己的现代音乐。
——弗朗西斯·克里克
现在人们可以从万物中创造旋律。
——理查德·鲍尔斯(Richard Powers),《奥菲欧》(Orfeo)
当伯格、博耶与科恩正在各自的机构(斯坦福大学与加州大学旧金山分校)里忙着混合与匹配基因片段时,剑桥大学的研究人员则完成了另一项具有同样意义的重大遗传学突破。为了理解这项发现的本质,我们必须重温基因研究的规范用语。与任意一种语言类似,遗传学也是由基本的结构单元组成的,其中就包括字母、词汇、句法与语法等。基因的“字母表”里只有四个字母,它们就是DNA的四个碱基(A、C、G与T)。而“词汇”由三联体密码构成,三个相连的碱基可以编码蛋白质中的某个氨基酸,其中ACT编码苏氨酸,CAT编码组氨酸,GGT编码甘氨酸,并且以此类推。蛋白质就像是基因编码的“句子”,它可以将字母串连成链(例如ACT—CAT—GGT编码苏氨酸—组氨酸—甘氨酸)。此外,莫诺与雅各布发现的基因调控则为这些词句创造出具有丰富内涵的语境。附加在基因上的调控序列(在特定时间与空间启动或关闭某个基因的信号)可以被视为基因组内部的语法。
尽管遗传学字母表、句法和语法就存在于细胞内,但是这些内容并非人类的“母语”。为了帮助生物学家读写基因语言,我们需要发明一套全新的工具。其中“写入”就是将单词按照特定的排列方式进行混合与搭配后产生新的含义。伯格、科恩与博耶在斯坦福大学开始应用克隆技术来写入基因,产生出自然界中不存在的DNA词句(例如把细菌基因与病毒基因联合起来形成全新的遗传因子)。但是“读取”基因,也就是解读某段DNA上精密排列的碱基序列,仍然存在着巨大的技术障碍。
具有讽刺意味的是,人类并不了解细胞读取DNA的机制,而这个问题对于化学家来说尤为突出。就像薛定谔曾经预测的那样,DNA这种化学物质令化学家百思不得其解,同时该分子本身的特征也自相矛盾:虽单调乏味却日新月异,既循规守矩又变幻莫测。化学家在拼接分子结构时通常会把它拆分为拼图中的小碎片,然后再把各化学成分组合起来装配出该分子的结构。可是当DNA变成碎片后,它就会降解为A、C、G与T等四种碱基的混合物。如果把书中的每个单词都拆分成字母,那么我们根本无法进行阅读。DNA就像那些单词一样,其序列中携带有相应的含义。只要将DNA降解为碱基,它就变成了原始的“四字母浓汤”。
※※※
然而化学家是如何确定基因序列的呢?在英国剑桥大学,有一处位于沼泽附近的非常简陋的半地下实验室。从20世纪60年代开始,生物化学家弗雷德里克·桑格(Frederick Sanger)就在这里从事基因测序研究。桑格对于复杂生物分子的化学结构非常痴迷。20世纪50年代早期,桑格就利用改良的传统分解方法解决了胰岛素蛋白质的测序问题。1921年,来自多伦多的外科医生弗雷德里克·班廷(Frederick Banting)与他的学生查尔斯·贝斯特(Charles Best)率先从几十磅(1磅约等于0.45千克)碾碎的狗胰腺中提纯出胰岛素。胰岛素是蛋白质纯化工作的重大成果,它本身是一种参与血糖调节的激素,当其被注射到糖尿病患儿体内便可以迅速扭转这种致命的糖代谢疾病。直到20世纪20年代末期,礼来制药公司(Eli Lilly)仅能从大量源自牛与猪胰腺的裂解液中生产出几克胰岛素。
然而尽管经过多次尝试,科学家们依然无法了解胰岛素的分子特征。而桑格准备用化学家严谨的方法论来破解这个难题:其实任何一名化学家都明白,答案就在那些溶解的混合物中。每种蛋白质都由串联成链的氨基酸序列构成,例如:甲硫氨酸—组氨酸—精氨酸—赖氨酸,或者甘氨酸—组氨酸—精氨酸—赖氨酸,以此类推。桑格意识到,为了鉴别蛋白质的序列,他需要进行一系列的降解反应。他将胰岛素蛋白质链末端的一个氨基酸切断,并且将其溶解在溶剂中,随后通过化学手段确定它就是甲硫氨酸。接下来他按照上述方法,切断相邻的组氨酸。桑格不断重复着蛋白质降解与氨基酸鉴定,并且依次获得了精氨酸与赖氨酸,直到他抵达蛋白质的另一端。这种实验设计好似从项链上逐颗褪下串珠,恰好与细胞构建蛋白质的过程相反。当胰岛素经过逐渐降解后,其氨基酸链的组成结构终于水落石出。1958年,桑格因其做出的巨大贡献被授予诺贝尔奖。
1955年到1962年间,虽然桑格使用改良的降解法阐明了几个重要蛋白质的序列,但是他的研究成果却并未触及DNA测序问题。桑格写道,他在这些年里“毫无建树”,只是生活在盛名的阴影下。他在那段时间鲜有论文发表,即便仅有的几篇有关蛋白质测序的文章得到热捧,可是他认为这些工作都与预期的成功存在差距。1962年夏季,桑格搬到了位于剑桥大学医学研究委员会(MRC)大楼里的另一处实验室。他在那里遇到了许多新邻居,其中就包括克里克、佩鲁茨与悉尼·布伦纳,而这些科学家都沉浸在对DNA的狂热崇拜中。
实验室位置的改变标志着桑格的研究重点发生了巨大转变。在这些科学家中,克里克与威尔金斯是DNA研究的早期开拓者,而沃森、富兰克林与布伦纳则是后期加入的合作者。现在弗雷德·桑格必须重整旗鼓进军DNA领域。
※※※
20世纪60年代中期,桑格将研究重点从蛋白质转移到了核酸,并且开始认真考虑DNA测序问题。但是曾经在胰岛素研究中崭露头角的方法(切断、溶解、再切断、再溶解)在DNA测序中却无法施展。蛋白质的化学结构使得氨基酸可以按照顺序被依次切断,然而桑格在DNA研究中并未发现可供使用的工具。于是他重新调整了降解反应,但是实验结果只能用一败涂地来形容。当桑格把DNA碎片溶解后发现,携带遗传信息的DNA已经变成了乱码。
1971年冬季,桑格在逆向考虑这个问题时突然获得了灵感。在过去几十年间,他一直通过打破分子之间的联系来解决测序问题。但是如果他将原有的研究方向颠倒过来,尝试以构建DNA替代分解反应,那么又会出现何种结果呢?桑格推断,要想解决基因测序问题,研究者就必须按照基因的变化规律进行思考。细胞无时无刻不在构建基因,而每次细胞分裂都会生成新的复制体。
假设生物化学家能够身临其境进入基因复制酶(DNA聚合酶)中,那么将有机会目睹DNA复制以及基因复制酶逐个添加碱基(例如A、C、T、G、C、C、C等依此类推)的过程,而生化学家只要在一旁仔细观察就可以了解这段基因的序列。其工作模式与复印机相仿,你可以通过DNA拷贝来重建原始结构。此时,镜像将再次还原其本来面目,道林·格雷的真容将从这些散乱的映像中得到显现。
1971年,桑格开始利用DNA聚合酶的复制反应研制基因测序技术。[在哈佛大学,沃尔特·吉尔伯特(Walter Gilbert)和艾伦·马克西姆(Allan Maxam)也在设计DNA测序系统,虽然采用的试剂不同,但是方法同样有效,不过很快他们就被桑格的方法超越了。]起初桑格的方法效率很低,并且经常莫名其妙地失败。他后来发现该问题与复制反应的速度有关,当聚合酶沿着DNA链快速前进时,其添加核苷酸的速度简直是疾如闪电,以至于桑格根本无法捕捉到中间的步骤。1975年,桑格对原有实验步骤进行了巧妙的修改,他通过一系列经过化学改造的碱基(这些变异体与A、C、G和T之间只有非常轻微的差异)来打乱复制反应。虽然上述碱基仍能被DNA聚合酶识别,但是会干扰它们的复制能力。当聚合酶暂缓复制时,桑格便可以在减速反应中利用干扰信号从成千上万的碱基中对基因进行定位,例如:这里是A,那里是T与G等等,依此类推。
1977年2月24日,桑格的研究成果发表于《自然》杂志,他在文中描述了使用这项技术揭示ΦX174病毒完整DNA序列的过程。ΦX174是一个体积微小的病毒,全长只有5 386个碱基对,其基因组大小甚至无法与某些最小的人类基因相比。但是这篇论文发表后在科学界掀起了变革的浪潮。桑格写道:“通过这些序列可以识别出许多特性,而正是它们负责制造该生物体内9个已知基因所合成的蛋白质。”现在桑格已经读懂了基因的语言。
※※※
作为遗传学领域的新技术,基因测序与基因克隆随即被用于基因与基因组新特征的鉴定。而这些技术应用的首个重大发现与动物基因和动物病毒的独特功能有关。1977年,科学家理查德·罗伯茨(Richard Roberts)与菲利普·夏普(Phillip Sharp)分别发现,绝大多数动物蛋白质并非由连续的DNA序列编码,事实上它们会被分为许多独立模块。但是在细菌中,每个基因都是由连续的DNA序列组成,从第一个三联体密码(ATG)开始算起,一直延伸直至最后的“终止”信号。由于细菌的基因内部不存在间隔区,因此它们不含有那些独立模块。但是罗伯茨与夏普发现在动物与动物病毒中,某个基因通常会被较长的DNA填充片段分割成多个部分。
现在我们将“structure”这个词比喻成基因来进行诠释。在细菌中,基因“structure”可以准确无误地嵌入到基因组中,不存在断裂、填充、间插以及中断等现象。但是在人类基因组中会出现完全相反的情况,基因“structure”会被某些DNA间隔片段打断,表现为s…tru...ct...ur...e的形式。
那些被标记为省略号(...)的长段DNA并不含有任何蛋白质编码信息。当此类断裂基因被用于生成某种信息时(例如当DNA转录形成RNA时),那么这些填充片段会从RNA信息中被切除,然后去除间插序列的RNA将重新连接在一起,而基因s...tru...ct...ur...e的结构也将简化为structure。于是罗伯茨与夏普把该过程称为基因剪接或者RNA剪接(因为基因的RNA信息通过“剪接”移除了填充片段)。
起初,这些断裂基因的结构令人难以理解:为什么动物基因组要耗时费力地把长链DNA片段变得七零八落,难道只是为了重新恢复这些信息的连续性吗?但是很快断裂基因的内在逻辑就变得显而易见:假如把基因分成不同的功能模块,那么细胞就可以让单个基因产生成令人眼花缭乱的信息组合。由于基因s...tru...ct...ur...e可以被剪接组合成为cure,或是true等基因,因此可以从单个基因中创造出大量各式各样的信息(也称为亚型)。当然你还可以用剪接的方式从g...e...n...om...e中生成gene、gnome与om基因。此外,模块基因还具有进化上的优势:来自不同基因的单个模块经过混合与匹配后可以构建出全新的基因种类(例如:c...om...e...t)。哈佛大学遗传学家沃利·吉尔伯特(Wally Gilbert)为这些模块创造了一个名词,他将其称为“外显子”(exon),而外显子之间的填充片段则被命名为“内含子”(intron)。
内含子并非人类基因的特有产物,它们广泛存在于各种生物体中。人类基因的内含子体积庞大,能够容纳数十万个DNA碱基。但是基因彼此之间又被长段的间插DNA序列隔离开来,而这些DNA被称为基因间序列。基因间序列与内含子(基因间的间隔片段与基因内的填充片段)被认为含有使基因根据环境变化进行调节的序列。现在让我们回到最初的比喻上来,基因间DNA与内含子就像是长省略号间零散分布的标点符号。因此,人类基因组的结构可以被看作:This......is......the......(...)...s...truc...ture......of...... your...... gen...om...e.
这些单词代表着基因。其中单词间的长省略号代表基因间DNA,单词间的短省略号(gen...ome...e)则代表内含子,括号与冒号这样的标点符号相当于调节基因的DNA区域。
除此之外,基因测序与基因克隆这对双胞胎还把遗传学从实验的泥沼中拯救了出来。20世纪60年代末期,人们意识到遗传学的发展已经深陷僵局。那时候所有实验科学的设计理念基本雷同,先是对于某个系统进行有计划的干预,然后再测量干预带来的效果。由于改变基因的唯一手段就是构建突变体(其实这是个随机过程),因此读懂变化的唯一途径就是比较形态与功能的差异。你可以效仿穆勒构建无翅或无眼果蝇突变体的方法将果蝇暴露在X射线下,但是你无法定向操纵那些控制果蝇眼睛或翅膀的基因,而且你也无法准确地理解翅膀或者眼睛的基因发生了何种改变。就像某位科学家描述的那样:“基因遥不可及。”
基因这种遥不可及的属性让“新兴生物学”的救世主(詹姆斯·沃森就是其中一员)感到尤为沮丧。1955年,就在他发现DNA结构两年之后,沃森来到了哈佛大学生物系,但是这一举动也随即招致了哈佛大学内部某些学术泰斗的反感。在沃森看来,生物学是一门横跨传统与现代领域的新兴科学。传统学派由博物学家、分类学家、解剖学家以及生态学家组成,他们仍然专注于动物分类以及对生物解剖学与生理学特征进行定性描述。而“现代”生物学家则与之完全不同,他们开始研究分子与基因在生物体内的作用。当传统学派还在讲授生物多样性与变异时,现代学派已经在讨论通用编码、共同机理以及“中心法则”了。
克里克曾经说过:“每代人都有属于自己的现代音乐。”沃森则直白地表达了自己对古典音乐的轻蔑。沃森认为博物学在很大程度上是一门“描述性”学科,而它终将被具有勃勃生机的实验科学取代。那些研究恐龙的“老古董”很快就会因为自身因素退出历史舞台。沃森将秉承传统学派的生物学家称为“集邮者”,对他们聚精会神于生物标本收集与分类的做法嗤之以鼻。
然而即便是沃森也不得不承认,由于无法定向进行基因干预以及解读基因改变的确切本质,因此现代生物学研究的道路依然崎岖坎坷。如果可以对基因进行测序与操作,那么这个领域将会呈现出波澜壮阔的前景。而在此之前,生物学家只能依靠仅有的研究工具(也就是在结构简单的生物体内产生随机突变)来探索基因的功能。但是让沃森愤懑不平的是,博物学家也可以如此这般来嘲弄他们的工作:如果传统学派的生物学家是“集邮者”的话,那么现代学派的分子生物学家不过是“突变体猎手”。
1970年到1980年,这些突变体猎手摇身一变成为基因操作者与基因解码者。假设时间回到1969年,如果在人类中发现了某种疾病相关基因,那么科学家们根本没有切实可行的方法来理解该突变的本质,他们没有途径去比较该基因与正常基因之间的差异,同样也没有简便易行的方法在其他生物体内重建基因突变来研究其功能。然而到了1979年,这种致病基因已经能够被导入细菌体内,它们在与病毒载体进行拼接后能够转移到哺乳动物细胞的基因组中,随后可以使用克隆与测序手段将该基因与正常基因进行比较。
1980年12月,为了表彰这些基因技术领域中的开创性发现,弗雷德里克·桑格、沃尔特·吉尔伯特与保罗·伯格被共同授予诺贝尔化学奖,他们就是率先读写DNA奥秘的先驱。就像某位科学记者指出的那样,“化学操纵(基因)的武器库”现在已经初具规模。生物学家彼得·梅达沃则写道:“对于DNA这种遗传信息的载体来说,基因工程可以通过定向操纵使其发生遗传改变……技术的真相不就是理论先行吗?……登陆月球?是的,已经实现。消灭天花?毋庸置疑。那么弥补人类基因组上的缺陷呢?当然是大势所趋,哪怕在实现的过程中还会遇到更多艰难险阻。虽然我们还没有完成这个目标,但是我们确实在朝着正确的方向前进。”
※※※
按照伯格、博耶与科恩的想法,最初发明基因操作、克隆与测序技术是为了在细菌、病毒与哺乳动物的细胞之间转移基因,可是后来这些技术在有机生物学领域产生了巨大反响。对于基因克隆与分子克隆本身来说,虽然这些术语原本被用来指代细菌或病毒中产生的相同DNA拷贝(也就是“无性繁殖”),但是没多久它们就成为整个生物技术领域的象征,正是这些技术使得生物学家们能够从生物体内提取基因,并且在试管中进行基因操纵、构建基因杂合体以及在活体生物中扩增基因(毕竟只能利用这些技术的组合来克隆基因)。伯格说道:“只要掌握了基因操作的实验技术,那么就可以通过这些手段来操纵生物体。通过基因操作与基因测序工具混合搭配,科学家研究的领域将从遗传学扩展至整个生物世界,而这种基于实验科学获得的胆识在过去看来简直是天方夜谭。”
假设免疫学家正打算解决免疫学里的一个基础问题,例如T细胞在体内识别与杀死外源细胞的机制。几十年来,人们已知T细胞可以通过其表面的传感器来获知入侵细胞与病毒感染细胞的存在。这种传感器被称为T细胞受体,它实际上是一种只由T细胞产生的蛋白质。T细胞受体能够识别外源细胞表面的蛋白质并与之结合。而反过来,这种结合又会触发杀死入侵细胞的信号,并且构成生物体的防御机制。
但是T细胞受体的本质是什么呢?生物化学家开始通过擅长使用的减法来解决该问题:他们先是通过细胞培养获得大量的T细胞,接着用脂肪酸盐与洗涤剂将细胞成分溶解形成灰色的细胞泡沫,然后去除提取物中的细胞膜与脂质,并且对这些物质进行反复提纯,从而最终捕获罪犯蛋白(culprit protein)。可是溶解在那些细胞提取物中的受体蛋白依然无影无踪。
此时基因克隆可以提供另一种解决方案。现在我们假设:T细胞受体蛋白的与众不同之处在于它只在T细胞内合成,而不会出现在神经元、卵细胞或者肝细胞中。虽然编码该受体的基因应该存在于每个人类细胞中(人类神经元、肝细胞以及T细胞拥有相同的基因组),但是最终负责转录的RNA却只产生于T细胞。那么人们能否通过比较两个不同细胞的“RNA目录”,然后从该目录中克隆出某个功能相关的基因呢?生物化学家的方法总是以浓度为中心:他们会在蛋白质最有可能聚集的地方找到它,然后将其从混合物中提取出来。相比之下,遗传学家的方法则是以信息为中心:他们通过比较两个密切相关的细胞“数据库”差异来找到该基因,进而使用克隆技术在细菌体内对该基因进行扩增。生物化学技术注重提取方式,而基因克隆手段可以扩增信息。
1970年,病毒学家戴维·巴尔的摩与霍华德·特明的一项重要发现使得上述比较成为可能。巴尔的摩与特明两人各自独立开展了研究工作,他们在逆转录病毒中发现了一种可以使用RNA作为模板构建DNA的酶。由于它逆转了遗传信息流动的正常方向,因此他们将这种酶命名为逆转录酶。这种从RNA到DNA(或者说从转录信息到基因本身)的过程违反了“中心法则”的某个版本(遗传信息只会从基因转录为信息,而且绝不可能反向流动)。
在细胞内逆转录酶的协助下,每条RNA都可以作为模板来构建与之相应的基因。这样生物学家就能为细胞中全部“活跃”基因制作目录或者“文库”,而这种过程就像图书馆根据主题对书籍进行分类。基因文库并不是T细胞的专利,它还存在于其他类型的细胞(包括红细胞、视网膜中的神经元、胰腺里的胰岛素分泌细胞等)里。通过比较源自两种细胞(例如T细胞与胰腺细胞)的基因文库,免疫学家就可以筛选不同细胞中的活跃与不活跃基因(例如胰岛素或者T细胞受体)。只要上述基因被验明正身,那么就可以将其在细菌中成百万倍地进行扩增,然后对该基因进行分离与测序,并且确定相应的RNA与蛋白质序列。此外还可以确定调控区域的位置,当然也可以将发生突变的基因插入到不同的细胞中,从而破译该基因的结构与功能。1984年,这项技术被用于克隆T细胞受体,而此项成果在免疫学领域具有里程碑式的意义。
就像某位遗传学家后来回忆的那样,生物学“被克隆技术解放了……此后生物学领域开始爆发出各种令人惊喜的消息”。在过去几十年里,科学家一直在寻找那些神秘莫测且不可或缺的基因(其中包括凝血蛋白基因、生长调节因子基因、抗体基因、激素基因、神经间递质基因、控制其他基因复制的基因、癌症相关基因、糖尿病相关基因、抑郁症相关基因以及心脏病相关基因等),而我们则可以利用来自细胞的基因文库来进行纯化与克隆。
基因克隆与基因测序让生物学发生了天翻地覆的变化。如果把实验生物学比作“现代音乐”的话,那么基因就是它的指挥、管弦乐队、类韵副歌、首席乐器以及总谱。