从微小的细菌到庞大的大象,地球上所有生命体内最重要的大分子居然只能归纳为四大类:碳水化合物、脂质、蛋白质和核酸。这听起来是不是有些令人惊讶?在分子层面上,其中三类分子——碳水化合物、蛋白质和核酸——的体积巨大,因此被称为大分子。

当茅台酒厂的发酵过程中,工人们品尝白酒时,他们的肝脏中有一种叫做乙醇脱氢酶的蛋白质正在发挥作用,这种蛋白质分子由数千个原子组成,分子量超过10万道尔顿。正是因为生物化学家们长期不懈的努力,我们才能了解这些复杂分子的详细结构。
在这一部分内容中,我们将首先探讨大分子是如何构建的,然后详细研究四类大分子的结构和功能。这些知识将帮助我们理解从中药材的有效成分到转基因作物的工作原理。
大型碳水化合物、蛋白质和核酸都是链状分子,我们称之为聚合物。聚合物是由许多相似或相同的基本单元通过共价键连接而成的长分子,就像火车由一节节车厢组成一样。这些作为聚合物基本单元的较小分子称为单体。

例如,在制作兰州拉面的过程中,最初,面粉、水和盐等简单原料通过揉制形成面团,这个过程类似于单体结合成聚合物。虽然每种聚合物都由不同类型的单体组成,但细胞制造和分解聚合物的化学机制基本相同。这些过程都需要酶的参与,酶是一类专门加速化学反应的特殊大分子。
连接单体的反应是脱水反应的典型例子。在脱水反应中,两个分子通过共价键结合,同时失去一个水分子。当两个单体之间形成键时,每个单体都贡献水分子的一部分:一个单体提供羟基(-OH),另一个提供氢原子(-H)。
聚合物通过水解反应分解为单体,这个过程本质上是脱水反应的逆反应。水解意味着“水的破坏”,通过加入水分子来破坏单体之间的键,其中水分子的氢原子结合到一个单体上,羟基结合到另一个单体上。

例如,当我们吃米饭或面条时,消化道内的各种酶加速聚合物的水解过程。食物中的有机物多数以对细胞来说过大的聚合物形式存在,无法直接进入细胞。在消化道内,酶加速这些聚合物的水解,释放出的单体随后被吸收进入血液,分配到全身各个细胞。然后,这些细胞可以利用脱水反应将单体重新组装成新的、不同的聚合物,执行细胞所需的特定功能。
一个细胞拥有数千种不同的大分子,这些分子的组合因细胞类型而异。遗传差异主要体现在聚合物的微小变化上,特别是DNA和蛋白质。亲属之间(如兄弟姐妹)的分子差异相对较小,无关个体之间的差异更大,不同物种之间的差异则更为显著。
生命界中大分子的多样性是巨大的,可能的变化实际上是无限的。这些分子仅由40到50种常见单体以及一些罕见单体构成,就像用26个字母构成数十万个单词一样。
生命聚合物多样性的基础是什么?关键在于排列——单体遵循的特定线性序列。以蛋白质为例,它们由20种氨基酸构成,通常排列成数百个氨基酸长的链。生命的分子逻辑简单而优雅:所有生物体共有的小分子作为基本单元,有序地组装成独特的大分子。
尽管存在这种巨大的多样性,分子结构和功能仍然可以大致按类别分组。让我们来研究四类主要的大分子。对于每一类,大分子都具有其单个组成部分所不具有的突现性质。
碳水化合物包括糖类和糖类的聚合物。最简单的碳水化合物是单糖,这些简单糖类是构建更复杂碳水化合物的单体。双糖是双分子糖,由两个通过共价键连接的单糖组成。碳水化合物大分子是称为多糖的聚合物,由许多糖基本单元组成。

当我们在吃早餐时,豆浆中含有蔗糖(双糖),油条中含有淀粉(多糖),这些都是碳水化合物的典型代表。当我们品尝这些食物时,口腔中的淀粉酶开始将淀粉分解为较小的糖分子,这就是为什么细嚼慢咽时能尝到甜味的原因。
单糖的分子式通常是CH₂O的某种倍数。葡萄糖(C₆H₁₂O₆)是最常见的单糖,是生命化学中至关重要的分子。在葡萄糖的结构中,我们可以看到糖类的典型特征:分子具有羰基(C=O)和多个羟基(-OH)。
根据羰基的位置,糖可以分为醛糖(羰基在碳链末端)或酮糖(羰基在碳链内部)。葡萄糖是醛糖,而果糖是酮糖。按照碳骨架的大小,糖类还可以分为三碳糖(丙糖)、五碳糖(戊糖)和六碳糖(己糖)等。
双糖通过脱水反应形成,其中一个单糖的羟基与另一个单糖的氢原子结合形成水分子,同时两个单糖通过共价键连接。这种连接称为糖苷键。
让我们看看几个与中国饮食文化相关的例子:
有趣的是,许多成年中国人存在乳糖不耐受现象。这是因为成年后体内乳糖酶的活性降低,无法有效分解乳糖。这种现象在北方汉族人群中相对较少,而在南方汉族人群中较为常见,这与历史上不同地区的饮食传统有关。
多糖是由数百到数千个单糖通过糖苷键连接而成的大分子。根据功能,多糖可以分为两大类:储存多糖和结构多糖。
植物和动物都以储存多糖的形式储存糖分以备后用。植物储存淀粉,这是一种葡萄糖单体的聚合物,以颗粒形式存在于质体(包括叶绿体)等细胞结构中。
中国作为农业大国,对淀粉的应用有着悠久的历史。从北方的小麦到南方的水稻,再到西南地区的玉米和薯类,这些农作物都是淀粉的重要来源。淀粉的合成使植物能够储存过剩的葡萄糖,当需要时再通过水解作用从这个碳水化合物“银行”中提取糖分。
动物储存的多糖是糖原,也是葡萄糖单体的聚合物,但分支比淀粉更多。人类和其他脊椎动物主要在肝脏和肌肉细胞中以糖原颗粒的形式储存糖原。当血糖水平下降时,糖原的水解释放葡萄糖。
一些多糖用作建筑材料,为细胞或整个生物体提供结构。纤维素是植物细胞壁的主要成分,也是地球上最丰富的有机化合物。
纤维素虽然不能被人类消化,但它是健康饮食的重要组成部分。大多数水果、蔬菜和全谷物都富含纤维素。在食品包装上,“不溶性纤维”主要指的就是纤维素。
纤维素由葡萄糖单体组成,但与淀粉不同的是,它们之间的糖苷键类型不同。这种不同使得纤维素分子能够形成直链结构,平行的纤维素分子通过氢键聚合成束,形成坚固的微纤维。

中国传统造纸工艺就是利用植物纤维素的这种特性。从竹子到桑树皮,再到稻草,这些原料中的纤维素为造纸提供了基础材料。现代的绿色建筑也越来越多地使用纤维素基材料,如竹纤维板材等。
几乎所有动物都缺乏能够消化纤维素的酶,包括人类。然而,一些微生物可以消化纤维素,将其分解为葡萄糖单体。牛等反刍动物在肠道中寄居着能够消化纤维素的原核生物和原生生物,这些微生物水解纤维素并将葡萄糖转化为营养奶牛的其他化合物。
脂质是唯一不形成真正聚合物的大分子类,它们通常也不够大,不能被称为大分子。被归类为脂质的化合物之所以归为一类,是因为它们共享一个重要特征:它们与水的混合性很差,甚至完全不混合。脂质的疏水行为基于它们的分子结构——尽管可能含有一些与氧相关的极性键,但脂质主要由碳氢化合物区域组成。

当我们制作沙拉时,橄榄油和醋会分层,这就是因为油(脂质)具有疏水性。在中国菜中,我们常说“油水不相融”,这句话恰恰说明了脂质的基本特性。
虽然脂肪不是聚合物,但它们是由较小分子通过脱水反应组装成的大分子。脂肪由两种较小分子构成:甘油和脂肪酸。
甘油是一种三碳醇,每个碳都带有一个羟基。脂肪酸具有长碳骨架,通常为16或18个碳原子。碳骨架一端的碳是羧基的一部分,这个功能基团使这些分子被称为脂肪酸。骨架的其余部分由碳氢链组成。
在制造脂肪时,三个脂肪酸分子各自通过酯键与甘油连接,酯键由羟基和羧基之间的脱水反应形成。所得脂肪也称为三酰甘油,由三个与一个甘油分子连接的脂肪酸组成。

中国人的饮食习惯中,不同地区偏好不同的食用油。北方多用花生油和大豆油,南方喜欢菜籽油和茶油,而随着健康意识的提高,橄榄油等进口油品也越来越受欢迎。这些不同油脂的营养价值和风味主要取决于其脂肪酸的组成。
脂肪的主要功能是能量储存。脂肪的碳氢链与汽油分子相似,同样富含能量。一克脂肪储存的能量是一克多糖(如淀粉)的两倍多。由于植物相对固定,它们可以使用淀粉这种体积较大的能量储存形式。然而,动物必须携带它们的能量储存,因此拥有更紧凑的燃料储备——脂肪是有优势的。
没有另一类脂质——磷脂,我们所知的细胞就无法存在。磷脂是细胞膜的主要成分,它们的结构提供了分子水平上形式与功能完美结合的经典例子。
磷脂与脂肪分子相似,但只有两个脂肪酸附着在甘油上,而不是三个。甘油的第三个羟基与磷酸基团连接,磷酸基团在细胞中带负电荷。通常,磷酸基团还连接一个额外的小分子。
磷脂的两端对水表现出不同的行为。碳氢尾部是疏水的,被水排斥,而磷酸基团及其附着物形成亲水头部,对水有亲和力。当磷脂添加到水中时,它们自组装成双分子层,磷脂双分子层形成细胞与其外部环境之间的边界,并在真核细胞内建立独立的隔室。
这种磷脂双分子层的发现对理解生命具有重要意义。中国科学家在膜蛋白结构研究方面做出了杰出贡献,清华大学颜宁教授等人在葡萄糖转运蛋白、钠钾ATP酶等膜蛋白结构解析方面取得了世界领先的成果。
固醇是由四个稠合环组成的碳骨架特征的脂质。不同的固醇通过附着在这组环上的特定化学基团来区分。胆固醇是动物细胞膜的常见组分,也是合成其他固醇(如脊椎动物性激素)的前体。
血液中胆固醇水平过高可能导致动脉粥样硬化,这一疾病过程中沉积物在血管壁内形成,造成内向凸起,阻碍血流并降低血管弹性。
在中国,随着生活水平的提高和饮食结构的改变,高胆固醇血症的发病率呈上升趋势。《中国心血管健康与疾病报告》显示,我国成人血脂异常患病率已超过40%。这使得对脂质营养的科学认识变得更加重要。
传统中医讲究“药食同源”,许多食物具有调节血脂的作用。比如,燕麦中的β-葡聚糖可以帮助降低胆固醇,山楂中的山楂酸具有降血脂的功效,这些都体现了传统智慧与现代营养学的结合。

生物体几乎每一个动态功能都依赖于蛋白质。事实上,蛋白质重要性通过其名称得到强调,该名称来自希腊词“proteios”,意思是“第一”或“主要”。蛋白质占大多数细胞干重的50%以上,并且在生物体所做的几乎所有事情中都起着重要作用。
在2020年新冠疫情期间,全世界科学家都在研究新冠病毒的刺突蛋白结构,以开发疫苗和治疗药物。中国科学家在这方面做出了重要贡献,从结构生物学研究到mRNA疫苗开发,都体现了蛋白质科学的重要性。
一些蛋白质加速化学反应,其他蛋白质在防御、储存、运输、细胞通讯、运动或结构支撑中发挥作用。
所有蛋白质都由同一套20种氨基酸构成,以无分支聚合物的形式连接。氨基酸之间的键称为肽键,因此氨基酸聚合物称为多肽。蛋白质是一个生物功能分子,由一个或多个多肽组成,每个多肽都折叠并盘绕成特定的三维结构。
所有氨基酸都有共同的结构。氨基酸是既有氨基又有羧基的有机分子。氨基酸的中心是不对称碳原子,称为α碳。它的四个不同伙伴是氨基、羧基、氢原子和用R表示的可变基团。R基团也称为侧链,每种氨基酸都不同。
中国传统饮食智慧中的“五谷为养”其实体现了氨基酸互补的科学道理。大米和豆类搭配食用,可以提供更完整的氨基酸谱。现代营养学证实了这种搭配的科学性:大米缺乏赖氨酸但富含蛋氨酸,而豆类富含赖氨酸但缺乏蛋氨酸,两者结合可以达到氨基酸平衡。
当两个氨基酸定位使得一个氨基酸的羧基与另一个氨基酸的氨基相邻时,它们可以通过脱水反应连接,去除水分子。产生的共价键称为肽键。重复这个过程产生多肽,即通过肽键连接的许多氨基酸的聚合物。
多肽有方向性。一端有自由氨基(多肽的N末端),而相对端有自由羧基(C末端)。多肽的化学性质整体上由侧链的种类和序列决定,这决定了多肽如何折叠,从而决定其最终形状和化学特性。
蛋白质的特定活动源于其复杂的三维结构,其最简单的层次是氨基酸序列。氨基酸序列能告诉我们什么关于蛋白质的三维结构和功能?
当细胞合成多肽时,链可以自发折叠,呈现该蛋白质的功能结构。这种折叠是由链各部分之间形成的各种键驱动和加强的,这又依赖于氨基酸序列。许多蛋白质大致呈球形(球状蛋白质),而其他蛋白质形状像长纤维(纤维蛋白质)。
中国科学家在蛋白质结构研究方面取得了重要突破。以清华大学施一公教授为代表的结构生物学家,在剪接体、细胞凋亡等重要生物过程的蛋白质复合物结构解析方面做出了开创性工作。这些研究不仅推进了基础科学的发展,也为药物设计提供了重要基础。
蛋白质的特定结构决定了它的工作方式。在几乎每种情况下,蛋白质的功能都依赖于其识别和结合到某些其他分子的能力。一个特别引人注目的形式与功能结合的例子是抗体(体内的蛋白质)与流感病毒上特定外来物质之间形状的精确匹配,抗体结合并标记这些外来物质以供破坏。
如果多肽的一级结构决定蛋白质的形状,那么什么决定一级结构?多肽的氨基酸序列由称为基因的离散遗传单位编程。基因由DNA组成,DNA属于称为核酸的化合物类。核酸是由称为核苷酸的单体制成的聚合物。
两种类型的核酸——脱氧核糖核酸(DNA)和核糖核酸(RNA)——使生物体能够将其复杂组分从一代复制到下一代。在分子中,DNA独特地提供其自身复制的指令。DNA还指导RNA合成,并通过RNA控制蛋白质合成;这整个过程称为基因表达。
在过去的二十年里,完成一次人类全基因组测序的成本经历了惊人的下降。2005年,测序一个基因组的费用高达2000万美元。随着高通量测序技术的快速发展,这一成本不断降低。2008年,华大基因成立,推动了中国在基因组测序领域的发展。到2010年,测序成本已降至300万美元。2012年,由于技术进步和产业竞争,成本骤降至8000美元,此后继续迅速下滑。2015年,每套基因组的测序成本大约为1500美元,2018年下降到800美元。新冠疫情期间(2020年)带动了基因检测和测序的需求,进一步促进了行业发展,测序成本降至600美元。到2023年,测序一套人类基因组的费用已低至300美元左右。这一成本的大幅降低极大促进了基因组学研究和精准医疗的发展。
DNA是生物体从其父母那里继承的遗传物质。每条染色体包含一个长DNA分子,通常携带数百个或更多基因。当细胞通过分裂繁殖时,其DNA分子被复制并从一代细胞传递到下一代。编程细胞所有活动的信息都编码在DNA的结构中。

然而,DNA本身并不直接参与运行细胞的操作,就像计算机软件本身无法读取谷物盒上的条形码一样。正如需要扫描仪来读取条形码一样,需要蛋白质来实现遗传程序。细胞的分子硬件——执行生物功能的工具——主要由蛋白质组成。
核酸是作为多核苷酸存在的聚合物的大分子。顾名思义,每个多核苷酸由称为核苷酸的单体组成。核苷酸一般由三部分组成:五碳糖(戊糖)、含氮碱基和一到三个磷酸基团。
用于构建多核苷酸的起始单体有三个磷酸基团,但在聚合过程中失去两个。没有任何磷酸基团的核苷酸部分称为核苷。
让我们首先考虑含氮碱基,每个含氮碱基都有一个或两个包含氮原子的环。有两个含氮碱基家族:嘧啶和嘌呤,嘧啶有一个六元碳氮原子环,嘌呤较大,有一个六元环与五元环融合。
DNA中的糖是脱氧核糖,RNA中的糖是核糖。这两种糖的唯一区别是脱氧核糖在环中第二个碳上缺少氧原子,因此得名脱氧核糖。
DNA分子有两个多核苷酸或“链”,围绕假想轴缠绕,形成双螺旋。两个糖-磷酸骨架在相反的5'→3'方向上运行;这种排列称为反平行。糖-磷酸骨架在螺旋外侧,含氮碱基在螺旋内部配对。
在碱基配对中,双螺旋中只有某些碱基彼此兼容。一条链中的腺嘌呤(A)总是与另一条链中的胸腺嘧啶(T)配对,鸟嘌呤(G)总是与胞嘧啶(C)配对。这种配对规则使得DNA具有自我复制的能力。读取双螺旋一条链的碱基序列将告诉我们另一条链的序列。
双螺旋的两条链是互补的,每一条都是另一条的可预测对应物。正是DNA的这一特征使得细胞在准备分裂时可以产生每个DNA分子的两个相同副本成为可能。当细胞分裂时,副本分配给子细胞,使它们在遗传上与亲代细胞相同。
中国在基因技术方面取得了举世瞩目的成就。华大基因作为全球领先的基因组学研发机构,不仅参与了人类基因组计划,还在农业基因组学、医学基因组学等领域发挥重要作用。新冠疫情期间,中国科学家在短时间内完成了病毒基因组测序,为全球疫苗研发提供了重要基础。
与DNA分子相比,RNA分子以单链形式存在。然而,互补碱基配对可以发生在两个RNA分子的区域之间,甚至在同一RNA分子的两个核苷酸片段之间。事实上,RNA分子内的碱基配对使其能够呈现其功能所需的特定三维形状。
20世纪上半叶的实验工作确立了DNA作为遗传信息载体的作用,这些信息代代相传,指定活细胞和生物体的功能。一旦1953年描述了DNA分子的结构,并且理解了核苷酸碱基的线性序列指定蛋白质的氨基酸序列,生物学家就开始通过学习基因的核苷酸序列来“解码”基因。
第一种DNA测序的化学技术——确定DNA链上核苷酸的序列——在1970年代开发。研究人员开始逐个基因地研究基因序列,他们学得越多,问题就越多:基因表达是如何调节的?基因及其蛋白质产物显然相互作用,但是如何作用?不属于基因的DNA(如果有的话)有什么功能?
为了完全理解生物体的遗传功能,DNA的完整序列补体——生物体的基因组——将是最有启发性的。尽管这个想法显然不切实际,但在1980年代后期,几位著名的生物学家提出了一个大胆的提议,启动一个项目,对整个人类基因组进行测序——所有30亿个碱基!这项努力始于1990年,并在2000年代初有效完成。
人类基因组计划的一个意外但深刻的副作用是更快、更便宜的测序方法的快速发展。这一趋势持续至今:2001年测序100万个碱基的成本超过5000美元,到2016年已降至不到0.02美元。而人类基因组,第一个测序花费了十多年时间,以今天的速度可以在几天内完成。
中国在基因组学发展中扮演了重要角色。从参与人类基因组计划的1%,到现在成为全球基因组学研究的重要力量,这一转变体现了中国科技实力的跃升。深圳华大基因、北京贝瑞基因等企业在基因测序技术和应用方面已达到国际先进水平。
已完全测序的基因组数量激增,产生了大量数据并促进了生物信息学的发展——使用计算机软件和其他计算工具来处理和分析这些大数据集。
这些发展的反响已经改变了生物学和相关领域的研究。生物学家经常通过分析大组基因甚至比较不同物种的整个基因组来观察问题,这种方法称为基因组学。对大组蛋白质(包括其序列)的类似分析称为蛋白质组学。
这些方法渗透到生物学的所有领域。也许基因组学和蛋白质组学对整个生物学领域最重要的影响是它们对我们理解进化的贡献。除了确认来自化石研究和现有物种特征的进化证据外,基因组学还帮助我们理清先前类型证据未能解决的不同生物群体之间的关系,从而推断进化历史。

我们习惯于将共同特征(如哺乳动物的毛发和产奶)视为共同祖先的证据。由于DNA在基因形式中携带可遗传信息,基因序列及其蛋白质产物记录了生物体的遗传背景。DNA分子中核苷酸的线性序列从父母传递给后代;这些序列决定蛋白质的氨基酸序列。
根据我们对生命的进化观点,我们可以将“分子系谱学”的概念扩展到物种之间的关系:基于解剖学证据(可能还有化石证据)看起来密切相关的两个物种,也应该比不太密切相关的物种共享更大比例的DNA和蛋白质序列。
人类血红蛋白β多肽链与其他脊椎动物相应血红蛋白多肽的比较就是一个例子。在这个146个氨基酸的链中,人类和大猩猩仅在1个氨基酸上不同,而人类和青蛙(关系更远)在67个氨基酸上不同。
比较基因组序列具有实际应用。中国科学家利用基因组学技术在农业育种、疾病诊断、药物开发等领域取得了重要进展。比如,通过比较不同水稻品种的基因组,科学家开发出了抗病虫害、高产优质的新品种,为保障粮食安全做出了贡献。
在医学领域,基因组学和蛋白质组学正在推动精准医疗的发展。中国的精准医疗计划,从肿瘤基因检测到罕见病诊断,都体现了这些技术的应用价值。随着成本的降低和技术的普及,基因组学将在疾病预防、诊断和治疗中发挥越来越重要的作用。
通过本部分的学习,我们系统地了解了生命大分子的基本结构与功能,包括核酸、蛋白质、多糖和脂类等主要类型。这些分子不仅在分子水平上展现出高度的复杂性和规律性,还彼此相互作用,协同完成细胞所需的各种生理功能。从简单的单体到复杂的聚合物,每一步的结构设计都凝聚了进化的智慧,体现了生命体系的精妙和高效。
我们还认识到,现代科学技术,诸如基因组学、蛋白质组学和结构生物学的发展,使得科学家能够以前所未有的精度解析这些大分子。通过结构分析、序列比对和功能验证,我们能够揭示分子背后隐藏的生物学规律,理解不同生物之间的进化联系。
此外,生命大分子的研究也正走向应用前沿,如精准医疗、基因编辑、新药研发、环境治理等领域。生物信息学与人工智能等新兴技术不断助力我们在健康、疾病、农业和能源等多方面寻求创新解决方案。
总之,随着科技进步和研究的深入,生命大分子的奥秘正逐渐揭开。它们不仅支撑着所有生命活动的基本框架,也为人类解决健康、环境与能源等重大挑战提供了坚实的科学基础和广阔的应用前景。