
熵,这个源自热力学和统计力学的核心概念,乍一听让人觉得很抽象,仿佛远离日常生活。实际上,熵无时无刻不在影响着我们的世界。比如,如果你不定期整理房间,房间自然会从有序的整洁状态逐渐变得混乱,这非常直观地体现了“熵增”:系统的无序度在不断上升。类似地,将一滴墨水滴入清水中,墨水很快就会扩散开来,均匀分布,也体现了变化趋向无序的本质。
但熵不仅仅是混沌、杂乱的代名词。在生物学系统中,熵是理解“有序”从何而来以及为什么有序总是不稳定的关键。正是由于熵的推动,许多看似自发进行的生化反应才能发生,而要维持有序结构(如生命体、细胞器、蛋白质折叠等),则必须不断地从外部输入能量以对抗熵的增加。这就是为什么有些反应能够自发发生,而另一些则需要能量的介入——熵的变化往往是决定性的因素之一。
“多重度”是统计物理和生物信息学中的一个重要数量,它描述一个系统实现某一特定状态所对应的微观可能方式的数目。换句话说,多重度越大,系统达到这一状态的“自由度”越高,发生的概率也通常更大。
最简单的例子莫过于掷硬币实验:如果我们一次掷10枚硬币,每一枚落下正面(H)或反面(T)的概率是相等且独立的。所有10枚都正面、所有都反面、本数正反各占一半,各种情况出现的多重度是完全不同的。有些结果的组合方式很多,有些则极其有限。
让我们用更小的例子——掷4枚硬币来说明。每个硬币都有正面和反面两种状态,总共有2^4 = 16种组合方式。假如我们仅关心“正面数量”,则这些组合可进一步归类和统计:
可以很清楚地发现:正反面各一半(2个正面2个反面)这种“混杂”的情况多重度最大,概率最高;而全正面或全反面都是概率极低的极端情况。
多重度其实很形象地反映了系统的“自由度”或“无序性”的大小。在分子生物学中,一个蛋白质未折叠时,各个氨基酸残基能采取大量构象,整体多重度极高。而一旦准确折叠成三维结构,可以选择的构象大大减少,多重度骤降,这也是蛋白质折叠会释放熵、具有方向性的热力学原因之一。
还可以思考其他例子:比如排列你的书架,所有书整齐按顺序排列是一种高有序、低多重度的状态;随意摆放则是高多重度的无序状态,远强于有序排列的“组合数”。
更一般地讲,n枚硬币中正面出现k次的多重度,可以用二项式系数(数学上称为组合数)来计算:
W(n, k) = n! / [k! × (n - k)!]
这个公式揭示了,在n次独立的二元选择中,得到k次某个结果的可能方式数(也可以理解为多重度)。在生物学领域,这一思想非常普遍——比如在研究DNA分子的突变时,假如每个位点独立突变的概率相等,那么在一条DNA链上恰好有k个位点发生变化的方式数,也遵循二项分布。
让我们做一个更大规模的掷硬币模拟:把上述分析拓展到10枚硬币,每种正面出现次数对应的多重度如下:
我们发现,正好有5枚正面的组合最多,对应的多重度为252。对于全正面或全反面的极端有序状态,多重度反而只有1。这说明了一个深刻的道理:随着系统内粒子数量的增加,“中间状态”——即部分有序、部分无序的状态远比完全有序要常见。在自然界,无序状态(多重度大)的概率要远远大于完美有序状态,这也是熵为何倾向增大的根本原因。无数微观自由度共同作用,使得熵成为生物系统、复杂系统演化的内在驱动力。
如果把多重度联系到信息论,会发现它也和“信息熵”有关——系统越无序,多重度越大,信息熵也更高。这一思想被广泛应用于分子生物学、基因组学,以及计算生物学等领域。
在统计物理和生物信息学中,我们经常会遇到大数阶乘的问题,尤其是在计算多重度、组合数或概率分布时。直接计算这些大数(如100!、1000!,甚至更大)往往超出了常规计算工具的处理能力——因为阶乘的结果随着数值增加会以极快的速度变得巨大。例如,100! 约等于10^158,这是一个含有158位数字的庞然大物,光是写出来就非常困难,更不用说进行实际运算了。
这时,斯特林近似为我们提供了极大的便利。它指出,对于足够大的N,可以用如下近似关系代替N!:
但在实际应用中,例如计算熵或对数多重度,我们关心的往往是阶乘的对数形式。斯特林近似的对数表达式更加简洁:
其中,最后一项在N很大的时候影响很小,常常可以忽略。于是实际计算中进一步简化为:
这种转化极大地减轻了我们在处理生物大系统时的计算负担。通过斯特林近似,原本令人望而却步的巨型阶乘可以用基本的加乘法和对数运算进行估算,既快捷又实用。
斯特林近似不仅是理论物理学的工具,更在生命科学的很多领域扮演了关键角色。下面我们通过几个典型的生物学案例来体会它的力量:
蛋白质分布及质点排列问题
以大肠杆菌为例——每个细胞中大约含有个蛋白质分子。如果我们要分析这些分子在细胞空间中的不同排列方式,需面对这样的大数运算。斯特林近似让我们借助对数及连乘的简化,让计算变得可操作。
蛋白质折叠中的构象熵估算
假设一个蛋白质有100个氨基酸残基,每个残基能采取3种主链构象。那么全部可能的构象为。直接计算这个庞大数字不现实,而通过和斯特林近似,我们能迅速估算所有相关物理量。这为热力学分析提供了理论基础——为什么蛋白质在天然折叠状态下最稳定。
在中国传统医学研究中,复方药物的配伍组合涉及天量的配比可能。例如,20味药材按不同顺序与用量排列组合,理论可能性达到20!甚至以上。斯特林近似让研究人员能快速估算全部组合的数量级,从而推测药性的叠加效应,对“药对药性”、“组方优化”具有重要指导意义。
斯特林近似不仅是一种数学技巧,更是一把打开复杂系统规律的钥匙。它让我们对看似令人难以企及的巨大可能性空间有了数量级上的直觉——正因为排列组合、微观状态极其丰富,大系统的行为才如此稳定、预测性强。这一点在统计热力学、生物信息学、药物发现等多个交叉学科领域都极为重要。

在上一节讲到二项分布和组合数时,如果让试验次数 变得非常大,比如达到几百、上千次时,分布的“柱状图”会逐渐变得平滑,最终呈现出我们熟悉的钟型曲线——这就是著名的高斯分布(也称正态分布)。这种变化其实揭示了中心极限定理的本质:大量独立随机事件的总体结果会趋向于正态分布。正因如此,许多生物学的测量数据、系统中的波动,自然界的现象,最终往往都符合高斯分布的规律。
高斯分布的标准数学表达式为:
其中(mu)为平均值,为标准差,决定了分布的中心和宽度。高斯分布有几个核心特征:
高斯分布在生命科学各领域都极为常见。例如:
人类身高分布:以中国成年男性为例,身高分布大致呈高斯形态,平均值约为169厘米,标准差约为6厘米。具体而言:
这些区间正好对应高斯分布下的“1σ、2σ、3σ”法则,反映大多数生理参数的稳健性与极端情况的少见。
分子生物学中的蛋白质热运动:在一定温度T下,蛋白质分子围绕平衡位置的振动幅度、原子间距离变化等,均遵循高斯分布。这为我们分析酶活性、蛋白稳定性、药物结合特征等提供了理论支持。例如,某蛋白活性位点的空间位置波动越小(标准差σ小),酶的催化效率通常越大。
群体遗传性状与自然选择:很多生物性状(如体重、羽毛长短等)呈现高斯分布。自然选择往往对分布中心区域个体更有利,极端个体更容易被淘汰,这些微观现象直接体现为高斯分布的“钟形”轮廓。
细胞参数与统计学分析:细胞大小、生命期、荧光强度等实验指标也多符合或接近高斯分布。这让统计推断及生物统计学分析变得可行,并为建立生物模型奠定了基础。
高斯分布还直接联系到实验误差和测量不确定性。当我们对同一样本进行多次独立测量,测量值围绕真实平均值呈高斯分布。这使得我们在实验设计、统计检验、生物信息分析时,可以用概率论工具量化“不确定性”——比如利用标准差σ估算误差范围、置信区间,甚至根据分布宽度反推生物过程的“噪声”水平。高斯分布,因而成为现代生物统计分析不可或缺的基石。
在分子生物学研究中,蛋白质分子的热运动等微观涨落正是高斯分布的经典体现。不仅如此,许多宏观生命现象背后也有高斯分布的影子,从群体基因频率,到反应速率涨落,背后都蕴含着概率与统计的普遍规律。
奥地利物理学家路德维希·玻尔兹曼提出了熵与多重度之间的定量关系,被称为玻尔兹曼熵公式:
其中 代表熵, 是系统的多重度(即微观状态数), 是玻尔兹曼常数,数值为 。直观来说,多重度越大,系统可能采用的微观状态越多,熵也就越大。这个公式首次将“无序”的统计特征和“熵”这种宏观物理量,通过数学式直接相连。它是现代统计物理学和热力学的基石,为理解生物系统的复杂性提供了有力工具。
值得注意的是,热力学熵的单位是焦耳每开尔文(J/K),而 是无量纲的计数,理论上可以非常巨大。哪怕只是几十个分子的系统, 的量级也可能达到天文数字!如 个分子的简单气体,其微观状态数已超过 ,而大多数生物系统中的分子数量远远超过这一数量级。
熵本质上衡量的是系统的无序程度,也可理解为“我们对系统微观状态的不确定性”或“缺失的信息量”。熵越高,系统越无序(或说越难以描述);熵越低,系统越有序、可预期。 在生物系统中,熵的概念可以帮助我们理解如下现象:
蛋白质折叠过程:
未折叠时,一条肽链能任意旋转,非常灵活,拥有极高的多重度和高熵;一旦折叠成独特的三维天然构象,多重度大幅降低,熵也随之减少。然而,折叠时产生的结合能(负焓变)可以抵消这部分熵的损失,使得整个过程热力学上仍然是自发的。这也是为什么蛋白质能自发折叠为功能结构的原因之一。
膜的流动性:
生物膜由大量脂质分子组成。在低温下,脂质链紧密有序排列,熵较低;温度升高后,分子热运动增强,结构更加杂乱,对应的多重度和熵都显著增加。这一现象不仅影响生物膜的流动性和功能,还决定了膜相变的温度。
细胞代谢网络中的熵:
细胞内代谢物的转化通路极为复杂,各种分子的浓度涨落天然反映出系统微观状态的可选数目。通过熵衡量,这些“平衡”和“稳态”并非一成不变,而是基于概率分布的统计均衡。
以ATP的水解反应为例,深入理解熵在生化过程中的驱动作用:
从分子的数量出发,反应物变为更多的产物分子(ATP和水 → ADP、无机磷(Pi)、质子等)。每多一个分子,就多出大量配置自由度,系统的多重度大幅提升,带来显著的熵增加。除了分子数,产物的空间排布、能级分布、能量分化等因素也共同提升系统的可选微观状态数。这种熵的提升是驱动反应方向不可或缺的推动力,部分能量以热的方式释放,使反应成为为细胞工作提供能量的“发动机”。
再比如,很多细胞内的重要化学反应只有在伴随熵增加的前提下才会自发进行,否则需要能量的输入。这一原则贯穿所有生命化学反应,从代谢到信号转导,从信息传递到生物大分子装配。

热力学第二定律是自然世界“不可逆过程”的基础,表述方式多种多样,经典的描述是:
在孤立系统中,熵总是趋向于增加,绝不会自发减少。
也可以理解为:自发过程总使得系统朝着无序、均匀、能量最为分散的方向发展。这个定律不仅揭示了自然过程的单向性,还赋予了“时间之箭”——为何时间总是向前流动,而不会倒流。
在宏观世界(如气体扩散、冷热传递等)中,熵增表现得非常直观。但在微观世界(例如生物分子的涨落)中,熵的涨落也符合统计规律。即使偶尔出现局部降熵,这种现象在大尺度/长时间下总体仍必然是全局熵增。
需要注意的是,现实中的生物系统并非孤立系统。细胞和生物体通过不断的物质与能量交换(如吸收营养、释放热量)来维持自己的低熵、高度有序结构。局部熵的降低必然要以周围环境更大的熵增加为补偿,因此整个宇宙的总熵依然增加。
我们可以用数据可视化的方式来更直观地理解不同生物过程中熵的变化:
蛋白质变性过程:高温、极端pH或变性剂的加入会破坏蛋白质原有的有序结构,使蛋白链变得极为松散,失去原先功能,可以采取的空间构型迅速增多,数据曲线上升迅猛,这背后就是熵的大幅增加。
DNA双链解离过程:DNA在高温或在转录、复制阶段,双链会解开变为单链。双链结构规则且稳定,熵较低;变为单链后,碱基暴露在外,能采取各种空间排列,熵显著上升。
脂质膜融合过程:两个囊泡融合时,原来受约束的脂质分子获得更多运动自由度,系统趋于更加无序状态,熵显著提高。这一规律解释了细胞和亚细胞结构动态调控的分子基础。
实际上,生物中几乎所有的“降序”过程(如合成巨大的蛋白质、复制DNA链等)背后都要靠其它伴随的“升熵”过程(如能量消耗、分解代谢产热等)来保证热力学守恒与平衡。
生命的本质,就是在一个“远离平衡态”的开放系统中努力维持局部熵低、结构高度有序。为了抵抗自发的熵增,生物体不得不消耗能量和物质,将环境的有序资源转化为体内有序结构,连带环境熵的更大增加。
例如,蛋白质的合成把数百个氨基酸“串”成一个唯一有功能的分子,局部熵从高降到低;然而,这一过程需要消耗ATP,释放热量,造成环境熵更大量地增加,使系统整体熵变为正——这正符合热力学第二定律。这种结构与能量的转化过程是生命活动得以进行的前提与根本。
中国古代哲学的“阴阳平衡”用来解释世界的动态均衡,与熵概念在某种程度上异曲同工。世界始终处于平衡与非平衡的动态拉锯中。生命之“有序”,依赖于持续地将能量输入、排散熵、以维持复杂结构的稳定。熵增原理告诉我们,终极的平衡态是最大熵极限,但生命的智慧就在于利用不断的外源输入,使自己持续远离平衡,保持活力与功能。
从更宏观的尺度来看,生物进化本质上也是熵的体现和“多重度”的扩展。每一次基因突变,都增加了群体遗传信息的多样性和微观态的数量,是一种熵增——可能性增加了。但自然选择过程中,环境又选定了那些“适应性强”的变异,显著减少了“无序信息”的扩散(表面上起到了降熵的作用,实际上是局部降熵,伴随着外界熵的更大增加)。
如演化生物学家所说,生物复杂性的出现,之所以没有违反熵增原理,是因为所有有序结构的形成都依赖外部能量供给(如太阳能、化学能),而生命复杂性的提升总是以宇宙熵的增长为代价。
此外,生物多样性的维持,也和信息熵相关。一个丰富多样的生态系统,其状态空间更大,不同物种、基因型、表型的并存,让整体生态系统熵值增加,这反而提升了系统的鲁棒性和抗风险能力。
通过本内容的学习,我们更全面地理解了熵在生物学中的核心地位。从初等的掷硬币实验、分子排列,到多细胞生物的结构、进化和群体生态,熵无处不在地影响着生命的每一个层面:
这些深入的概念,不仅帮我们理解了当前生物世界的“现象”,也为未来分析、预测、工程化控制生命体奠定了理论基础。之后我们将进一步结合能量(能级分布)和熵的统计本质,揭示玻尔兹曼分布在生物系统平衡中的关键作用,让我们为更进一步的探索打下坚实基础。
分子生物学中的遗传多样性分析
计算例如一段DNA序列中k个位点发生突变时的组合数,常需用到二项式系数。在n很大的情况下,斯特林近似同样可以帮我们近似算出组合数的数量级,从而推断可能的遗传变异类型的多样性。
群体遗传与变异分布
研究一个物种内某种等位基因的分布方式,也涉及总数的阶乘式计算。斯特林近似为种群遗传学中的熵、信息量及分布预测等问题提供了数学基础。
细胞状态分类及分布的计算
理论上,若细胞内n种分子可以在若干区域任意分布,全部可能状态数需要用排列组合计算,斯特林近似让这类问题大为简化,尤其在免疫学和系统生物学中尤为实用。