当人工智能开始解读生命密码
编者按
数十年来,人类基因组一直被视为生命的终极蓝图。然而,其中绝大部分被称为“非编码”区域的部分,却始终是一段我们无法翻译的沉默语言。我们能够辨识每一个字母,却始终读不懂那决定“一个细胞如何成长为完整人类”的复杂语法。此类内容长久以来都隐藏在我们的视野之外。
随着 AlphaGenome 的诞生,我们正经历一场从“记录基因组”到真正“解读基因组”的根本转变。本期报道将深入探讨 Google DeepMind 推出的这一最新系统,看它如何超越单纯的数据处理,成为一面高分辨率的透镜,照亮生命最底层的调控逻辑。这不仅是技术的重大突破,更是人类认知边界的进一步拓展:机器正在帮助我们阅读这部历经人类文明七千年、乃至生命演化数亿年漫长沉淀而成的生命密码书。
我们诚挚邀请您一同走进这部全新科学仪器的架构,探寻它所揭示的、关于我们自身生物学中那些细腻而优美的复杂性。
– Adelina
二〇二六年一月,谷歌 DeepMind 的研究人员在《自然》(Nature)杂志上发表了 AlphaGenome,推出了迄今为止最强大的人类基因组调控解读 AI 系统。该模型能够以史无前例的分辨率分析长程遗传序列,标志着人类在理解基因组如何从最底层调控生命系统的进程中,迈出了关键一步。
然而,AlphaGenome 所讲述的故事不仅关乎技术的造诣,更关乎它如何迫使我们重新思考——重新思考基因组本身、生物复杂性的本质,以及“阅读”一个生命系统究竟意味着什么。
“98%”的难题
数十年来,生物学家早已深知,DNA 中最微小的变化也能深刻影响健康、发育与疾病。然而,解读这些变异始终是现代生物学面临的最大挑战之一。虽然蛋白质编码区域已得到相对充分的理解,但它们仅占人类基因组的约 2%。其余 98% 被称为“非编码 DNA”,它们并不直接产生蛋白质,而是掌管着基因在何时、何地以及如何被激活。
在 20 世纪的大部分时间里,非编码 DNA 被轻蔑地称为“垃圾 DNA”(Junk DNA),这并非因为它不重要,而是因为我们无力解读它。基因组学的进步逐渐揭示,这些区域包含了协调发育、生理和疾病中基因活性的关键调控信号。曾经看似毫无意义的区域,现在被理解为让复杂生命成为可能的“调控架构”。
这并非无关痛痒的信息。它是“拥有说明书”与“懂得如何执行指令”之间的本质区别。
想象一下:小鼠、大菱鲆和人类所携带的基因数量大致相同——约两万个。区别物种的不再是基因的清单,而是环绕其间的调控架构:由开关、沉默子和结构信号构成的庞大网络,决定了哪些基因在哪些细胞、哪些时刻、哪些条件下被激活。换句话说,形态的复杂性并不取决于指令的多寡,而取决于读取现有指令的方式有多高级。
在分子生物学的大部分历史中,这一调控层几乎是隐形的。基因组被描述为生命指令手册,但这个比喻必须加上星号:我们只能自信地读懂其中约 2% 的内容,其余部分则被批注满了问号。
AlphaGenome 的使命,就是开始消除这些问号。
跨尺度阅读基因组的模型
与早期的序列模型不同,AlphaGenome 单次输入即可处理多达 100 万个 DNA 字母,其长度前所未有。随后,它能预测数千种与基因调控相关的分子特性,包括转录活性、RNA 剪接模式、染色质可及性以及远距离基因组相互作用。
该系统的架构映射了基因组本身的层级结构:卷积神经网络负责检测局部序列模式,而 Transformer 架构则负责建模跨越数万甚至数十万个碱基对的远距离依赖关系。通过在专用张量处理单元(TPU)上进行分布式训练,该模型能以单碱基对的分辨率分析海量序列。
这种结合解决了基因组建模中长期存在的权衡难题。以往的系统被迫在“分辨率”和“序列长度”之间取舍——要么捕捉短区域的精细结构,要么捕捉长距离的宏观上下文,很难兼得。AlphaGenome 打破了这一束缚,在以往计算无法触及的基因组跨度上,实现了单碱基级别的精准操作。
这一技术进步的意义不仅在于基准测试的表现,更在于概念范畴的转变。早期的工具就像是在精确地阅读说明书中的某个段落,而 AlphaGenome 则是在阅读整章内容的同时,依然保持着解读每一个单词的能力。
理解遗传变异
“变异效应预测”堪称该模型最核心的能力。通过对比正常序列与突变序列的预测结果,AlphaGenome 能够精准估算单一遗传碱基的变化如何同步干预多个调控环节。
此类预测之所以关键,是因为绝大多数与疾病相关的遗传变异并未落在已被详尽研究的 2% 编码区,而是隐匿在余下 98% 的调控地带。在这些区域,单个字母的更迭或许不会直接摧毁蛋白质结构,却会微妙地干扰基因激活的时机、改变其表达的细胞类型或扭曲其对环境信号的响应。上述变化并不会彻底毁坏生命“机器”,却会使其运行精度出现致命的“失准”。
在多项基准评估中,AlphaGenome 在 26 个测试类别中的 25 个里达到或超越了顶尖的专用系统。如此强劲的表现意味着该模型已掌握了基因调控运作的普适逻辑,而非仅针对特定测量任务进行狭隘的碎片化优化。
随之而来的深层思考是:当一个基于人类和小鼠基因组模式训练的模型,能够成功预判从未见过的突变后果时,其内部究竟内化了怎样的调控逻辑?研究者认为,AlphaGenome 已习得基因序列在调控语境下的通用表示方式。然而,机器构建此类表示的本质逻辑仍是一个悬而未决的科学命题。对此命题的回答,将决定未来人类如何定义这些模型——它们不仅是辅助研究的工具,更是能够捕捉并解码生命过程统计结构的底层系统。
T细胞白血病案例研究
在该模型最具说明性的应用案例之一中,研究团队将 AlphaGenome 运用于 T 细胞急性淋巴细胞白血病相关突变的分析——这是一种起源于未成熟免疫细胞的癌症。
在正常情况下,一个名为 TAL1 的基因负责引导 T 细胞的成熟过程。T 细胞是人体抵御感染的免疫细胞。一旦完成这一发育使命,该基因便会关闭。然而在某些白血病患者体内,基因组非编码区域的突变使 TAL1 持续保持激活状态。免疫细胞从未完全成熟,不受控制地持续增殖。
造成这一切的突变并不存在于 TAL1 基因本身,而潜藏在调控其表达的非编码区域——这些区域在近期之前几乎无法进行系统性解读。AlphaGenome 预测,特定的非编码变异引入了转录因子 MYB 的一个新结合位点,由此创造出一个改变了基因正常调控的信号。结果是,这个基因再也听不见“停止”的指令。
这一案例所揭示的,不仅仅是 AlphaGenome 能够识别突变。更深刻的意义在于,该模型能够追踪调控后果的完整链条——从单个基因组字母的改变,穿越层层调控架构,直至一个失去发育罗盘的细胞的行为改变。正是这条链条,书写着我们许多最复杂疾病的起源,也是生物学迄今最难破译之处。
超越蛋白质编码 DNA
AlphaGenome 建立在 DeepMind 早期模型(如 Enformer 和 AlphaMissense)的基础之上,这反映了基因组学更深层的转向:每一代模型都更接近生物复杂性被编排的调控层。
通过高分辨率建模长序列上下文,AlphaGenome 为研究多因素相互作用的复杂疾病(如精神分裂症、糖尿病、心血管疾病等)开辟了新路径。这些疾病并非源于单一的灾难性突变,而是源于全基因组范围内分布式的调控扰动。
任何人类研究者,无论多么博学,都无法在追踪多个相互作用变异的同时,在大脑中整合跨越百万碱基对的调控互动。调控基因组的规模超出了人类的直觉认知。像 AlphaGenome 这样的模型并非要取代科学推理,而是拓展了科学推理能够触达的疆域。
科学发现的利器
AlphaGenome 的应用潜力横跨生物医学、合成生物学及基础基因组学等多个前沿领域。该系统不仅能辅助科研人员精准识别与罕见病关联的功能性变异,还能为具有特定表达特征的调控 DNA 序列设计提供关键引导。同时,模型对基因指令在不同组织及发育阶段的执行逻辑也提供了深刻见解。
自 2025 年 6 月预览版上线以来,全球已有来自 100 多个国家的数千名科学家投入使用。目前 Google DeepMind 已通过 API 接口及学术分发渠道,向非商业研究领域全面开放了该系统。
如此规模的应用现状揭示了一个核心事实:AlphaGenome 绝非仅仅是现有分析工具的替代品。它实际上代表了一类全新的科学仪器,具备揭示以往在科研实践中因技术限制而无法触及的复杂关系的能力。
来自领域前沿的视角
基因组学与生物医学领域的研究者正敏锐地捕捉到这一模型所蕴含的变革潜力。
纪念斯隆·凯特琳癌症中心的 Caleb Lareau 博士将 AlphaGenome 视为该领域的里程碑。他指出,该模型首次实现了长程基因组上下文、碱基级预测精度以及全方位任务性能的高度统一。这种进步的意义远超技术层面,它象征着分析能力的深度整合。在此之前,科研人员往往需要依赖多种互不相通的专用工具才能完成类似任务。
伦敦大学学院研究血癌的 Marc Mansour 教授则重点强调了大规模解读非编码变异的实用价值。在成千上万个遗传变异中精准判定哪些具有生物学意义,长期以来一直是该领域的巨大瓶颈。他认为 AlphaGenome 提供了至关重要的拼图,使研究者能够优先筛选并锁定最具功能相关性的变异。
此外,来自弗朗西斯·克里克研究所与 EMBL-EBI 的科学家将视野投向了更广阔的未来。AlphaGenome 的架构设计并不局限于人类生物学,其通用性允许科研人员将应用范围扩展至植物、微生物以及那些调控基因组仍处于未知状态的生命系统。一种能够追踪并比较跨越漫长演化时间的“比较调控生物学”研究,或许将因此成为现实。
上述观点共同汇聚成一个日益清晰的行业共识:大规模预测模型正迅速成为现代生物研究的核心组件。它们并非实验科学的替代品,而是能够无限延伸人类实验触角的先进仪器。
局限性与开放性问题
尽管取得了进步,AlphaGenome 仍未解决基因组学中的所有问题。对于跨越超远距离(尤其是超过数十万碱基对)的调控互动,预测可靠性会下降。模型主要在体组织数据集上训练,限制了其在罕见细胞类型和特定发育阶段的准确性。环境对基因表达的动态影响,也仅被部分捕捉。
即便是一个能够实现完美分子预测的模型,也会留下更深层的悬疑:哪些调控变化最终驱动了疾病?多个基因在发育时间轴上如何互动?环境信号如何在生命周期中重塑基因组调控?这些是关于“生物因果关系”的问题——单纯的预测无法给出答案。
研究人员强调,AlphaGenome 不适用于临床诊断。它预测的是分子后果,而非疾病结局。实验验证依然必不可少。模型生成的预测应被视为“假说”——高度知情的假说,但终究只是假说。当一个模型表现优异时,人们很容易将其输出视为事实,但 AlphaGenome 拒绝这种解读。它的力量在于缩小探索的范围,而非终结探索。
未来生物学的基础设施
AlphaGenome 代表了生物学知识组织方式的转变。它不再是针对单一任务优化的孤立工具,而是一个能支持多样化研究议程的共享计算框架。
它的架构旨在演进。随着更多实验数据的出现,模型性能可以持续提升,扩展到更多物种,并整合更多调控模态。AlphaGenome 的功能更像是一种演进中的科学基础设施,而非一个定型的产品。
全基因组关联研究(GWAS)已经识别了数千个与疾病相关的变异,大部分隐藏在难以解读的调控区。AlphaGenome 提供了一种理解这些信号的方法。这种科学基础设施能够实现集体发现。当数千名研究者共用一个预测框架时,跨学科的洞见便会不断累积。模型成为了科学生态系统的一部分——在某种微妙的意义上,它也在通过被使用而不断学习,每一次应用都在反哺人类理解调控基因组的宏伟工程。
解读生命的指令
基因组常被描述为生命的指令手册。这一比喻并不完美。生命系统并非简单地执行静态指令,而是跨越时间、环境与发育背景,对其进行动态诠释。
在分子生物学的大部分历史中,这本手册的大量篇章实际上无从阅读。字母清晰可见,语法却无人知晓。我们能够辨认音符,却读不懂乐谱。
AlphaGenome 并未完全破译这套语法。但它首次使其中的大量内容变得可以辨读。
它最深远的贡献,或许并不局限于某一种疾病或某一类应用。它在于拓展了人类理解生命系统的尺度。复杂性的根源,不在于基因的数量,而在于调控这些基因活动的架构——那套精密的、依赖语境的、对环境高度敏感的系统,决定着每一个基因何时开口、如何发声。
这套调控系统——占据基因组绝大部分的那 98%——才刚刚开始被人类理解。它所揭示的,将塑造生物学的未来。
资料来源
Avsec, Ž., Latysheva, N., Cheng, J., et al.(2026)。Advancing regulatory variant effect prediction with AlphaGenome。《Nature》,649(8099),1206–1218。 https://doi.org/10.1038/s41586-025-10014-0
谷歌 DeepMind 研究博客:AlphaGenome: AI for better understanding the genome

