这些年,高通量测序技术的发展几乎没有停顿。单细胞测序、多组学整合、空间转录组轮番上场,数据规模越来越大,图谱越来越精细,分析流程也越来越成熟。会议报告中常见“上万细胞”“跨组学整合”“完整通讯网络”的展示,仿佛只要技术铺陈得足够充分,问题自然就会被解释清楚。然而,解释真的随之变得更清楚了吗?
我有个朋友叫 阿良,2025 年在英国伦敦某所大学做博士课题,只做了大量单细胞数据分析,跑完了差异基因、富集通路、电路预测和网络图。论文答辩很顺利通过,但他自己后来跟我说:“讲干嘛这么多漂亮图?评审最后问最多的还是——这些基因真的‘做’了什么?这背后的机制在哪里?” 阿良觉得自己在现象描述上没问题,但被问到核心调控因子怎么推动表型变化时,竟然有点答不上来。很多流程看起来稳稳的,但当问到“为什么这个基因会导致这样的功能改变”时,却只能停留在猜测层面。这个感受,不完全是孤例,只是大家更愿意把重点放在数据生成和描述上了。
相较于硕士阶段以方法训练和阶段性探索为主的研究目标,博士层面的研究理应在机制阐释与因果验证方面达到更高深度。硕士论文停留在描述层面尚可理解——它本身就是训练的一部分,重点是学会使用工具。然而,博士阶段如果仍然只停留在“现象梳理”和“技术堆叠”,即便数据详尽、流程完整,也难免让人感到某种未竟之处。部分论文虽然完成了系统性数据分析并顺利通过答辩,却在关键分子机制的深入解析方面仍有明显空间,这并非否定其工作量,只是当真正追问“为什么会这样发生”时,答案往往未能形成一个完整的逻辑。
不只是阿良的经历。我的一个客户小凡,她在 2026 年初参与了一个肿瘤单细胞项目,在美国加州某生物公司做实习。项目看起来很漂亮:通过 scRNA-seq 数据,他们发现了一类稀有的免疫抑制细胞,比例在晚期肿瘤明显升高。但当公司高层问:“这类细胞是因为什么调控而出现?我们能不能用药物干预?”时,组里一时竟然没有明确答案。后来小凡尝试做一些 perturb-seq(基因扰动单细胞测序)之类的技术补充,但由于时间和成本限制,最终的工作还是停留在了“某些细胞状态相关联”的层面。她总结说:“归根到底,我们现在很多单细胞分析都太依赖描述性统计和图形展示,而缺少真正能回答生物学因果关系的验证。” 这件事让我深有同感:即使数据再大,如果不能从现象延伸到机制逻辑,你就永远只是在“看见”而不是“理解”。
问题并不复杂。高通量技术的确降低了“发现差异”的门槛:聚类、差异分析、通路富集、细胞通讯预测——流程顺畅而熟练。但正因为流程顺畅,研究也容易被流程本身牵引。差异基因筛出后,紧接着是 GO 和 KEGG 气泡图;通路显著之后,便自然延伸到“可能的调控轴”。这些步骤没有本质错误,只是当它们成为默认路径时,真正需要花时间推敲的因果逻辑,反而被压缩在几段推测性讨论之中。
“机制”这个词被频繁使用,却并不意味着它被严格对待。表达上调并不自动意味着驱动关系,统计相关也不等同于功能必需。真正的机制应当形成闭环:异常细胞出现 → 核心调控因子激活 → 信号通路改变 → 功能状态改变 → 病理表型受影响。如果其中任何一环仅停留在推测层面,那么所谓机制其实还是一个未完成的草图。
这并非个别现象。博士阶段的研究往往承受时间、发表压力和课题进度的现实约束,在“保证成果”与“深入挖掘”之间做出取舍并不罕见。于是我们看到一些论文完成了完整的技术展示,却在机制深化处理中略显仓促。这种情况或许可以理解,但理解并不意味着无需反思。
但说到底,机制验证之所以常常缺位,也并非单纯因为研究者不愿意深挖。现实层面的约束正在变得越来越具体。2025 年以来,很多实验室的经费周期被压缩,动物实验审批时间延长,单细胞扰动实验(如 CRISPR-perturb-seq)成本持续上升。做一个完整的功能验证,往往意味着半年甚至更长时间的投入,而博士培养周期并不会因此延长。更不用说,一些转化验证还需要临床样本或长期随访,这本身就不在单个博士课题可控范围之内。于是,在时间表与发表压力面前,机制验证有时会被推迟,或者被简化成“表达相关 + 文献支持”的组合论证。这样的取舍并非完全错误,只是当这种取舍逐渐成为默认路径时,机制深度自然也随之收缩。
高通量技术本身并没有问题。问题在于,当技术不断进步时,我们是否也在同步提高对“解释”的要求。数据的复杂性持续上升,但真正能连通现象与机制的逻辑却未必同步走强。展示复杂性相对容易,解释复杂性却始终困难。后者需要时间,也需要某种耐心——以及对“是否真的解释清楚”这一问题的持续追问。
或许真正值得在意的,并不是数据规模是否足够宏大,而是当论文合上之后,我们是否能清楚地说出:改变哪个关键节点,会改变什么结果。如果这个答案仍然模糊,那么再精细的图谱,也只是更清晰的描述,而非更深入的理解。