MIT团队发布了一款全新AI模型DefensePredictor,能在数分钟内扫描完一整个细菌基因组,找出隐藏的抗病毒防御系统。这个突破不止于提高了筛选效率,它正在改写微生物免疫研究的游戏规则。

AI模型研究流程图及数据图表 :展示DefensePredictor模型训练流程与验证数据
为什么说这一次,细菌防御研究终于打破了持续几十年的瓶颈?
数十亿年的细菌病毒战争 人类只摸到冰山一角
细菌和病毒的对抗已经持续了数十亿年,病毒每天能消灭10%到25%的细菌,为了活下来,细菌进化出了千奇百怪的防御武器。
人类最成功的一次“盗墓”,就是从细菌的免疫系统里挖出了CRISPR-Cas9,彻底改写了整个基因编辑产业的历史。但哪怕CRISPR已经改变了世界,我们对细菌武器库的了解仍然少得可怜。
传统筛选方法就像在大海里捞针,要么盯着已知防御基因附近猜,要么手动测试成千上万DNA片段,几个月才能出结果。
更关键的是,传统方法只能找到扎堆出现的防御基因,那些零散分布在基因组其他位置的防御系统,几乎全被漏掉了。人类对细菌防御系统的认知,从一开始就存在系统性偏差。

细菌防御系统蛋白结构与实验数据图 :呈现多种新型细菌防御系统的结构与验证结果
这一次,MIT团队直接用AI重构了整个筛选逻辑,把几个月的工作压缩到了几分钟,还补上了传统方法的认知漏洞。
AI找防御系统的秘密 不止看蛋白本身还看“社交圈”
DefensePredictor的核心优势,在于它用了两个非常聪明的设计,恰好戳中了传统方法的痛点。
它借用了大蛋白语言模型ESM2,把每个蛋白质转换成一组包含核心特征的数字向量,相当于给每个蛋白质拍了一张X光片,直接提取最关键的结构信息。
更聪明的设计是,它不只要看目标蛋白自己,还要观察它前后各两个邻居基因。
我们早就知道防御基因喜欢扎堆形成“防御岛”,但传统方法只盯着已知防御岛找新基因,AI则把“邻居基因”当成了预测特征,哪怕目标蛋白单独出现在陌生区域,也能通过周围基因的特征判断它是不是防御系统。

AI模型工作流程与预测数据图 :展示DefensePredictor的工作流程与预测成效
这套训练逻辑非常高效:研究人员用1.7万个细菌基因组训练模型,给它看1.5万个已知防御蛋白和18.6万个普通蛋白,让AI反复比较两类蛋白的特征,最终学会了精准区分“防御战士”和“普通居民”。
最后的结果也印证了这个思路的正确性:完成训练后,模型只需要几分钟就能扫描完一个细菌的全部基因组,而传统方法同样的工作量需要好几个月。
45%验证率超出预期 大量全新系统浮出水面
为了验证模型的准确性,研究团队做了一次严谨的测试:用AI扫描69株大肠杆菌,找出了624个防御相关蛋白簇,其中超过100个和任何已知细菌免疫系统都没有关系。
他们挑出94个全新候选系统做实验室验证,把它们克隆进大肠杆菌,再用24种不同病毒攻击细胞,结果有42个系统成功保护了细菌,验证率达到了45%。

三位论文作者的肖像照 :展示Peter、Emily、Michael三位作者的照片
这个验证率远超领域内的预期,而且模型给出的预测分数和实验成功率高度相关——分数越高,真的是防御系统的概率就越大。这意味着AI可以直接帮科学家缩小测试范围,把有限的实验室资源用在最有可能成功的候选者身上。
更有意思的是,这次发现的不少新系统,有着完全出人意料的结构。比如DS-8系统携带的金属磷酸酶结构域,居然和人类免疫系统中调节抗病毒信号的蛋白非常相似。
这个发现直接指向一个大胆的猜想:细菌和人类的免疫系统,在进化上可能有着共同的古老起源。
另一个DS-11系统,用CBS结构域感应细胞内的能量分子,再激活杀伤功能;还有的系统把核酸酶拆成了两半,这种分体式设计刚好适合开发成“需要特定信号才激活”的可控基因编辑工具。

《科学》杂志论文页面截图 :显示论文标题及三位作者姓名
当研究团队把模型扩大到1000种不同微生物,直接识别出了近3000个和已知系统完全不同的蛋白簇。在3000株大肠杆菌和志贺氏菌的分析中,AI平均每株能找到32个防御基因,传统工具只能找到6个。
不止发现新工具 更打开了三个全新研究方向
这次AI的突破,带给整个生命科学领域的影响远不止“找到更多防御系统”,它直接打开了三个此前很难推进的研究方向。
基因编辑领域:寻找更小更精准的替代工具。现在广泛使用的Cas9个头偏大,进入细胞的效率不算高,科学家一直在找更小巧的核酸酶。新发现的防御系统里藏着大量未开发的候选者,如果能找到合适的工具,基因治疗会变得更安全高效。
进化研究:追溯人类免疫系统的源头。人类体内感知病毒DNA的cGAS蛋白,它的祖先可能就藏在某个细菌的防御系统里,AI帮我们挖开了这座进化的金矿。
耐药菌难题:改造细菌武器对抗超级细菌。现在很多病原菌已经对多种抗生素产生耐药性,如果能把细菌自己的防御系统改造成精准攻击病原菌的工具,有望开辟出一条解决耐药性的全新路径。
更重要的是,MIT团队已经把DefensePredictor完全开源,全球所有研究人员都可以免费使用,还会随着新数据持续优化模型。同期《科学》杂志上,巴斯德研究所的团队也用类似思路预测出了239万种潜在的抗噬菌体蛋白,超过85%的蛋白此前从未和免疫防御关联起来。
原来细菌的防御武器库,比我们此前想象的要丰富至少五倍。我们过去几十年,只打开了宝库的一扇小门缝。
AI介入基础生物研究的改变,才刚刚开始。从前我们需要几年才能完成的筛选工作,现在几分钟就能做完,这意味着更多的试错空间、更疯狂的探索方向,也意味着那些藏在基因组深处的秘密,会比预想中更快地来到我们面前。
CRISPR改变了基因编辑,下一个改变整个产业的工具,可能就藏在这些新发现的防御系统里。而这一次,找到它的速度,会比所有人预期的都要快。