
Xin Zhiyuan报告编辑:Taozi [Xin Zhiyuan简介]病毒学能力被94%的医生专家击败,准确率为43.8%。许多研究机构联合起来通过VCT测试披露,领先的LLM不仅可以解决复杂的实验问题,而且还直接降低了制造生物武器的阈值。 AI现在涵盖生物学领域。来自Securebio,AI安全中心等机构的研究人员发现,O3病毒学能力超过了94%的病毒学专家。他们开发了一个“毒理学测试能力”(VCT),其中包含322个具有多个选项的问题,涵盖文本和图像,并专注于复杂的实践实验室问题。这些问题是由57位病毒学家设计的,并模拟了在实际实验中难以找到和解决的静息。测试结果令人惊讶:扩展整个文本
O3准确率高达43.8%,而Gemini 2.5 Pro为37.6%。你应该知道医生的病毒学专家的平均得分仅为22.1%。
同时,发布了一份31页的技术报告。这一发现确实令人兴奋,但听起来也很警报。
Paper合着者Seth Donough说:“这些惊人的结果使人们感到有些紧张。”
纸张地址:https://www.virologytest.ai/vct_paper.pdf
这也是历史上第一次几乎任何人都可以访问“ AI病毒学专家”,这将大大降低生物武器制造的阈值。
在最新的ARC-AGI测试中,O3(中)标记再次击中SOTA,成本为1/20 lfather(每任务1.5美元≈11yuan)
如果不及时采取行动,人工智能可能是破坏文明的黑洞。
AI打破了病毒学的阈值
病毒学知识始终仅限于一小群专业人员。
如果您想成为领先的病毒学专家,则需要多年的学术培训和多个学位认证。
虽然它是公开的IC,专业文学充满了术语,这会打扰俗人。但是,AI的迅速发展是违反了这一障碍。
此外,在涉及生物安全3级(BSL-3)病原体(例如SARS,炭疽和H5N1流感)等实验中,需要批准过程,包括设施认证,安全许可,专业培训和正在进行的医疗监测。
这些是垫子是一个阈值,有效地限制了人们掌握病毒学的双重使用知识并降低滥用风险。
但是,AI的加速发展是违反了这一障碍 - 不仅将这些专业技能带给普通人,而且可以促进故障。
O3准确率为43.8%,超过人类专家
如前所述,在最新研究中,许多机构共同开发了VCT基准,专门评估了病毒学领域LLM的实际操作能力。
322多选择问题DESI受到57个病毒专家的启发,是因为您在自己的实验中遇到了特定的问题,并且不会通过简单的搜索获得答案。
以下是一个常见的VCT问题,它已经通过方案而已,并且只能通过视觉信息解决,最后确定了哪个从提供的7个语句中确定了哪个是正确的。
整个VCT基准测试都集中在病毒学知识的实用领域,同时排除了各种生物学学科和内容共享的关键主题,这些主题清楚地定义了两种用途。
如下图所示,水平轴代表潜在滥用的增加,垂直轴代表知识的抽象水平(高度实用)。
在实验中,研究团队选择了一系列切割模型来参与VCT审查,包括来自OpenAI,Google,Anthropic的多模型模型以及纯文本DeepSeek-R1和O3-Mini模型。
结果显示湿法实验室中大型模型问题的能力超出了医生的病毒学家。
特别是,GPT-4O由53%的专家释放,双子座1.5 Pro超过67%的专家,Claude Sonnet 3.5为75%,O1达到89%。
更重要的是要提到,O3是所有模型中最引人注目的,其准确率为43.8%,击败了94%的人类专家。
除GPT-4O外,这些顶级AI还超过了专业领域人类专家的平均得分(22.1%)。
此外,研究人员将模型与个体专家进行了比较,然后在整个专用池中对模型进行了排名。
如下图B所示,所有模型的得分都高于人类中位数,Openai的O3超过36位专家中的34个,占病毒学家的94%。
AOF完全在茎上升起
他在AI专家Dan Hendrycks的长期审查中说,VCT结果并未隔离。
近年来,LLM切割继续改善Ste数学,物理学和生物科学等M纪律,并在生物科学领域进行了重大发展。
例如,在测试“大规模杀伤性战争剂”(WMDP)的测试中,O1的标记高达87%,其人类基准超过60%。
还有其他试验,例如ProtocenTQA和BIOLP板凳,它们表明AI与预见的人类专家相比,并且修复了生物实验室协议的能力。
作为茎的一部分,病毒学也不例外。如果AI在其他学科中达到了一位博士学位,则在病毒学领域也是如此。
生物安全警报铃响起的问题是,病毒学知识是双重目标 - 医生的病毒学家可以促进医疗进展并制造生物武器。
生物武器的风险在很大程度上取决于三点:掌握技能的人数,创建武器的意图以及武器的潜在损害。
现在,ai迅速Engthens是第一个因素。回到Sohu看看更多