OpenAI的目标是开发一种能够自我优化的AI工具。如今,这家公司正在为随之而来的风险做准备 。
在过去六个月里 ,OpenAI和Anthropic的编程工具取得了巨大进步之后,AI系统所谓“递归式自我改进 ”的潜力,已经成为AI行业负责人关注的重点。
Demis Hassabis本周表示,人类如今正站在“奇点”的脚下——也就是AI开始自我发展 ,并超越人类智能的那个时刻。
计划于今年上市的OpenAI,最近发布了一个不同寻常的招聘岗位:公司正在寻找一名安全研究员,专门研究“当AI能够训练出更优秀版本的自己时”所带来的后果。
该招聘信息是本月为OpenAI的Preparedness安全团队发布的 。岗位年薪总包为25万至38万欧元 ,招聘对象是“有经验的技术专家,以支持针对递归式自我改进的准备工作”。
招聘信息中写道:
“这项工作建立在对那些目前尚不存在 、但未来可能出现的问题的思考之上。 ”
“因此,对于这一职位而言 ,具备审慎且具有战略性的思维方式尤为重要 。”
顶级AI实验室正在竞相研发“自我训练”模型
最近,像OpenAI和Anthropic这样的实验室,其模型能力正以惊人的速度持续提升——这种提升体现在它们能够解决的问题复杂度上。
研究模型能力的实验室METR的研究人员在今年3月写道:AI模型能够完成的任务长度 ,大约每七个月翻一倍——这些模型正越来越能够承担那些原本需要人类花费大量时间完成的工作。
他们得出的结论是:AI代理将能够承担“相当大一部分 ”的软件开发工作,而这些工作原本需要人类程序员花费数天甚至数周时间 。
OpenAI正积极推进这一愿景——向企业销售其Codex编程工具已经成为重要收入来源。
该公司也希望将自身的研究工作自动化。CEO Sam Altman去年10月表示,公司目标是在今年9月之前 ,让一个“自动化AI研究实习生”运行在数十万块芯片上;并在2028年3月之前,实现一个“真正的自动化AI研究员” 。
“我们完全可能在这个目标上失败, ”Altman在X上写道,“但考虑到其潜在影响极其巨大 ,我们认为,公开透明地讨论这件事符合公共利益。”
今年4月,Anthropic发布了一项研究:利用AI模型去监督更强大的AI模型。结果令人鼓舞 ,但也存在明显局限 。
今年5月,Anthropic联合创始人兼政策主管Jack Clark表示,他认为到2028年底 ,实现“没有人类参与的AI研发”的概率大约为60%。
OpenAI正在为“自我改进AI ”做准备
如果AI模型能够自行训练自己,那么一种科幻式反乌托邦场景就可能出现:它们的能力迅速增长、脱离控制,并造成广泛伤害——这正是AI安全运动长期担忧的问题。
Elizabeth Barnes上周五写道 ,在她看来,“任何‘理性’文明都会以明显更慢、更谨慎的方式推进AI发展。”
OpenAI的招聘信息,也透露出该公司如何为一个“AI模型能够快速自我改进”的世界做准备 。
招聘信息提到 ,这名研究员可能会专注于保护OpenAI模型免受“数据投毒 ”攻击——也就是通过被操纵的训练数据来腐化AI模型的行为。
该员工还可能开发用于解释模型思维过程的工具,或者进行实验,以理解这些模型的安全性与潜在危险。
招聘信息还提到,这名研究员可能需要“追踪技术岗位自动化的发展进度”——包括衡量AI编程工具的使用情况 。
OpenAI的Preparedness团队 ,其职责是防止AI造成严重危害。该团队的其他岗位还包括:自动化红队测试,用于评估网络安全、生物与化学风险,以及“代理型AI”带来的威胁。
Preparedness团队的招聘信息中写道:
“这是一项紧迫 、节奏极快的工作 ,其影响将波及公司乃至整个社会 。”







