Topic
#ai-research
按主题聚合的新闻视图。
Topic Feed
主题:ai-research
共 9 条
OpenAI 回顾 Parameter Golf
OpenAI 发布了一篇关于 Parameter Golf 的回顾文章。这是一项受严格约束的研究挑战,吸引了 1,000 多名参与者和 2,000 多份提交,主题包括 AI 辅助机器学习研究、编码代理、量化和新型模型设计。

高尔斯称 ChatGPT 5.5 Pro 完成博士级数学研究
蒂莫西·高尔斯表示,他让 OpenAI 的 ChatGPT 5.5 Pro 处理数论中的开放问题,而模型在不到两小时内、几乎没有人类数学指导的情况下生成了可写成论文的数学论证。高尔斯称,其中一个问题的界被模型从指数级改进到二次级,另一个推广问题则被改进到多项式级。

DeepMind 投资 CCP Games 测试 EVE Online AI
Google DeepMind 正在收购 EVE Online 开发商 CCP Games 的少数股权,并将使用该游戏的离线版本来评估 AI 模型。同时,CCP Games 以 1.2 亿美元从 Pearl Abyss 手中回购自己,并将更名为 Fenris Creations。

DeepMind 联手《EVE Online》测试 AI
Google DeepMind 已入股 CCP Games,并将把《EVE Online》作为测试平台,研究长程规划、记忆和持续学习等高级 AI 能力。相关实验会在本地服务器上的离线版本中进行,不会直接影响线上玩家体验。

AI系统或将开始自我构建
在《Import AI 455》中,Jack Clark 认为,到2028年底之前出现“无人参与的 AI 研发”——即 AI 系统能够自主构建其后继系统——的概率已经超过60%。他指出,从公开研究和已部署产品来看,端到端自动化 AI 研究所需的各个组成部分已经开始拼接起来。

前OpenAI研究员杰里·特沃雷克创办Core Automation,打造全自动AI实验室
前OpenAI研究员杰里·特沃雷克推出了Core Automation公司,目标是构建一个能自动化自身研究的AI实验室,采用超越现有Transformer模型的新学习算法和可扩展架构。

MirrorCode基准测试显示AI能重构复杂命令行程序
METR和Epoch的研究人员推出了MirrorCode基准测试,要求AI代理在无源码访问权限的情况下,仅通过执行权限和测试用例自主重构复杂的命令行程序。Claude Opus 4.6成功重构了一个包含约16,000行代码的生物信息学工具,表明AI可以完成以往认为需要数周人力才能完成的任务。
OpenAI发布使用ChatGPT进行研究和生产力的指南
OpenAI发布了关于如何使用ChatGPT进行搜索、深度研究、文件分析、数据分析和结构化洞察生成的全面指南。该指南涵盖金融、管理、写作和图像生成等多个领域的实际应用场景。

微软扩展Copilot Cowork功能,引入AI互评与模型理事会
微软正更广泛地推出Copilot Cowork,并引入新的‘研究者’代理功能,该功能通过Anthropic和OpenAI模型之间的相互评审来提升深度研究表现。同时新增的‘模型理事会’功能让用户可以并排比较多个AI模型的答案。