Signal Archive
资讯归档
按发布时间倒序浏览全部已发布资讯。
Archive
全部资讯
共 2490 条 · 每页 20 条

AlphaProof Nexus 以低成本攻克开放数学难题
据报道,Google DeepMind 的 AlphaProof Nexus 通过生成 Lean 证明步骤并进行形式化验证,解决了 353 个开放的 Erdős 问题中的 9 个,同时还证明了其他一些猜想。研究称,每个问题的推理成本只有几百美元,其中两个 Erdős 问题已经悬而未决 56 年。

Hotz警告AI编程代理或代价高昂
George Hotz在大约六个月的AI工具和语言模型测试后表示,编程代理可能会成为软件开发中“代价最高的错误之一”。他在博客《The Eternal Sloptember》中认为,这些系统虽然能快速生成原型,但在细节和隐蔽正确性问题上会失手。
Meta和Google模型的安全护栏可被快速移除
《金融时报》报道称,一款软件可以在几分钟内移除 Meta 和 Google 人工智能模型的安全保护。移除这些护栏后,模型就可能回答有关生物武器和恶意软件的问题,而这些内容在正常情况下会被拒绝。

CiteVQA揭示AI答对却引错源
北京大学和上海人工智能实验室的研究人员提出了 CiteVQA 基准,用来测试 AI 模型能否在正确回答文档问题的同时,给出准确的证据来源。论文把这种“答案对但引用错”的现象称为“归因幻觉”。

Datasette 1.0a30 增加可扩展“跳转到”菜单
Datasette 1.0a30 引入了一个新的可自定义“跳转到...”菜单,用于更快地在界面中导航,在 latest.datasette.io 上按 / 就可以打开。这个版本还新增了 `jump_items_sql()` 插件钩子,允许插件把可搜索的条目加入该菜单。

谷歌云COO警告:AI安全必须内置
Google Cloud首席运营官Francis de Souza表示,企业必须从一开始就把AI安全当作平台问题来处理,而不是事后补救。他特别警告了“影子AI”,也就是员工在没有组织监督的情况下使用消费级AI工具,并强调治理和可审计性必须内置。
Armin Ronacher 谈 AI 改写的漏洞报告
Armin Ronacher 表示,最令人沮丧的漏洞报告是那些没有用提交者自己的语言写成、而是被 AI 改写过的报告。他认为,问题提交应该尽量只保留人类实际观察到的内容,比如运行了什么命令、预期结果是什么、实际发生了什么,以及完整的错误信息或日志。

亚马逊的 Bee 可穿戴设备既实用又令人不安
TechCrunch 试用了 Bee,这是一款亚马逊去年收购的 AI 手腕穿戴设备,发现它可以全天录音、转写并总结对话。报道还提到它新增了一些实用功能,例如结合日历发送提醒和通知。

字节研究发现问答优于转录训练长文档
字节跳动 Seed 和香港科技大学的研究人员报告称,做长文档理解训练时,多模态模型从问答监督中学到的效果明显优于纯文本转录。基于这一方法,他们在阿里巴巴开源的 Qwen2.5-VL 上构建了 MMProLong,并称其表现超过了更大的开源模型。

哈萨比斯与勒昆争论AI的近期前景
THE DECODER 的报道汇总了 Demis Hassabis、Yann LeCun 和 Oriol Vinyals 对当前 AI 发展阶段的不同看法。Hassabis 认为人类正处在“奇点的山脚下”,并表示 AGI 可能在五年内到来;而 LeCun 则认为当前的 LLM 并不算真正智能。

黑客利用聊天机器人“人格”
The Verge 指出,攻击者现在正在利用聊天机器人的“人格”和对话怪癖来越狱 AI 系统,并绕过安全控制。文章描述了攻击方式从“忽略之前所有指令”这类粗糙提示,转向更像人类社交工程的操纵手法。

默认AI模型会误读数据
数学家 Adam Kucharski 的一项实验发现,Microsoft Copilot 在 Auto 模式下分析相同文本数据时,会生成带有国家刻板印象的结论。类似测试还显示,Copilot 和 Gemini 的快速/默认模式没有发现数据其实是重复的,而推理模式可以正确完成任务。

Anthropic或继续向NSA提供Claude
尽管五角大楼已将Anthropic标记为供应链风险,该公司仍可能继续向NSA提供Claude模型。据报道,这一安排已获白宫办公厅主任苏西·威尔斯批准,相关合同目前正在敲定中。

Claude Code 发现新的测试时扩展算法
研究人员提出了 AutoTTS 框架,让 Claude Code 在模拟环境中搜索更好的测试时扩展控制算法,而不是由人手工设计。该代理找到的控制器在计算开销更低的情况下,性能超过了已有方法。
AI推动咨询业转向按成果定价
《金融时报》报道称,AI正在迫使麦肯锡等咨询公司重新思考收费方式。随着客户对咨询建议的价值越来越怀疑,他们也越来越希望费用与任务是否成功完成、以及可衡量的结果挂钩,而不是按工时计费。

马斯克的清洁能源愿景似乎在转向
TechCrunch 认为,马斯克相关公司的最新动作,尤其是 SpaceX 的 IPO 文件和 xAI 的用电选择,显示出他正在背离特斯拉最初的太阳能电气化愿景。文章指出,xAI 依赖天然气涡轮机供电,而 SpaceX 强调的是太空太阳能,而不是地面太阳能。

Google推出Gemini Omni视频模型
Google推出了Gemini Omni,这是一组新的生成式模型,官方称其未来可在多种输入和输出形式之间相互转换。首个版本Omni Flash已在Google的Flow AI视频生成和编辑平台上线,并被定位为比Veo更强的视频创作与编辑工具。

伯克利法学院限制AI用于评分作业
加州大学伯克利法学院将从2026年夏季开始,在几乎所有计分作业中禁止使用AI。学生只能在有限的研究任务中使用AI,而头脑风暴、起草、列提纲、修改、翻译、校对以及考试都被禁止。

阿里 Qwen3.7-Max 自主运行 35 小时优化芯片代码
阿里巴巴的 Qwen 团队发布了 Qwen3.7-Max,这是一款面向长时间代理任务的专有模型,只能通过阿里云 Model Studio API 使用。在一次演示中,它在阿里自家的 T-Head-ZW-M890 加速器平台上,连续自主优化硬件注意力内核长达 35 小时。

皮查伊将链接重新定义为谷歌搜索的一部分
在 I/O 之后的一期播客中,谷歌 CEO Sundar Pichai 表示,“来源和链接将始终作为其中的一部分存在”,这显示出谷歌正在用新的方式描述搜索,并继续推进 AI 生成答案。文章认为,这标志着搜索正从以链接为核心的目录,转向由 AI 驱动、且更具编辑控制力的答案引擎。