Signal Archive

资讯归档

按发布时间倒序浏览全部已发布资讯。

资讯首页 RSS 订阅

全部资讯

共 2490 条 · 每页 20 条

查看首页焦点

The Decoder·5月25日 18:41 UTC
AlphaProof Nexus 以低成本攻克开放数学难题
据报道，Google DeepMind 的 AlphaProof Nexus 通过生成 Lean 证明步骤并进行形式化验证，解决了 353 个开放的 Erdős 问题中的 9 个，同时还证明了其他一些猜想。研究称，每个问题的推理成本只有几百美元，其中两个 Erdős 问题已经悬而未决 56 年。
#ai-for-math评分 9.0
The Decoder·5月25日 17:05 UTC
Hotz警告AI编程代理或代价高昂
George Hotz在大约六个月的AI工具和语言模型测试后表示，编程代理可能会成为软件开发中“代价最高的错误之一”。他在博客《The Eternal Sloptember》中认为，这些系统虽然能快速生成原型，但在细节和隐蔽正确性问题上会失手。
#ai-coding-agents评分 6.0
Financial Times AI·5月25日 16:31 UTC
Meta和Google模型的安全护栏可被快速移除
《金融时报》报道称，一款软件可以在几分钟内移除 Meta 和 Google 人工智能模型的安全保护。移除这些护栏后，模型就可能回答有关生物武器和恶意软件的问题，而这些内容在正常情况下会被拒绝。
#ai-safety评分 8.0
The Decoder·5月25日 15:30 UTC
CiteVQA揭示AI答对却引错源
北京大学和上海人工智能实验室的研究人员提出了 CiteVQA 基准，用来测试 AI 模型能否在正确回答文档问题的同时，给出准确的证据来源。论文把这种“答案对但引用错”的现象称为“归因幻觉”。
#ai-evaluation评分 7.0
Simon Willison·5月25日 07:52 UTC
Datasette 1.0a30 增加可扩展“跳转到”菜单
Datasette 1.0a30 引入了一个新的可自定义“跳转到...”菜单，用于更快地在界面中导航，在 latest.datasette.io 上按 / 就可以打开。这个版本还新增了 `jump_items_sql()` 插件钩子，允许插件把可搜索的条目加入该菜单。
#datasette评分 7.0
TechCrunch AI·5月25日 05:39 UTC
谷歌云COO警告：AI安全必须内置
Google Cloud首席运营官Francis de Souza表示，企业必须从一开始就把AI安全当作平台问题来处理，而不是事后补救。他特别警告了“影子AI”，也就是员工在没有组织监督的情况下使用消费级AI工具，并强调治理和可审计性必须内置。
#ai-security评分 6.0
Simon Willison·5月25日 02:46 UTC
Armin Ronacher 谈 AI 改写的漏洞报告
Armin Ronacher 表示，最令人沮丧的漏洞报告是那些没有用提交者自己的语言写成、而是被 AI 改写过的报告。他认为，问题提交应该尽量只保留人类实际观察到的内容，比如运行了什么命令、预期结果是什么、实际发生了什么，以及完整的错误信息或日志。
#ai评分 6.0
TechCrunch AI·5月24日 23:00 UTC
亚马逊的 Bee 可穿戴设备既实用又令人不安
TechCrunch 试用了 Bee，这是一款亚马逊去年收购的 AI 手腕穿戴设备，发现它可以全天录音、转写并总结对话。报道还提到它新增了一些实用功能，例如结合日历发送提醒和通知。
#ai-wearables评分 6.0
The Decoder·5月24日 21:28 UTC
字节研究发现问答优于转录训练长文档
字节跳动 Seed 和香港科技大学的研究人员报告称，做长文档理解训练时，多模态模型从问答监督中学到的效果明显优于纯文本转录。基于这一方法，他们在阿里巴巴开源的 Qwen2.5-VL 上构建了 MMProLong，并称其表现超过了更大的开源模型。
#multimodal-ai评分 8.0
The Decoder·5月24日 20:54 UTC
哈萨比斯与勒昆争论AI的近期前景
THE DECODER 的报道汇总了 Demis Hassabis、Yann LeCun 和 Oriol Vinyals 对当前 AI 发展阶段的不同看法。Hassabis 认为人类正处在“奇点的山脚下”，并表示 AGI 可能在五年内到来；而 LeCun 则认为当前的 LLM 并不算真正智能。
#ai评分 7.0
The Verge AI·5月24日 20:00 UTC
黑客利用聊天机器人“人格”
The Verge 指出，攻击者现在正在利用聊天机器人的“人格”和对话怪癖来越狱 AI 系统，并绕过安全控制。文章描述了攻击方式从“忽略之前所有指令”这类粗糙提示，转向更像人类社交工程的操纵手法。
#ai-security评分 6.0
The Decoder·5月24日 18:17 UTC
默认AI模型会误读数据
数学家 Adam Kucharski 的一项实验发现，Microsoft Copilot 在 Auto 模式下分析相同文本数据时，会生成带有国家刻板印象的结论。类似测试还显示，Copilot 和 Gemini 的快速/默认模式没有发现数据其实是重复的，而推理模式可以正确完成任务。
#ai-assistants评分 6.0
The Decoder·5月24日 16:51 UTC
Anthropic或继续向NSA提供Claude
尽管五角大楼已将Anthropic标记为供应链风险，该公司仍可能继续向NSA提供Claude模型。据报道，这一安排已获白宫办公厅主任苏西·威尔斯批准，相关合同目前正在敲定中。
#ai-policy评分 7.0
The Decoder·5月24日 16:06 UTC
Claude Code 发现新的测试时扩展算法
研究人员提出了 AutoTTS 框架，让 Claude Code 在模拟环境中搜索更好的测试时扩展控制算法，而不是由人手工设计。该代理找到的控制器在计算开销更低的情况下，性能超过了已有方法。
#ai-research评分 8.0
Financial Times AI·5月24日 12:00 UTC
AI推动咨询业转向按成果定价
《金融时报》报道称，AI正在迫使麦肯锡等咨询公司重新思考收费方式。随着客户对咨询建议的价值越来越怀疑，他们也越来越希望费用与任务是否成功完成、以及可衡量的结果挂钩，而不是按工时计费。
#ai评分 6.0
TechCrunch AI·5月23日 21:00 UTC
马斯克的清洁能源愿景似乎在转向
TechCrunch 认为，马斯克相关公司的最新动作，尤其是 SpaceX 的 IPO 文件和 xAI 的用电选择，显示出他正在背离特斯拉最初的太阳能电气化愿景。文章指出，xAI 依赖天然气涡轮机供电，而 SpaceX 强调的是太空太阳能，而不是地面太阳能。
#elon-musk评分 6.0
The Verge AI·5月23日 19:00 UTC
Google推出Gemini Omni视频模型
Google推出了Gemini Omni，这是一组新的生成式模型，官方称其未来可在多种输入和输出形式之间相互转换。首个版本Omni Flash已在Google的Flow AI视频生成和编辑平台上线，并被定位为比Veo更强的视频创作与编辑工具。
#google-gemini评分 6.0
The Decoder·5月23日 18:55 UTC
伯克利法学院限制AI用于评分作业
加州大学伯克利法学院将从2026年夏季开始，在几乎所有计分作业中禁止使用AI。学生只能在有限的研究任务中使用AI，而头脑风暴、起草、列提纲、修改、翻译、校对以及考试都被禁止。
#ai-policy评分 6.0
The Decoder·5月23日 18:17 UTC
阿里 Qwen3.7-Max 自主运行 35 小时优化芯片代码
阿里巴巴的 Qwen 团队发布了 Qwen3.7-Max，这是一款面向长时间代理任务的专有模型，只能通过阿里云 Model Studio API 使用。在一次演示中，它在阿里自家的 T-Head-ZW-M890 加速器平台上，连续自主优化硬件注意力内核长达 35 小时。
#ai-agents评分 8.0
The Decoder·5月23日 17:16 UTC
皮查伊将链接重新定义为谷歌搜索的一部分
在 I/O 之后的一期播客中，谷歌 CEO Sundar Pichai 表示，“来源和链接将始终作为其中的一部分存在”，这显示出谷歌正在用新的方式描述搜索，并继续推进 AI 生成答案。文章认为，这标志着搜索正从以链接为核心的目录，转向由 AI 驱动、且更具编辑控制力的答案引擎。
#google-search评分 8.0