Topic
#large-language-models
按主题聚合的新闻视图。
Topic Feed
主题:large-language-models
共 6 条

百度 Ernie 5.1 大幅降低训练成本
百度发布了 Ernie 5.1,这是从 Ernie 5.0 蒸馏而来的新模型,百度称其预训练成本比同类模型低约 94%。百度还表示,该模型目前在中文 AI 基准上表现领先,并在 5 月 9 日的 Arena Search Leaderboard 上获得 1,223 分,全球排名第 4、中文模型中排名第 1。

Qwen3.6-27B在多数编码基准测试中超越更大版本模型
Qwen3.6-27B 是一个采用密集架构的模型,在大多数编码基准测试中表现优于其更大的前辈,且因结构更简单而更具效率。

DeepSeek-V4为代理实现实用的百万token上下文
DeepSeek-V4引入了压缩稀疏注意力(CSA)和重度压缩注意力(HCA)的新架构,大幅降低了百万token下的FLOPs和KV缓存内存占用。这使得代理能够执行长时间的工具调用任务,而不会因GPU内存不足或性能下降而中断。

Qwen3.6-27B 在小型模型中实现旗舰级编程能力
Qwen3.6-27B 是一个参数量为 270 亿的密集型模型,其编程性能超越了更大规模的 397B MoE 模型 Qwen3.5-397B-A17B,并支持代理式行为。该模型以量化后的 GGUF 格式提供,可在消费级硬件(如 16GB 显存)上本地部署。


谷歌DeepMind发布Gemma 4:更小、更智能、具备视觉能力的模型
谷歌DeepMind发布了四个新的开源视觉语言模型——2B、4B、31B以及一个26B-A4B混合专家模型,通过分层嵌入(PLE)技术提升了参数效率。较小的模型标注为E2B和E4B,表示其有效参数规模,从而实现更好的本地设备运行性能。