微软Bing团队开源多语言嵌入模型Harrier
The Decoder··作者 Matthias Bastian
关键信息
完整版270亿参数模型在多语言任务上超越了OpenAI和亚马逊的专有模型,而0.6B和2.7亿参数版本则可在消费级硬件上实现高效推理。所有模型均通过MIT许可证在Hugging Face公开提供。
资讯摘要
微软Bing团队开源了Harrier,这是一种强大的多语言嵌入模型,旨在提升AI系统跨语言理解和信息检索的能力。该模型基于超过20亿条训练样本和GPT-5生成的合成数据训练,支持100多种语言,上下文窗口长达32,000个token。它在MTEB v2基准测试中排名第一,优于OpenAI和亚马逊的模型。
提供了三种版本:270亿参数、6亿参数和2.7亿参数,适应不同硬件条件。所有模型均采用MIT许可证,在Hugging Face平台提供。微软计划将其集成到Bing和未来的AI代理接地服务中,提升自主AI系统的准确性。

资讯正文
微软Bing团队开源“Harrier”嵌入模型
微软Bing团队(没错,就是他们)发布了名为“Harrier”的开源嵌入模型。Harrier支持超过100种语言,拥有32,000个标记的上下文窗口,并在超过20亿个示例及来自GPT-5的合成数据上进行了训练。据该团队称,Harrier在多语言MTEB v2基准测试中排名第一,性能优于OpenAI和亚马逊的专有模型。
除了完整的270亿参数模型外,团队还发布了两个更小的版本——0.6B和270M参数,旨在适配计算能力较弱的硬件。这三个模型均已在Hugging Face上以MIT许可证开放获取。未来,团队计划将该技术集成到Bing以及面向AI代理的新一代基础服务中。
嵌入模型负责处理AI系统所需的搜索、检索和信息组织工作,以确保答案准确。微软表示,随着AI代理独立承担越来越复杂、多步骤的任务,这类模型正变得日益重要。
来源与参考
收录于 2026-04-08