微软Bing团队开源多语言嵌入模型Harrier

The Decoder·4月8日 00:38 UTC·作者 Matthias Bastian

关键信息

完整版270亿参数模型在多语言任务上超越了OpenAI和亚马逊的专有模型，而0.6B和2.7亿参数版本则可在消费级硬件上实现高效推理。所有模型均通过MIT许可证在Hugging Face公开提供。

资讯摘要

微软Bing团队开源了Harrier，这是一种强大的多语言嵌入模型，旨在提升AI系统跨语言理解和信息检索的能力。该模型基于超过20亿条训练样本和GPT-5生成的合成数据训练，支持100多种语言，上下文窗口长达32,000个token。它在MTEB v2基准测试中排名第一，优于OpenAI和亚马逊的模型。

提供了三种版本：270亿参数、6亿参数和2.7亿参数，适应不同硬件条件。所有模型均采用MIT许可证，在Hugging Face平台提供。微软计划将其集成到Bing和未来的AI代理接地服务中，提升自主AI系统的准确性。

资讯正文

微软Bing团队开源“Harrier”嵌入模型

微软Bing团队（没错，就是他们）发布了名为“Harrier”的开源嵌入模型。Harrier支持超过100种语言，拥有32,000个标记的上下文窗口，并在超过20亿个示例及来自GPT-5的合成数据上进行了训练。据该团队称，Harrier在多语言MTEB v2基准测试中排名第一，性能优于OpenAI和亚马逊的专有模型。

除了完整的270亿参数模型外，团队还发布了两个更小的版本——0.6B和270M参数，旨在适配计算能力较弱的硬件。这三个模型均已在Hugging Face上以MIT许可证开放获取。未来，团队计划将该技术集成到Bing以及面向AI代理的新一代基础服务中。

嵌入模型负责处理AI系统所需的搜索、检索和信息组织工作，以确保答案准确。微软表示，随着AI代理独立承担越来越复杂、多步骤的任务，这类模型正变得日益重要。

来源与参考

收录于 2026-04-08