Mistral发布OCR 4用于多语言文档理解

The Decoder·6月24日 17:28 UTC·作者 Maximilian Schreiner

关键信息

OCR 4会输出标题、表格、公式和签名等块级分类，并为单词或页面提供置信度分数。Mistral表示，在超过600份文档的盲测中，评审者有72%的时间更偏好OCR 4的结果；该模型可通过API、Mistral Studio和Microsoft Foundry使用，价格为每1000页4美元，批处理模式为2美元。

资讯摘要

Mistral AI推出了OCR 4，这是一款面向文档识别的OCR模型，能够读取PDF、Word文件和PowerPoint演示文稿中的内容。与早期主要提取纯文本的OCR系统不同，OCR 4还会尝试理解文档结构，识别元素在页面上的位置以及它们代表什么。该模型可以把内容块分类为标题、表格、公式或签名，这让后续的文档处理更有用。Mistral表示，这种结构化输出可以帮助系统自动把文档拆分成有意义的部分，从而更容易接入搜索系统或AI代理。

OCR 4还会生成置信度分数，帮助用户判断模型对每个单词或页面的把握程度。根据公司说法，该模型支持170种语言，即使是较少见的语言也表现良好。Mistral还声称，在一项包含600多份文档的盲测中，独立评审者有72%的时间更偏好OCR 4的结果，而不是竞争模型。该模型目前可通过Mistral的API、Mistral Studio和Microsoft Foundry使用，价格为每1000页4美元，批处理模式为每1000页2美元。

资讯正文

Mistral的新OCR模型在72%的盲测案例中击败竞争对手，公司称

Mistral AI发布了OCR 4，这是一款可读取PDF、Word文件和PowerPoint演示文稿等文档中文本的新模型。

与早期版本不同，OCR 4不只是提取原始文本。它还能识别每个元素在页面中的位置以及所扮演的角色——无论是标题、表格、公式还是签名。这种块级分类有助于自动将文档拆分为有意义的部分，这对于将文档输入搜索系统或让AI代理进行处理都很有用。该模型还会输出置信度分数，用于估计它对所读取的每个单词或页面有多确定。

Mistral表示，OCR 4支持170种语言，即使是较不常见的语言也表现良好。公司称，在一项涉及600多份文档的盲测中，独立评审者有72%的时间更偏好OCR 4的结果，而非竞争模型。该模型可通过API、Mistral Studio和Microsoft Foundry获取。其定价为每1,000页4美元，批量模式下为2美元。

来源与参考