Mistral发布OCR 4用于多语言文档理解
The Decoder··作者 Maximilian Schreiner
关键信息
OCR 4会输出标题、表格、公式和签名等块级分类,并为单词或页面提供置信度分数。Mistral表示,在超过600份文档的盲测中,评审者有72%的时间更偏好OCR 4的结果;该模型可通过API、Mistral Studio和Microsoft Foundry使用,价格为每1000页4美元,批处理模式为2美元。
资讯摘要
Mistral AI推出了OCR 4,这是一款面向文档识别的OCR模型,能够读取PDF、Word文件和PowerPoint演示文稿中的内容。与早期主要提取纯文本的OCR系统不同,OCR 4还会尝试理解文档结构,识别元素在页面上的位置以及它们代表什么。该模型可以把内容块分类为标题、表格、公式或签名,这让后续的文档处理更有用。Mistral表示,这种结构化输出可以帮助系统自动把文档拆分成有意义的部分,从而更容易接入搜索系统或AI代理。
OCR 4还会生成置信度分数,帮助用户判断模型对每个单词或页面的把握程度。根据公司说法,该模型支持170种语言,即使是较少见的语言也表现良好。Mistral还声称,在一项包含600多份文档的盲测中,独立评审者有72%的时间更偏好OCR 4的结果,而不是竞争模型。该模型目前可通过Mistral的API、Mistral Studio和Microsoft Foundry使用,价格为每1000页4美元,批处理模式为每1000页2美元。

资讯正文
Mistral的新OCR模型在72%的盲测案例中击败竞争对手,公司称
Mistral AI发布了OCR 4,这是一款可读取PDF、Word文件和PowerPoint演示文稿等文档中文本的新模型。
与早期版本不同,OCR 4不只是提取原始文本。它还能识别每个元素在页面中的位置以及所扮演的角色——无论是标题、表格、公式还是签名。这种块级分类有助于自动将文档拆分为有意义的部分,这对于将文档输入搜索系统或让AI代理进行处理都很有用。该模型还会输出置信度分数,用于估计它对所读取的每个单词或页面有多确定。
Mistral表示,OCR 4支持170种语言,即使是较不常见的语言也表现良好。公司称,在一项涉及600多份文档的盲测中,独立评审者有72%的时间更偏好OCR 4的结果,而非竞争模型。该模型可通过API、Mistral Studio和Microsoft Foundry获取。其定价为每1,000页4美元,批量模式下为2美元。
来源与参考