OlmOCR：开源工具从PDF中提取纯文本

Hacker News 摘要March 01, 2025

OlmOCR：开源工具从PDF中提取纯文本

原标题：OlmOCR: Open-source tool to extract plain text from PDFs

olmOCR是一个开源工具，旨在高效地将PDF及其他文档转换为纯文本，同时保持自然的阅读顺序。该工具支持处理表格、方程式、手写文本等多种内容。olmOCR经过对学术论文、技术文档及其他参考资料的训练，采用独特的提示技术来提高准确性并减少错误生成。有关详细信息，可以阅读我们的技术报告。目前的模型主要经过英语文档的微调，其他语言的支持可能不理想。

用户可以在网页上尝试自己的文档演示，之后还可以在自己的GPU上部署完整的olmOCR工具包，以实现高效、可扩展的文档处理，转化每百万页的预估成本仅为190美元。需要注意的是，此演示按顺序处理页面；要获得最佳处理速度，请在工具包中使用批处理模式。

用户可以分析任何PDF、JPG或PNG文件，只需将文件拖放到指定区域或点击以浏览文件系统。此外，也可以尝试一些示例文档，如学术论文、数学教科书、手写文本和历史文献。

olmOCR由艾伦人工智能研究所（Ai2）提供，作为501(c)(3)非营利组织，该工具旨在无偿为公众提供教育并促进AI领域的科学研究。Ai2可能会根据隐私政策收集用户日志以用于诊断目的，但不会保留用户提交的内容。用户应避免提交个人、敏感或机密的信息。在页面底部，用户可选择接受或拒绝Ai2的使用条款和负责任使用指南。

原文：https://olmocr.allenai.org/

评论：https://news.ycombinator.com/item?id=43174298

Report content on this page

OlmOCR：开源工具从PDF中提取纯文本

Report Page