OlmOCR:开源工具从PDF中提取纯文本

OlmOCR:开源工具从PDF中提取纯文本

Hacker News 摘要

原标题:OlmOCR: Open-source tool to extract plain text from PDFs

olmOCR是一个开源工具,旨在高效地将PDF及其他文档转换为纯文本,同时保持自然的阅读顺序。该工具支持处理表格、方程式、手写文本等多种内容。olmOCR经过对学术论文、技术文档及其他参考资料的训练,采用独特的提示技术来提高准确性并减少错误生成。有关详细信息,可以阅读我们的技术报告。目前的模型主要经过英语文档的微调,其他语言的支持可能不理想。

用户可以在网页上尝试自己的文档演示,之后还可以在自己的GPU上部署完整的olmOCR工具包,以实现高效、可扩展的文档处理,转化每百万页的预估成本仅为190美元。需要注意的是,此演示按顺序处理页面;要获得最佳处理速度,请在工具包中使用批处理模式。

用户可以分析任何PDF、JPG或PNG文件,只需将文件拖放到指定区域或点击以浏览文件系统。此外,也可以尝试一些示例文档,如学术论文、数学教科书、手写文本和历史文献。

olmOCR由艾伦人工智能研究所(Ai2)提供,作为501(c)(3)非营利组织,该工具旨在无偿为公众提供教育并促进AI领域的科学研究。Ai2可能会根据隐私政策收集用户日志以用于诊断目的,但不会保留用户提交的内容。用户应避免提交个人、敏感或机密的信息。在页面底部,用户可选择接受或拒绝Ai2的使用条款和负责任使用指南。


原文:https://olmocr.allenai.org/

评论:https://news.ycombinator.com/item?id=43174298

Report Page