pdf-ocr-obsidian pdf-ocr-obsidian PDF OCR Pipeline to Markdown using Mistral AI 总结 pdf-ocr-obsidian 是一个自动化工作流，它使用 Mistral AI OCR API 将 PDF 文档转换为 Markdown 格式，并支持与 Obsidian 集成。它主要功能包括：批量处理: 可以批量处理输入文件夹中的多个 PDF 文件。文本提取: 将扫描的 PDF 转换为结构化的 Markdown 格式，同时保留文档的层次结构。图像提取: 将 PDF

pdf-ocr-obsidian

pdf-ocr-obsidian 是一个自动化工作流，它使用 Mistral AI OCR API 将 PDF 文档转换为 Markdown 格式，并支持与 Obsidian 集成。它主要功能包括：

批量处理: 可以批量处理输入文件夹中的多个 PDF 文件。
文本提取: 将扫描的 PDF 转换为结构化的 Markdown 格式，同时保留文档的层次结构。
图像提取: 将 PDF 中的图像单独保存，并使用 Obsidian 兼容的 ![[image-name]] 格式在 Markdown 中链接这些图像。
自动组织: 为每个处理的 PDF 创建一个单独的输出文件夹，其中包含 Markdown 文件和图像。
OCR 缓存: 将 OCR 响应保存为 JSON 格式，以避免重复的 API 调用。
多种使用方式: 提供托管的 Web App、本地 Web App 和 Jupyter Notebook 三种使用方式。

总而言之，它是一个方便的工具，可以把扫描的 PDF 文档转换为易于编辑和管理的 Markdown 格式，并与 Obsidian 知识库无缝集成。

pdf-ocr-obsidian 适用于以下场景：

本质上，任何需要将扫描 PDF 内容转换成可编辑文本并整理进 Obsidian 的场景，都可以使用这个工具。

可关注我们的公众号：宇田ai人工智能

需要开发系统，APP,大模型私有化部署，模型训练，欢迎联系微信手机同号：13067972109