MinerU 合作伙伴

与生态伙伴共建,从文档上传到结构化提取全流程自动化

Dify

联合研发插件形式上架 Dify 市场,助力低代码构建AI应用

Coze

以插件形式接入智能体/工作流,为智能体开发提供便捷文档解析能力

n8n

以专用节点嵌入工作流,高效处理复杂文档解析任务

FastGPT

集成于平台工具模块,赋能精准解析复杂文档的能力

Ragflow

作为平台内置的解析引擎,为知识库提供专业文档解析

钉钉

基于MinerU,即将推出一款面向企业用户的文档解析工具 DLU

MinerU

多次蝉联 Github Python Trending 第一名

开发者声音

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...

Gorden Sun
Gorden Sun @Gorden_Sun · Nov 16

MinerU: 开源PDF内容提取
诞生于书生-浦语的预训练过程中,能保留原PDF文档结构,提取文字、图片、图片描述、表格等内容,自动识别并转换LaTeX格式、HTML格式,自动OCR,支持多语言。

量子位
量子位 7-30 09:50 来自 微博视频号

#开源数据提取工具# 推荐一款一站式、开源、高质量的数据提取工具——MinerU。
它由两个主要部分组成: 1.Magic-PDF 负责PDF文档提取... 查看

Gradio
Gradio @Gradio · Nov 15

MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON), allowing for easy extraction into any format.
🔥Trending on GitHub on top! Learn more about the ...

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...

Gorden Sun
Gorden Sun @Gorden_Sun · Nov 16

MinerU: 开源PDF内容提取
诞生于书生-浦语的预训练过程中,能保留原PDF文档结构,提取文字、图片、图片描述、表格等内容,自动识别并转换LaTeX格式、HTML格式,自动OCR,支持多语言。

量子位
量子位 7-30 09:50 来自 微博视频号

#开源数据提取工具# 推荐一款一站式、开源、高质量的数据提取工具——MinerU。
它由两个主要部分组成: 1.Magic-PDF 负责PDF文档提取... 查看

Gradio
Gradio @Gradio · Nov 15

MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON), allowing for easy extraction into any format.
🔥Trending on GitHub on top! Learn more about the ...

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...

Gorden Sun
Gorden Sun @Gorden_Sun · Nov 16

MinerU: 开源PDF内容提取
诞生于书生-浦语的预训练过程中,能保留原PDF文档结构,提取文字、图片、图片描述、表格等内容,自动识别并转换LaTeX格式、HTML格式,自动OCR,支持多语言。

量子位
量子位 7-30 09:50 来自 微博视频号

#开源数据提取工具# 推荐一款一站式、开源、高质量的数据提取工具——MinerU。
它由两个主要部分组成: 1.Magic-PDF 负责PDF文档提取... 查看

Gradio
Gradio @Gradio · Nov 15

MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON), allowing for easy extraction into any format.
🔥Trending on GitHub on top! Learn more about the ...

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...

Gorden Sun
Gorden Sun @Gorden_Sun · Nov 16

MinerU: 开源PDF内容提取
诞生于书生-浦语的预训练过程中,能保留原PDF文档结构,提取文字、图片、图片描述、表格等内容,自动识别并转换LaTeX格式、HTML格式,自动OCR,支持多语言。

量子位
量子位 7-30 09:50 来自 微博视频号

#开源数据提取工具# 推荐一款一站式、开源、高质量的数据提取工具——MinerU。
它由两个主要部分组成: 1.Magic-PDF 负责PDF文档提取... 查看

Gradio
Gradio @Gradio · Nov 15

MinerU is a tool that converts PDFs into machine-readable formats (e.g., markdown, JSON), allowing for easy extraction into any format.
🔥Trending on GitHub on top! Learn more about the ...

Tom Huang
Tom Huang @tuturetum · Jul 17

商用级水准!RAG 数据清洗关键组件,独创 PDF 内容抽取的「布局识别」和「公式识别」模型,达到 SOTA!PDF-Extract-Kit 开源
– 在学术论文、电子书、研究报告、金融报告等领域取得...