# MinerU
**Repository Path**: open-data-lab/MinerU
## Basic Information
- **Project Name**: MinerU
- **Description**: MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。
- **Primary Language**: Python
- **License**: AGPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 53
- **Forks**: 24
- **Created**: 2025-05-23
- **Last Updated**: 2025-09-05
## Categories & Tags
**Categories**: doc-tools
**Tags**: None
## README
[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU)
[](https://github.com/opendatalab/MinerU/issues)
[](https://github.com/opendatalab/MinerU/issues)
[](https://pypi.org/project/mineru/)
[](https://pypi.org/project/mineru/)
[](https://pepy.tech/project/mineru)
[](https://pepy.tech/project/mineru)
[](https://mineru.net/OpenSourceTools/Extractor?source=github)
[](https://www.modelscope.cn/studios/OpenDataLab/MinerU)
[](https://huggingface.co/spaces/opendatalab/MinerU)
[](https://colab.research.google.com/gist/myhloli/a3cb16570ab3cfeadf9d8f0ac91b4fca/mineru_demo.ipynb)
[](https://arxiv.org/abs/2409.18839)
[](https://deepwiki.com/opendatalab/MinerU)

[English](README.md) | [简体中文](README_zh-CN.md)
🚀MinerU 官网入口→✅ 免装在线版 ✅ 全功能客户端 ✅ 开发者API在线调用,省去部署麻烦,多种产品形态一键get,速冲!
👋 join us on Discord and WeChat
# 更新记录
- 2025/09/05 2.2.0 发布
- 主要更新
- 在这个版本我们重点提升了表格的解析精度,通过引入新的[有线表识别模型](https://github.com/RapidAI/TableStructureRec)和全新的混合表格结构解析算法,显著提升了`pipeline`后端的表格识别能力。
- 另外我们增加了对跨页表格合并的支持,这一功能同时支持`pipeline`和`vlm`后端,进一步提升了表格解析的完整性和准确性。
- 其他更新
- `pipeline`后端增加270度旋转的表格解析能力,现已支持0/90/270度三个方向的表格解析
- `pipeline`增加对泰文、希腊文的ocr能力支持,并更新了英文ocr模型至最新,英文识别精度提升11%,泰文识别模型精度 82.68%,希腊文识别模型精度 89.28%(by PPOCRv5)
- 在输出的`content_list.json`中增加了`bbox`字段(映射至0-1000范围内),方便用户直接获取每个内容块的位置信息
- 移除`pipeline_old_linux`安装可选项,不再支持老版本的Linux系统如`Centos 7`等,以便对`uv`的`sync`/`run`等命令进行更好的支持