PDF 转网页工具
完整提取 PDF 内容,包括文本和图片,支持 OCR 验证
📄
拖拽 PDF 文件到此处
或点击选择文件
支持任意大小的 PDF 文件,自动提取文本和图片
转换进度
📖
加载 PDF
等待中
📝
提取文本
等待中
🖼️
提取图片
等待中
🔍
OCR 验证
等待中
✅
生成页面
等待中
转换选项
选择解析引擎
后端服务配置
px
(过滤小图标)
🤖 大模型增强(可选)
(未配置)
0.8
(低于此值调用 LLM)
模式说明:
• 混合模式:OCR 先行,仅对不确定区域调用 LLM,节省 70%+ 成本
• 仅验证模式:仅用 LLM 验证可疑图片区域
• 完全模式:每页都用 LLM 分析,最准确但成本最高
获取阿里云百炼 API Key
提示:矢量 PDF 不需要 OCR,直接提取文字更准确。 查看安装说明
MinerU 后端启动说明
方式一:快速启动(备用解析器)
cd blog/backend
./start.sh
此方式使用 PyMuPDF 作为备用解析器。
方式二:完整安装 MinerU
# 1. 创建 conda 环境
conda create -n mineru python=3.10 -y
conda activate mineru
# 2. 安装 MinerU
pip install magic-pdf[full] -i https://mirrors.aliyun.com/pypi/simple
# 3. 下载模型
export MINERU_MODEL_SOURCE=modelscope
mineru-models-download
# 4. 启动服务
cd blog/backend
./start.sh
API 文档
启动后访问 http://localhost:8000/docs 查看完整 API 文档。
PDF 与转换结果对比
⏳
验证中...
原始 PDF 渲染
1 / 1
转换后的网页
验证报告
文本匹配度
0%
图片提取率
0%
OCR 验证通过
0%