讯飞手写 OCR 图像文字识别工具

本项目是一个基于 Python 的图形化工具,支持使用 讯飞开放平台手写文字识别 API 对指定文件夹下的图片进行批量 OCR 识别,并自动生成 Word 文档。

支持自定义 API 参数配置,自动保存配置,下次启动自动填充。图形化界面友好,操作简便,适合教师、教辅、资料归档等使用场景。


📦 功能说明

  • 支持识别 .jpg, .png, .bmp, .jpeg 格式图片
  • 自动识别当前文件夹或其子文件夹中的图片内容
  • 图片识别内容自动写入 Word(.docx),字体:宋体,小四,段前段后为 0,最小行距 12 磅
  • 每张图片自动标注“修改前”、“修改后”结构,并分页
  • 图片所在文件夹名写入 Word 中作为“——姓名”标注
  • 支持 GUI 操作,支持打包为 .exe 使用,无需 Python 环境

🖼️ 图形界面功能

  • 输入讯飞 APPID, API_KEY, OCR接口URL
  • 选择或手动输入图片所在目录路径
  • 点击“开始识别”按钮自动批量处理并生成 Word 文件
  • 所有配置自动保存,下次启动自动加载

🚀 快速开始

1. 安装依赖

1
pip install -r requirements.txt

或手动安装:

1
pip install PyQt5 python-docx requests

2. 运行程序

1
python ocr_gui.py

📝 配置说明

程序会自动在当前目录生成一个配置文件:

1
config.json

📄 输出格式说明

每张图片对应一个“修改前:”和“修改后:”段落结构

段落之间添加分页符

在“修改前:”上方插入 ——姓名(文件夹名) 居中段落

所有图片识别结果拼接在同一个 Word 中,文件名为对应文件夹名称

🔐 API 获取方式

请在讯飞开放平台申请并获取:

APPID

API_KEY

OCR 接口地址(默认可用)

申请地址:https://www.xfyun.cn/services/ocr_general

📌 注意事项

仅支持中文/英文手写识别(建议图片清晰,避免旋转)

单张图识别失败不会影响整体执行,会跳过

若图片较大或数量过多,识别需等待数秒

单张图片不能超过5MB

📃 License

本项目仅供学习和教育用途,禁止商业或非法用途。API 使用请遵守讯飞开发者服务协议。