Skip to content

Latest commit

 

History

History
114 lines (67 loc) · 4.09 KB

README.md

File metadata and controls

114 lines (67 loc) · 4.09 KB

ocr_chinese

Keras实现自然场景下图像文字检测和识别,EAST/CRNN/CTC.

代码都是使用Keras+后端TensorFlow实现,方便生产环境部署和维护;

  • EAST模型实现文字检测,文字方向支持90° ~ -90°间任意角度,包含中字/英文/数字/符号等,目标检测的方式画框定位,返回文本框的四个坐标。
  • CRNN模型实现不定长文字识别,输出使用CTC算法模块。
  • TensorFlow自带CTC,算法原理可以参考我的博客CTC算法在OCR文字识别上的应用,还有其他博文

开发环境

python3.6 + tensorflow1.14.0 + keras2.1.6
# 或使用pip环境复制
pip install -r environment.txt
# GPU环境
NVIDIA Drivers/CUDA/cuDNN

How to use

从输入一张图片到端到端的检测及识别文字

python predict.py
  • 当检测比较正的文本,且是书面文字(不是艺术字),准确率比较高,主要确保EAST模型框选文本正确,不要框选不全,涉及模型训练和超参数调试,具体看Training部分;

east_1

crnn_1

  • 当检测存在角度的文本,确定文本四个顶点的坐标,旋转及边缘延伸,确保输入CRNN模型时文字完整性;

east_2

crnn_2

可以看到输入CRNN时裁剪下来的文字图片;

res

EAST模型检测文本框

cd east
python predict.py

CRNN模型识别文字

cd crnn
python predict.py

代码结构

- crnn                    # 文字识别模型
|-- predict_crnn.py       # 预测文字,衔接east模型,裁剪及文字旋转
|-- data                  # 数据集预处理
|-- net                   # crnn网络实现及训练,char_std_5990.txt文字对应标签序
|-- model                 # 模型weights

- east                    # 文字检测模型
|-- predict_east.py       # 预测文字位置,画框 
|-- data                  # images数据集预处理
|-- net                   # east网络实现及训练,network/loss/training
|-- model                 # 模型weights

- predict.py              # 实现end-to-end预测,模型衔接

Training

  • EAST

    本项目数据集:天池ICPR MTWI 2018 挑战赛二网络图像的文本检测。淘宝上收集的商品图片,数据量充分,涵盖数十种字体,几个到几百像素字号,多种版式,较多干扰背景。(百度云/提取码:sxhh)

    其他数据集:MSRA-TD500 自然场景下的文本检测数据集。

  • CRNN 本项目数据集:通用中文语料库,通过截取文本和随机生成,字体经过了大小、灰度、模糊、透视等变化,共360万张图片,图像分辨率w*h为280x32,涵盖了汉字、标点、英文、数字共5990个字符。(百度云/提取码:4m2q)

    其他数据集:

    ​ 1、Synthetic Data for Text Localisation 在复杂背景下人工合成的自然场景文本数据。英文GitHub,中文GitHub

    ​ 2、A Large Chinese Text Dataset in the Wild 街景中文字符检测和识别的数据集,包括平面文本、凸起文本、光照不足的文本、远处文本、部分遮挡文本等。

    本项目使用的数据集针对的是书面文字,所以在识别书面和打印文字上效果较好,如果要识别艺术字或手写体需要增加相应训练集。

Documents

Writing ......

参考