• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

基于 MATLAB 的图像中汉字识别

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

数字图像处理课程论文–基于 MATLAB 的图像中汉字识别

说明:

算法一是最开始做的版本,算法二是运用贝叶斯公式法分类器的改进版本。

前言

汉字历史悠久,流传四海,是我们书面交流的绝对主体。自蔡
伦改进纸张以来,两千年的时间里,汉字最重要的载体是纤维纸。
毫无疑问,较之前的龟甲竹简而言,纸张更便宜,更轻便,更适合
传播。纤维纸结合印刷术,构成了知识文化传播的主要方式。
然而步入新世纪后,我们有了电脑,有了电子书,有了电子
笔,最重要的,我们有了发达的互联网。技术革命正在快速蚕食纸
张原有的优势地位,纤维纸竟有了淘汰的可能。
但是,至少到目前为止,传统方式下的书籍仍然承载着巨大的
信息流量,纸张对于我们依旧不可或缺,这便需要有能够把信息在
两者间流转的方法。
我们组本次设计的内容便是在探讨一种传统书籍内容转移到电
子文档的方法——汉字识别

1 实验目标和实验方法

1.实验目标:通过设计,能够有效地识别出图片中的汉字。
2.实验平台:MATLAB

2 实验原理(具体原理略)

2.1 图像二值化

2.2 开操作

2.3 图像分割

2.4 贝叶斯公式法分类器

3 实验方案(总体流程图、具体步骤等)

1.1 算法一流程图

1.1.1 创建字库

1.1.2 识别汉字

1.1.3 提取字库特征向量

1.2 算法一步骤

①选择一段写在纸张上的文字,拍照截图
②把带有汉字的图像处理成标准格式。最好的结果是只留有汉字部分而切除其余空白,并清 理斑点修补线条。
③为了每次单独识别一个汉字,将每个汉字都分离切割出来,成为一个待处理的方块图像组
④对比汉字库与一个个分离出的汉字方块图像,找到最相似的结果(汉字库同样是分离出的 汉字方块图像。在实验前预先输入标准汉字图像,并输入每一个汉字图像代表汉字,的程序 会自动分割出一个个汉字方块图像,并按顺序存放于库文件夹中。 )
⑤输出对比出的最相似结果,并附上原图像

1.3 算法二流程图

1.3.1 提取字库特征向量

1.3.2 识别汉字

1.4 算法二步骤

(1) 将一个手写的字(假设这个字为“数”)的大方块切割为 10*10 个小方块。每一个 小方块都包含了一个字的一部分信息。
开始
输入带汉字的 图像
预处理阶段 (修补线段、 去除噪点)
切割字块
特征提取
贝叶斯分类器 进行比较
输出结果
结束
12 / 34

(2) 每一部分的小方块里的黑像素与白像素的数量之比为小方块所蕴含的信息; (3) 设立一个阈值 K。如果一个小方块内,黑像素的数量大于 K,则令小方块状态为 1, 表示有笔画经过;否则为 0,表示没有笔画经过; (4) 现在,我们得到了一个字的 100 个小方块的状态值,将状态值存入一个数组 shu[i],0<=i<=100; (5) 设立数据库。将足够多的训练用字(全是“数”)的图片进行(1)~(4)的处理步 骤,于是,我们改造之前的数组,得到一个新二维数组 shu[j][i]作为数据库,j 为训练 图片序号; (6) 利用数据库,我们可以统计出“数”字的笔画经过某一个小方块的概率,并记录下 来; (7) 我们又通过重复(1)~(6)的步骤,将其他的汉字(非“数”)也求出概率来; (8) 到此,我们建立了一个的数据库,这个数据库里包含了不同汉字的笔画经过不同位 置的概率,将其作为特征向量,如果想给汉字增加特征向量,重复以上步骤即可。 (9) 输入汉字 X 试图识别。重复(1)~(4),得到一个数组。这个数组内包含有 X 的 笔画信息供以比对,作为特征向量; (10) 接下来,进行笔画信息比对。利用贝叶斯分析,计算出在这种笔画信息下是某一种 字的可能性; (11) 利用贝叶斯分类器将数据库中特征向量比对一遍,找出最有可能的字即为结果。

4 实验结果

4.1 算法一实验结果

1.通过标准汉字创建汉字库

2.将图片中的汉字与汉字库对比来识别图片中的汉字

3.继续创建其他的汉字库,尝试使用较为模糊的图片
4.识别

5.继续创建其他的汉字库,尝试更为模糊的图片
6.识别,发现识别出现错误。

7.通过查找原因发现,我们使用的字体(宋体)与识别图像相差过大,我们使用的字体如下:

8.通过添加另一种汉字字体(黑体),新添加的汉字字体如下:

9.识别,识别正确。

4.2 算法二(改进后)实验结果

特征提取加贝叶斯分类器结果: 生成的字库如下,其中包含了三种手写字体,“数字图像处理期末考试作业”12 个字中的每 一个字有 7 个特征向量。保存在结构体数组 pattern 中,pattern 包含有 12 个元素,每一个 元素包含三种属性,分别为字的名字,字的特征向量个数,以及字的特征向量。
pattern 具体情况如下:
1、识别普通文字,蓝色的字为识别结果,图像为待识别的图像,可见能完全识别出来

2、识别不同大小的字,不同大小的字也可以识别出来

3、识别不同字体,不同大小的字(有的字的字体与字库的不一样),可以看见识别效果还 是不错的。


4、识别手写字体,新写了一个,可以看见识别还是比较准确,除了第三张识别有点错误之 外。


参考文献

[1]邹浩,余龙,邹勇博,刘宇童,和振乔,李少梅.基于MATLAB的图片中文字的提取及识别[J].西安电子科技大学+电子工程学院,西安,710126.
[2]李隆烨.基于 MATLAB 的贝叶斯分类器设计[J].科技传播,2019,11(20):116117.

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/alongiii/article/details/106790444


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
DELPHI基础教程 第十七章 SQL编程发布时间:2022-07-18
下一篇:
DELPHI基础教程 第四章 文本编辑器的设计发布时间:2022-07-18
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap