基于 MATLAB 的图像中汉字识别

原作者: [db:作者] 来自: [db:来源] 收藏邀请

数字图像处理课程论文–基于 MATLAB 的图像中汉字识别

说明:

算法一是最开始做的版本，算法二是运用贝叶斯公式法分类器的改进版本。

前言

汉字历史悠久，流传四海，是我们书面交流的绝对主体。自蔡
伦改进纸张以来，两千年的时间里，汉字最重要的载体是纤维纸。
毫无疑问，较之前的龟甲竹简而言，纸张更便宜，更轻便，更适合
传播。纤维纸结合印刷术，构成了知识文化传播的主要方式。
然而步入新世纪后，我们有了电脑，有了电子书，有了电子
笔，最重要的，我们有了发达的互联网。技术革命正在快速蚕食纸
张原有的优势地位，纤维纸竟有了淘汰的可能。
但是，至少到目前为止，传统方式下的书籍仍然承载着巨大的
信息流量，纸张对于我们依旧不可或缺，这便需要有能够把信息在
两者间流转的方法。
我们组本次设计的内容便是在探讨一种传统书籍内容转移到电
子文档的方法——汉字识别

1 实验目标和实验方法

1.实验目标：通过设计，能够有效地识别出图片中的汉字。
2.实验平台：MATLAB

2 实验原理（具体原理略）

2.1 图像二值化

2.2 开操作

2.3 图像分割

2.4 贝叶斯公式法分类器

3 实验方案(总体流程图、具体步骤等)

1.1 算法一流程图

1.1.1 创建字库

1.1.2 识别汉字

1.1.3 提取字库特征向量

1.2 算法一步骤

①选择一段写在纸张上的文字，拍照截图
②把带有汉字的图像处理成标准格式。最好的结果是只留有汉字部分而切除其余空白，并清理斑点修补线条。
③为了每次单独识别一个汉字，将每个汉字都分离切割出来，成为一个待处理的方块图像组
④对比汉字库与一个个分离出的汉字方块图像，找到最相似的结果（汉字库同样是分离出的汉字方块图像。在实验前预先输入标准汉字图像，并输入每一个汉字图像代表汉字，的程序会自动分割出一个个汉字方块图像，并按顺序存放于库文件夹中。）
⑤输出对比出的最相似结果，并附上原图像

1.3 算法二流程图

1.3.1 提取字库特征向量

1.3.2 识别汉字

1.4 算法二步骤

（1）将一个手写的字（假设这个字为“数”）的大方块切割为 10*10 个小方块。每一个小方块都包含了一个字的一部分信息。
开始
输入带汉字的图像
预处理阶段（修补线段、去除噪点）
切割字块
特征提取
贝叶斯分类器进行比较
输出结果
结束
12 / 34

（2）每一部分的小方块里的黑像素与白像素的数量之比为小方块所蕴含的信息；（3）设立一个阈值 K。如果一个小方块内，黑像素的数量大于 K，则令小方块状态为 1，表示有笔画经过；否则为 0，表示没有笔画经过；（4）现在，我们得到了一个字的 100 个小方块的状态值，将状态值存入一个数组 shu[i],0<=i<=100; （5）设立数据库。将足够多的训练用字（全是“数”）的图片进行（1）~（4）的处理步骤，于是，我们改造之前的数组，得到一个新二维数组 shu[j][i]作为数据库,j 为训练图片序号; （6）利用数据库，我们可以统计出“数”字的笔画经过某一个小方块的概率，并记录下来；（7）我们又通过重复（1）~（6）的步骤，将其他的汉字（非“数”）也求出概率来；（8）到此，我们建立了一个的数据库，这个数据库里包含了不同汉字的笔画经过不同位置的概率，将其作为特征向量，如果想给汉字增加特征向量，重复以上步骤即可。（9）输入汉字 X 试图识别。重复（1）~（4），得到一个数组。这个数组内包含有 X 的笔画信息供以比对，作为特征向量；（10）接下来，进行笔画信息比对。利用贝叶斯分析，计算出在这种笔画信息下是某一种字的可能性；（11）利用贝叶斯分类器将数据库中特征向量比对一遍，找出最有可能的字即为结果。

4 实验结果

4.1 算法一实验结果

1.通过标准汉字创建汉字库

2.将图片中的汉字与汉字库对比来识别图片中的汉字

3.继续创建其他的汉字库，尝试使用较为模糊的图片
4.识别

5.继续创建其他的汉字库，尝试更为模糊的图片
6.识别，发现识别出现错误。

7.通过查找原因发现，我们使用的字体（宋体）与识别图像相差过大，我们使用的字体如下：

8.通过添加另一种汉字字体（黑体），新添加的汉字字体如下：

9.识别，识别正确。

4.2 算法二（改进后）实验结果

特征提取加贝叶斯分类器结果：生成的字库如下，其中包含了三种手写字体，“数字图像处理期末考试作业”12 个字中的每一个字有 7 个特征向量。保存在结构体数组 pattern 中，pattern 包含有 12 个元素，每一个元素包含三种属性，分别为字的名字，字的特征向量个数，以及字的特征向量。
pattern 具体情况如下：
1、识别普通文字，蓝色的字为识别结果，图像为待识别的图像，可见能完全识别出来

2、识别不同大小的字，不同大小的字也可以识别出来

3、识别不同字体，不同大小的字（有的字的字体与字库的不一样），可以看见识别效果还是不错的。

4、识别手写字体，新写了一个，可以看见识别还是比较准确，除了第三张识别有点错误之外。

参考文献

[1]邹浩，余龙，邹勇博，刘宇童，和振乔，李少梅.基于MATLAB的图片中文字的提取及识别[J].西安电子科技大学+电子工程学院，西安，710126.
[2]李隆烨.基于 MATLAB 的贝叶斯分类器设计[J].科技传播,2019,11(20):116117.

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/alongiii/article/details/106790444

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

DELPHI基础教程第十七章　SQL编程发布时间：2022-07-18

DELPHI基础教程第四章　文本编辑器的设计发布时间：2022-07-18

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：17984|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9573|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8130|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8513|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8417|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9311|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8379|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7812|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8365|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7363|2022-11-06

客服电话

电子邮件

基于 MATLAB 的图像中汉字识别

数字图像处理课程论文–基于 MATLAB 的图像中汉字识别

目录

前言

1 实验目标和实验方法

2 实验原理（具体原理略）

2.1 图像二值化

2.2 开操作

2.3 图像分割

2.4 贝叶斯公式法分类器

3 实验方案(总体流程图、具体步骤等)

1.1 算法一流程图

1.1.1 创建字库

1.1.2 识别汉字

1.1.3 提取字库特征向量

1.2 算法一步骤

1.3 算法二流程图

1.3.1 提取字库特征向量

1.3.2 识别汉字

1.4 算法二步骤

4 实验结果

4.1 算法一实验结果

4.2 算法二（改进后）实验结果

参考文献

请发表评论

全部评论

上一篇：

下一篇：

GitbookIO/gitbook:

凹的笔顺,聊聊凹的笔画,推荐凹的部首

Delphi日期时间UNIX

kyamagu/matlab-json: Use official API: h

sevenjay/cpp-markdown: Cpp-Markdown is a

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053