LinXueyuanStdio/LaTeX_OCR: 数学公式识别 Math Formula OCR

原作者: [db:作者] 来自: 网络收藏邀请

开源软件名称（OpenSource Name）：

LinXueyuanStdio/LaTeX_OCR

开源软件地址(OpenSource Url)：

https://github.com/LinXueyuanStdio/LaTeX_OCR

开源编程语言(OpenSource Language)：

Jupyter Notebook 85.2%

开源软件介绍(OpenSource Introduction)：

LaTeX OCR

本项目增强版：LaTeX_OCR_PRO

1. 搭建环境
- Linux
- Mac
2. 开始训练
- 生成小数据集、训练、评价
- 生成完整数据集、训练、评价
3. 可视化
- 可视化训练过程
- 可视化预测过程
4. 评价
5. 模型的具体实现细节
6. 踩坑记录
- win10 用 GPU 加速训练
- 如何可视化Attention层
致谢

Seq2Seq + Attention + Beam Search。

结构

1. 搭建环境

python3.5 + tensorflow1.12.2
latex (latex 转 pdf)
ghostscript (图片处理)
magick (pdf 转 png)

Linux

一键安装

make install-linux

或

安装本项目依赖

virtualenv env35 --python=python3.5
source env35/bin/activate
pip install -r requirements.txt

安装 latex (latex 转 pdf)

sudo apt-get install texlive-latex-base
sudo apt-get install texlive-latex-extra

安装 ghostscript

sudo apt-get update
sudo apt-get install ghostscript
sudo apt-get install libgs-dev

安装magick (pdf 转 png)

wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*; \
./configure --with-gslib=yes; \
make; \
sudo make install; \
sudo ldconfig /usr/local/lib
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

Mac

一键安装

make install-mac

或

安装本项目依赖

sudo pip install -r requirements.txt

LaTeX 请自行安装
安装magick (pdf 转 png)

wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*; \
./configure --with-gslib=yes; \
make;\
sudo make install; \
rm ImageMagick.tar.gz
rm -r ImageMagick-7.*

2. 开始训练

生成小数据集、训练、评价

提供了样本量为 100 的小数据集，方便测试。只需 2 分钟就可以根据 ./data/small.formulas/ 下的公式生成用于训练的图片。

一步训练

make small

或

生成数据集

用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 只用运行一次

# 默认
python build.py
# 或者
python build.py --data=configs/data_small.json --vocab=configs/vocab_small.json

训练

# 默认
python train.py
# 或者
python train.py --data=configs/data_small.json --vocab=configs/vocab_small.json --training=configs/training_small.json --model=configs/model.json --output=results/small/

评价预测的公式

# 默认
python evaluate_txt.py
# 或者
python evaluate_txt.py --results=results/small/

评价数学公式图片

# 默认
python evaluate_img.py
# 或者
python evaluate_img.py --results=results/small/

生成完整数据集、训练、评价

根据公式生成 70,000+ 数学公式图片需要 2-3 个小时

一步训练

make full

或

生成数据集

用 LaTeX 公式生成图片，同时保存公式-图片映射文件，生成字典 只用运行一次
```
python build.py --data=configs/data.json --vocab=configs/vocab.json
```

训练

python train.py --data=configs/data.json --vocab=configs/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/

评价预测的公式

python evaluate_txt.py --results=results/full/

评价数学公式图片

python evaluate_img.py --results=results/full/

3. 可视化

可视化训练过程

用 tensorboard 可视化训练过程

小数据集

cd results/small
tensorboard --logdir ./

完整数据集

cd results/full
tensorboard --logdir ./

可视化预测过程

打开 visualize_attention.ipynb，一步步观察模型是如何预测 LaTeX 公式的。

或者运行

# 默认
python visualize_attention.py
# 或者
python visualize_attention.py --image=data/images_test/6.png --vocab=configs/vocab.json --model=configs/model.json --output=results/full/

可在 --output 下生成预测过程的注意力图。

4. 评价

指标	训练分数	测试分数
perplexity	1.39	1.44
EditDistance	81.68	80.45
BLEU-4	78.21	75.42
ExactMatchScore	13.93	12.44

perplexity 是越接近1越好，其余3个指标是越大越好。ExactMatchScore 比较低，继续训练应该可以到 70 以上。机器不太好，训练太费时间了。

5. 模型的具体实现细节

总述

首先我们获取到足够的公式，对公式进行规范化处理，方便划分出字典。然后通过规范化的公式使用脚本生成图片，具体用到了latex和ghostscript和magick，同时保存哪个公式生成哪个图片，保存为公式-图片映射文件。这样我们得到了3个数据集：规范化的公式集，图片集，公式-图片映射集，还有个附赠品：latex字典。这个字典决定了模型的上限，也就是说，模型预测出的公式只能由字典里的字符组成，不会出现字典以外的字符。

然后构建模型。

模型分为3部分，数据生成器，神经网络模型，使用脚本。

数据生成器读取公式-图片映射文件，为模型提供(公式, 图片)的矩阵元组。

神经网络模型是 Seq2Seq + Attention + Beam Search。Seq2Seq的Encoder是CNN，Decoder是LSTM。Encoder和Decoder之间插入Attention层，具体操作是这样：Encoder到Decoder有个扁平化的过程，Attention就是在这里插入的。随Attention插入的还有我们自定义的一个op，用来导出Attention的数据，做Attention的可视化。

使用脚本包括构建脚本、训练脚本、测试脚本、预测脚本、评估脚本、可视化脚本。使用说明看上面的命令行就行。

训练过程根据epoch动态调整LearningRate。decoder可以选择用lstm或gru，在configs/model.json里改就行。最后输出结果可以选择用 beam_search 或 greedy，也是在configs/model.json里改。

数据获取和数据处理

我们只要获取到正确的latex公式就行。因为我们可以使用脚本将latex渲染出图片，所以就不用图片数据了。

原来我们想使用爬虫爬取arXiv的论文，然后通过正则表达式提取论文里的latex公式。

但是最后我们发现已经有人做了这个工作，所以就用了他们的公式数据。im2latex-100k , arXiv:1609.04938

现在我们获取到latex公式数据，下面进行规范化。

为什么要规范化：如果不规范化，我们构建字典时就只能是char wise，而latex中有很多是有特定排列的指令，比如\lim，这样模型需要花费额外的神经元来记住这些pattern，会使模型效果变差，也导致训练费时间。（有时根本不收敛...别问我怎么知道的...）

我们先手动在代码编辑器里对数据进行规范化，很玄学地用了一些正则表达式，一步一步进行规范化。

最后总结了一下，明确要构建的字典大概是什么样的，然后写了脚本来处理。

然后是通过公式生成图片，保存公式-图片映射文件，构建字典。

构建字典很简单，遍历公式文件的每一行，然后以空格符为分隔符分割成若干latex块，去掉每一块首尾空格，若非空则加入字典集，保证不重复。

保存公式-图片映射文件也很简单，就是在渲染出图片后，保存当前的公式在公式文件里的行号和图片路径，写入映射文件里，也就是.matching.txt文件。图片文件名是直接用公式行号来命名的，比如1234.png 1234表示第1234行公式的公式图片是1234.png。所以知道了行号，就知道了公式图片路径。

通过公式生成图片稍微复杂一点，需要用到几个库：latex、ghostscript和magick。事实上用Katex也是可以的，katex是一个渲染latex公式的js库，体积小速度快。原来我们也是打算用这个库处理，后来因为环境问题放弃了。

latex原先我的环境里有了，这是用来生成pdf文件的。执行脚本后会得到A4纸大小的一页pdf。

ghostscript和magick绑定在一起，用来把pdf转化为png格式的图片。

转化为图片后，选定公式 padding 8个像素的方框，crop框外的空白，然后灰度化。

模型构建

让我鸽一段时间。。。有空再写！

6. 踩坑记录

win10 用 GPU 加速训练

装驱动后就行了。运行下面代码进行训练：

C:/Users/dlink/AppData/Local/Programs/Python/Python35/python.exe train.py --data=configs/data.json --vocab=configs/vocab.json --training=configs/training.json --model=configs/model.json --output=results/full/

我的环境比较奇葩，是win10+ubuntu wsl，也就是windows+linux子系统。我的GPU驱动装在win里面了，linux里没装，不过文件系统是共用的，所以用win的GPU驱动来训练模型。（嗯，python也有两套版本哈哈哈，都是python3.5）

如何可视化Attention层

在Attention层内自定义一个op，通过这个op把Attention传递到一个全局变量里。其他程序在模型预测完公式后，就可以在这个全局变量里获取到Attention。

致谢

十分感谢 Harvard 和 Guillaume Genthial 、Kelvin Xu 等人提供巨人的肩膀。

论文：

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

GoogleCloudPlatform/java-docs-samples: Java and Kotlin Code samples used on clou ...发布时间：2022-07-07

cashapp/sqldelight: SQLDelight - Generates typesafe Kotlin APIs from SQL发布时间：2022-07-07

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18341|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9705|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8195|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8563|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8474|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9415|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8446|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7877|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8429|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7405|2022-11-06

客服电话

电子邮件

LinXueyuanStdio/LaTeX_OCR: 数学公式识别 Math Formula OCR

开源软件名称（OpenSource Name）：

开源软件地址(OpenSource Url)：

开源编程语言(OpenSource Language)：

开源软件介绍(OpenSource Introduction)：

LaTeX OCR

1. 搭建环境

Linux

Mac

2. 开始训练

生成小数据集、训练、评价

生成完整数据集、训练、评价

3. 可视化

可视化训练过程

可视化预测过程

4. 评价

5. 模型的具体实现细节

总述

数据获取和数据处理

模型构建

6. 踩坑记录

win10 用 GPU 加速训练

如何可视化Attention层

致谢

请发表评论

全部评论

上一篇：

下一篇：

librespeed/speedtest: Self-hosted Speedt

Delphi 编译错误信息表

avehtari/BDA_m_demos: Bayesian Data Anal

四维彩超怎么看性别？四维看男孩女孩诀窍

medfreeman/markdown-it-toc-and-anchor: m

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053