在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称(OpenSource Name):LinXueyuanStdio/LaTeX_OCR_PRO开源软件地址(OpenSource Url):https://github.com/LinXueyuanStdio/LaTeX_OCR_PRO开源编程语言(OpenSource Language):Jupyter Notebook 53.2%开源软件介绍(OpenSource Introduction):LaTeX_OCR_PRO数学公式识别,增强:中文公式、手写公式 Seq2Seq + Attention + Beam Search。结构如下: 1. 搭建环境
如果你想直接训练,不想自己构建数据集:
如果你想自己构建数据集,然后再训练:Linux一键安装 make install-linux 或
virtualenv env35 --python=python3.5
source env35/bin/activate
pip install -r requirements.txt
sudo apt-get install texlive-latex-base
sudo apt-get install texlive-latex-extra
sudo apt-get update
sudo apt-get install ghostscript
sudo apt-get install libgs-dev
wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*; \
./configure --with-gslib=yes; \
make; \
sudo make install; \
sudo ldconfig /usr/local/lib
rm ImageMagick.tar.gz
rm -r ImageMagick-7.* Mac一键安装 make install-mac 或
sudo pip install -r requirements.txt
我们需要 pdflatex,可以傻瓜式一键安装:http://www.tug.org/mactex/mactex-download.html
wget http://www.imagemagick.org/download/ImageMagick.tar.gz
tar -xvf ImageMagick.tar.gz
cd ImageMagick-7.*; \
./configure --with-gslib=yes; \
make;\
sudo make install; \
rm ImageMagick.tar.gz
rm -r ImageMagick-7.* 2. 开始训练生成小数据集、训练、评价提供了样本量为 100 的小数据集,方便测试。只需 2 分钟就可以根据
一步训练
或
生成完整数据集、训练、评价根据公式生成 70,000+ 数学公式图片需要 一步训练
或
3. 可视化可视化训练过程用 tensorboard 可视化训练过程 小数据集
完整数据集
可视化预测过程打开 或者运行 # 默认
python visualize_attention.py
# 或者
python visualize_attention.py --image=data/images_test/6.png --vocab=configs/vocab.json --model=configs/model.json --output=results/full/ 可在 4. 部署部署为 Django 应用
5. 评价
perplexity 是越接近1越好,其余3个指标是越大越好。 其中 EditDistance 和 BLEU-4 已达到业内先进水平 将 perplexity 训练到 1.03 左右,ExactMatchScore 还可以再升,应该可以到 70 以上。 机器不太好,训练太费时间了。 6. 更多细节7. 致谢十分感谢 Harvard 和 Guillaume Genthial 、Kelvin Xu 等人提供巨人的肩膀。 论文: 8. 相关项目LaTeX_OCR 的 PyTorch 版: https://github.com/qs956/Latex_OCR_Pytorch by @qs956 |
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13
请发表评论