• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

LinXueyuanStdio/Data-for-LaTeX_OCR: LaTeX OCR 的数据仓库

原作者: [db:作者] 来自: 网络 收藏 邀请

开源软件名称(OpenSource Name):

LinXueyuanStdio/Data-for-LaTeX_OCR

开源软件地址(OpenSource Url):

https://github.com/LinXueyuanStdio/Data-for-LaTeX_OCR

开源编程语言(OpenSource Language):


开源软件介绍(OpenSource Introduction):

LaTeX OCR 的数据仓库

本数据仓库是专为 LaTeX_OCRLaTeX_OCR_PRO 制作的数据,来源于 https://zenodo.org/record/56198#.V2p0KTXT6eA 以及 https://www.isical.ac.in/~crohme/ 以及我们自己构建。

数据集

本仓库暂时有 4 个数据集

  1. small 是小数据集,测试用
  2. full 是印刷体约 100k 的完整数据集。实际上略小于 100k,因为用 LaTeX 的抽象语法树剔除了很多不能渲染的 LaTeX。
  3. fullhand 是手写体 100k 的完整数据集。实际上略小于 100k,理由同上。
  4. hand 是手写体较小数据集,更符合人类在电子屏上的手写体。主要来源于 CROHME。我们用 LaTeX 的抽象语法树校验过了。
  5. chinese 是混有中文的数学公式数据集。基于上面的 full 数据集,通过对 LaTeX 的抽象语法树指定节点替换为中文而构建。

目录结构规范

每个数据集务必按以下结构来

small
├── formulas
│   ├── train.formulas.norm.txt 规范化后的公式,以空格为分隔符直接构造字典
│   ├── test.formulas.norm.txt
│   ├── val.formulas.norm.txt
│   └── vocab.txt 根据公式文件 XXX.formulas.norm.txt 构建的字典
├── images
│   ├── images_train 图片目录
│   ├── images_test
│   └── images_val
├── matching
│   ├── train.matching.txt 样式为 <image.png>, <formulas_id> 的匹配文件
│   ├── test.matching.txt
│   └── val.matching.txt
├── data.json
├── vocab.json
└── README.md

注意 <image.png>=='0.png', <formulas_id>=='0' 对应 XXX.formulas.norm.txt 的行号,从 0 开始




鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
mcxiaoke/RxDocs: Rx和RxJava文档中文翻译项目发布时间:2022-07-07
下一篇:
leprosus/kotlin-hashids: Kotlin hashids hash function发布时间:2022-07-07
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap