这几天一直在处理各种pdf文档,对于那些可以从pdf中复制出来的文字,我都是先手动把文字从pdf中复制出来,然后再用程序处理他的格式以及相关信息,但是一个程序员怎能采取如此笨的方法呢,今天无意间发现ruby有一个yomu的它可以从这些文档中华获取文字,格式很乱,还需要后期的处理,下面就来看看yomu如何从这些文档中获取文字。
- 从给定的文件名中来读取文字(用的最多的方式)
requier "yomu"
yomu = Yomu.new \'sample.pages\'
text = yomu.text
- 从url中获取文字(这个我还没有试过)
require "yomu"
yomu = Yomu.new \'http://svn.apache.org/repos/asf/poi/trunk/test-data/document/sample.docx\'
text = yomu.text
官方文档说的是必须要有一个可以运行的jre,里面有一些是java的包,需要jre才可以运行
以上这些都是我浅略的理解,后续还会更新,欢迎指正
请发表评论