ruby获取网页链接，下载excel文件

原作者: [db:作者] 来自: [db:来源] 收藏邀请

ruby获取网页链接，下载excel文件

需求：

获取http://123.57.212.98/html/tm/29/38/68/68.html网站的历届詹天佑奖的excel名单，并且把excel格式转换为csv格式。

第一步 ：首先获取到此页面所有的excel表个文件的连接，并且下载到本地，思路是用一个队列来放符合要求的所有链接，从队头取出链接，根据这个链接得到一个新的页面page，再解析此page，把此页面的所有有用的链接放入如队列。直到队列为空。（这里有用的链接是能够到达可以获取excel文件的页面）

require "yomu"
require "mechanize"
require "open-uri"

$queue=[]
$queueFile=[]
$queue.push({"zhantianyou" => 'http://123.57.212.98/html/tm/29/38/68/68.html'})
=begin 
    下载所有文件的思路：
    有一个入口的URl，和一个队列，队列中最开始只有一个此入口url，
    根据这个url，获取此页面的所有链接，把链接放到队列中，同时过滤出来 需要的表格url，把表格url保存下来。
    
=end
    
    
    # queue对列中放的是一个 {网页标题 => 网页url } 的散列
while !$queue.empty?
    url=""
    $queue.shift.each_value do |value|
        url=value
    end
   begin
    page=Mechanize.new.get(url)
   rescue 
       puts "---------------------->>>>  #{url} 不能访问"
   end
   
    page.links.each do |link|
        if link.text.include?('.xls')# 将有用的表格url存起来
            puts link.text
            $queueFile.push({link.text => link.href})
        elsif link.text.include?('詹天佑奖获奖工程及获奖单位名单') || link.text.include?('下一页')# 有用的链接放到队列中，便于下一次访问
            #puts link.text
            $queue.push({link.text=>link.href})
        end
    end
end

# 根据 url 下载到本地
while !$queueFile.empty?
    url=$queueFile.shift
    url.each do |key,value|
        puts key
        File.open('./'+key,"w") do |io|
            io.puts(open(value).read)
        end
    end
end

第二步： excel文件可以直接另存为csv文件，但是格式不是太好，并且会莫名奇妙的少一些数据，后来发现还可以把excel文件另存为html 文件，这样试了试，发现转成的html文件的格式很好，数据也没有错误，非常适合提取有用的信息。看下面的代码

require "yomu"
require "nokogiri"
def getContent(page,dir,io)
    puts dir
    # 得到历届詹天佑奖的时间
    dir =~ /第.+?届/
    title = $&
    dir =~ /[0-9][0-9][0-9][0-9]年度/
    title1=$&
    if title1==nil
        title1=""
    end

    title+=title1
    line=[]
    temp=""
    i=0
    # 获取含符合规范的td，  下面xpath的意思： 匹配含有rowspan 属性的td，或者 不含rowspan 以及 不含colspan 属性的td
    # 为了展现xpath not 的用法，下面的语句有些多余
    page.xpath("//td[ @rowspan or not(@rowspan or @colspan) ]").each do |td|
        # 去掉一些不需要的内容，如表头，
        if td.content =~ /[0-9]$/ || !td.to_s.include?('x:str') || td.content =~ /序号|工程名称|参建单位|编号/
            next
        end
        if td.to_s.include?('rowspan')# 代表着一行开始了
            temp.slice!(-1)# 删除最后一个顿号
            temp.gsub!(/[0-9]-/,"")# 剔除多余的字符
            i+=1
            if i>1# i==1 代表着此表的第一行，由于同一列分布在多行，只有处理到下一行的开始部分才把这一行的数据写入文件，所以i==1时，第一行的数据还没有结束，不能写入文件
                io.puts(temp+","+title.to_s)# 将此行写入文件
                puts "#{i}   #{temp},#{title.to_s}"
            end
            temp=""
            temp <<td.content+","
        else
            temp<<td.content+"、"# 把分布在多行的列连接成一行
        end
    end
    # 处理最后一行数据
    temp.slice!(-1)
    temp.gsub!(/[0-9]-/,"")
    io.puts(temp+","+title.to_s)# 把最后一行的数据写入文件
    puts "#{i+1}   #{temp},#{title.to_s}"
end

io=File.open("./詹天佑奖.csv","w+")# 准备写入数据的文件
io.puts("工程名称,参建单位,时间")# th
Dir.open("./詹天佑/詹天佑html/").each do |dir|# 遍历此文件夹下的所有文件
    if dir=="."||dir==".."# 过滤本目录和上级目录
        next
    end
    f=File.open('./詹天佑/詹天佑html/'+dir)
    page=Nokogiri::HTML(f)
    getContent(page,dir,io)
    f.close
end
io.close

总结：

以前需要把excel表格文件转换为csv文件时，都是直接把excel文件另存为csv文件，最后再处理格式，

其实转换为html文件更方便处理一些。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

搭建ruby on rails(3.1)之安装gem mysql2发布时间：2022-07-14

RubyOnRailsHowtodo文章汇总发布时间：2022-07-14

剪的笔顺,诠释剪的笔画,认识剪的部首

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18297|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9687|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8185|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8553|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8463|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9400|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8435|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7869|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8419|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7398|2022-11-06

客服电话

电子邮件

ruby获取网页链接，下载excel文件