• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

ruby--获取网站中的产品链接

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

ruby写的脚本运行更快,决定使用ruby来弄。

相比和我一样做电商网站的都有机会用到:获取某个页面中的所有URL

下面脚本另存为:URLScan.rb,用法:通过cmd命令,进入该脚本路径执行ruby URLScan.rb url

脚本中data.scan()可以放入你想要在对应页面查找的其他正则表达式,如data.scan(/<a href="(.*?)">/) ,即所有的URL

下面例子中时获取所有的产品链接

URLScan.rb
require 'net/http'
filename= File.new('c:\1.txt',"w+")
if $*[0]==nil
puts "Not URL, Please for: ruby URLScan.rb www.gaopeng.com"
else
h = Net::HTTP.new($*[0], 80)
resp, data = h.post('http://www.gaopeng.com/', nil) #获取要获取所有URL的页面的标记比如 :/index.html
if resp.message == "OK"
data.scan(/<a target="_blank" href="(.*?)"/).each do |x| #获取所有标记为href的URL
#<a target="_blank" href="http://www.gaopeng.com/deals/beijing/ftuan/1431948203">
puts x
filename.puts x
end
end
end 

这里使用的http.rb中的post方法,get方法的有报错,所有就没有用get()。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
ruby中双引号与单引号的区别发布时间:2022-07-14
下一篇:
Ruby快速入门(四):类和模块发布时间:2022-07-14
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap