ruby+nokogiri实现将天涯易读全帖转换成txt文件的功能

OGeek|极客世界-中国程序员成长平台 › 门户 › 编程›综合其他

原作者: [db:作者] 来自: [db:来源] 收藏邀请

YiduFreeTxt 0.1beta版发布

天涯易读网站原本是有提供下载全帖txt版本的功能的，但是该功能需要易读积分，这对于从来不登陆易读的笔者来说，无疑是一件不可能完成的任务。

于是随手写了个免费将易读全贴转换成txt文件的小工具，一来自娱自乐，二来献给老婆。因为老婆最近都在易读追帖，一天花掉30M的流量，让亲者痛，仇者快（好吧，我是亲者，移动是仇者）。

自从有了YiduFreeTxt，哪里要看点哪里，一键转成txt，老公再也不用担心我的流量了。

一些必要的说明

YiduFreeTxt使用ruby192开发，所以没有安装ruby的同学，或者ruby版本不符的同学可能没有办法进行试用。

YiduFreeTxt使用nokogiri库进行html的解析，请确保你的本地gem安装了nokogiri扩展。若没有，请输入命令 gem install nokogiri。

由于作者的不勤奋及时间关系，YiduFreeTxt要求大家输入天涯易读帖子url中的article id，不是直接输入url。举例来说，下面这个帖子

http://tianyayidu.com/article-a-102005.html中的102005就是该帖子的article id，使用时请注意。

关于代码

这里贴出该工具的相关代码，供有兴趣的同学研究。为什么没有一行注释？没办法，作者太懒，什么注释都没留下。

require 'rubygems'

require 'nokogiri'

require 'open-uri'

require 'logger'

class String

    def br_to_new_line

        self.gsub('<br>', "\n")

    end



    def strip_tag

        self.gsub(%r[<[^>]*>], '')

    end



end #String

module YiDu

    class UrlBuilder

        attr_reader :domain, :id, :article

        attr_reader :end_type

        def initialize id

            @domain = %q[http://tianyayidu.com/]

            @article = 'article'

            @end_type = '.html'

            @id = id.to_s

        end     



        def article_url

            @domain + @article + '-'+ id + @end_type

        end #article_url        



        def build_article_url page

            page = page.to_s

            "#{@domain}#{@article}-#{@id}-#{page+@end_type}"

        end #build_article_url      

    end #UrlBuilder



    class ContentWorker

        attr_reader :url, :doc, :retry_time

        attr_accessor :page_css, :content_css



        class << self

            def log=(log_file)

                @@log = log_file

            end #log=



            def log

                @@log

            end

        end #class



        def initialize url

            @url = url

            define_max_retry_time

            define_page_css

            define_content_css

            get_nokogiri_doc

            exit if @doc.nil?

            log_or_output_info

        end #initialize     



        def log_or_output_info

            msg = "processing #{@url}"

            if @@log

                @@log.debug msg

            else

                puts msg

            end #if

        end #log_or_output_info 



        def get_nokogiri_doc

            times = 0

            begin

                @doc = Nokogiri::HTML(open(@url).read.strip)

            rescue

                @@log.error "Can Not Open [#{@url}]" if @@log

                times += 1

                retry if(times < @retry_time)

            end #begin

        end #get_nokogiri_doc



        def define_max_retry_time

            @retry_time = 3

        end #define_max_retry_time



        def define_page_css

            @page_css = %q[div.pageNum2]

        end



        def define_content_css

            @content_css = %q[li.at.c.h2]

        end #define_content_css



        def total_page

            page = ''

            doc.css(page_css).each do |p|

                m = p.content.match(/\d+/)              

                page = m[0] if m                                

            end #each

            page.to_i

        end #total_page



        def build_content &blk

            @doc.css(@content_css).each do |li|

                if block_given?

                    blk.call(li.to_html.br_to_new_line.strip_tag)

                else

                    puts li.to_html.br_to_new_line.strip_tag

                end #if

            end #each 

        end #build_content



    end #ContentWorker



    class IoFactory

        attr_reader :file

        def self.init file

            @file = file

            if @file.nil?

                puts 'Can Not Init File To Write'

                exit

            end #if

            File.open @file, 'a'

        end     

    end #IoFactory



    class Runner        

            attr_reader :url_builder, :start_url

            attr_reader :total_page, :file_to_write



            def initialize id

                init_logger

                @url_builder = UrlBuilder.new(id)               

                get_start_url

                get_total_page

                create_file_to_write id             

                output_content

            end #initialize



            def self.go(id)

                self.new(id)

            end



            def create_file_to_write id

                file_path = File.join('.', id.to_s.concat('.txt'))

                @file_to_write = IoFactory.init(file_path)

            end #create_file_to_write



            def init_logger

                logger_file = IoFactory.init('./log.txt')

                logger = Logger.new logger_file

                ContentWorker.log = logger

            end #init_logger



            def get_start_url               

                @start_url = @url_builder.article_url

            end #get_start_url



            def get_total_page

                @total_page = ContentWorker.new(@start_url).total_page

                if @total_page.nil?

                    puts 'Can not get total page'

                    exit

                end #if

            end # get_total_page



            def output_content              

                @total_page.times do |part|

                    a_url = @url_builder.build_article_url(part+1)

                    ContentWorker.new(a_url).build_content do |c|

                        @file_to_write.puts c

                        @file_to_write.puts '*' * 40

                    end # build_content

                end #times

            end #output_content



    end #Runner

end #YiDu



include YiDu

id = 102005

Runner.go id

代码结构分析

为了帮助大家学习ruby，小弟还是画蛇添足的分析一下代码好了。

YiduFreeTxt主要由3个模块构成：UrlBuilder，ContentWorker和Runner。

UrlBuilder主要用来生成易读全贴各个分页的url及首页的url;
ContentWorker则负责使用nokogiri从html页面中拿到帖子的所有分页数和每个分页的主体内容；
Runner的作用是协调UrlBuilder和ContentWorker，使其协同工作，并将获取的内容写入文件；

代码亮点

写的很烂，没啥亮点，唯一有点成就感的就是build_content方法可以将&blk传入block，这点以前没有注意到。

版权

未经许可，也可转载。

扩展

写了个看似没啥作用的IoFactory实际上是考虑到以后的扩展性，如果需要把内容输出到pdf文件的话，那么只需要继承IoFactory,并使其返回的文件句柄响应puts方法既可，算是实现了一个丑陋的Adapter模式。

鲜花

握手

雷人

路过

鸡蛋

该文章已有0人参与评论

请发表评论

全部评论

专题导读

More+

10-27 六六分期app的软件客服如何联系？(六六分期

11-06 可心卡盟:win10系统火狐flash插件崩溃怎么

11-06 亲亲特价:怎么删除回收站图标

11-06 济南大学虚拟社区:鲁大师节能降温的具体办

11-06 xlueops.exe:无线网络安装向导

11-06 女斗合众国:win7系统cf与主机连接不稳定怎

11-06 0xc000022-[cf烟雾头]cf怎么调烟雾头

11-06 qizideyouhuo:应用程序无法正常启动0xc0000

11-06 ipz-185:win7系统vcf文件怎么打开

11-06 傻哥蹦迪:win10系统s4怎么打开usb调试

11-06 八神浩树gtaste:回收站清空了怎么恢复

11-06 妖尾之黑色守护:win10系统电脑没有1440x900

11-06 校园至尊魔王小说:win7系统浏览网页时字体

11-06 女斗合众国:win10系统访问共享文件夹提示请

11-06 tokyo hot n0654:恢复win7系统默认字体一招

11-06 雨酷仙境:设置win7系统转移临时文件夹腾出

11-06 阿穆纳伊之杖:win7系统开始菜单在右边还原

11-06 tunespotting:win10系统火狐flash插件总是

11-06 甘尔葛分析师：计谋网站seo关键词暴涨有什

11-06 蔡贵霖: 计谋网站seo关键词暴涨有什么秘密

11-06 博益网首页:ao3网页版进入不了解决方法

11-06 漏斗子专栏: 网站数据分析小白易懂精华篇

11-06 见证双虹怎么做:win7系统开启telnet命令的

11-06 颾狐蝶蜋:系统资源不足无法完成请求的服务

11-06 国光中学校歌:提交网站到alexa查询详细步骤

11-06 西安有情天:静态网页和动态网页的区别

11-06 红木雅尚斋:外部链接构造对网站的好处

11-06 前官礼遇：防止域名劫持–增强域安全性的10

11-06 密传二转答案: 中文分词算法有哪些

11-06 金泉家园邮编:百度快照劫持的表现及应对方

ruby文件从命令行中接收参数发布时间：2022-07-14

[原创]Ruby学习笔记（3）－给源代码加上行号发布时间：2022-07-14

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

2023-10-27

florent37/ViewAnimator: A fluent Android

2022-08-15

florent37/Shrine-MaterialDesign2: implem

2022-08-17

CVE-2020-36276

2022-09-23

SimpleSoftwareIO/simple-sms: Send and re

2022-08-13

阅读排行榜

1 六六分期app的软件客服如何联系？(六六分期

六六分期app的软件客服如何联系？不知道吗？加qq群【895510560】即可！标题：六六分期

阅读：18297|2023-10-27

2 可心卡盟:win10系统火狐flash插件崩溃怎么

今天小编告诉大家如何处理win10系统火狐flash插件总是崩溃的问题，可能很多用户都不知

阅读：9687|2022-11-06

3 亲亲特价:怎么删除回收站图标

今天小编告诉大家如何对win10系统删除桌面回收站图标进行设置，可能很多用户都不知道

阅读：8185|2022-11-06

4 济南大学虚拟社区:鲁大师节能降温的具体办

今天小编告诉大家如何对win10系统电脑设置节能降温的设置方法，想必大家都遇到过需要

阅读：8553|2022-11-06

5 xlueops.exe:无线网络安装向导

我们在使用xp系统的过程中,经常需要对xp系统无线网络安装向导设置进行设置，可能很多

阅读：8463|2022-11-06

6 女斗合众国:win7系统cf与主机连接不稳定怎

今天小编告诉大家如何处理win7系统玩cf老是与主机连接不稳定的问题，可能很多用户都不

阅读：9400|2022-11-06

7 0xc000022-[cf烟雾头]cf怎么调烟雾头

电脑对日常生活的重要性小编就不多说了，可是一旦碰到win7系统设置cf烟雾头的问题，很

阅读：8435|2022-11-06

8 qizideyouhuo:应用程序无法正常启动0xc0000

我们在日常使用电脑的时候，有的小伙伴们可能在打开应用的时候会遇见提示应用程序无法

阅读：7869|2022-11-06

9 ipz-185:win7系统vcf文件怎么打开

今天小编告诉大家如何对win7系统打开vcf文件进行设置，可能很多用户都不知道怎么对win

阅读：8419|2022-11-06

10 傻哥蹦迪:win10系统s4怎么打开usb调试

今天小编告诉大家如何对win10系统s4开启USB调试模式进行设置，可能很多用户都不知道怎

阅读：7398|2022-11-06

客服电话

电子邮件

ruby+nokogiri实现将天涯易读全帖转换成txt文件的功能

YiduFreeTxt 0.1beta版发布

一些必要的说明

关于代码

代码结构分析

代码亮点

版权

扩展

请发表评论

全部评论

上一篇：

下一篇：

Delphi程序结构

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

win7系统重装系统初始设置的操作方法

これがマストドンだ！使い方からインスタ

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053

客服电话

电子邮件

ruby+nokogiri实现将天涯易读全帖转换成txt文件的功能

YiduFreeTxt 0.1beta版发布

一些必要的说明

关于代码

代码结构分析

代码亮点

版权

扩展

请发表评论

全部评论

上一篇：

下一篇：

Delphi程序结构

solegalli/feature-selection-for-machine-

tianli/matlab_offscreen: Matlab offscree

win7系统重装系统初始设置的操作方法

これがマストドンだ！ 使い方からインスタ

剪的笔顺,诠释剪的笔画,认识剪的部首

六六分期app的软件客服如何联系？(六六分期

florent37/ViewAnimator: A fluent Android

florent37/Shrine-MaterialDesign2: implem

CVE-2020-36276

SimpleSoftwareIO/simple-sms: Send and re

关于我们

产品与服务

解决方案

139-2527-9053

これがマストドンだ！使い方からインスタ