• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

Java FileCacheQueueScheduler类代码示例

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

本文整理汇总了Java中us.codecraft.webmagic.scheduler.FileCacheQueueScheduler的典型用法代码示例。如果您正苦于以下问题:Java FileCacheQueueScheduler类的具体用法?Java FileCacheQueueScheduler怎么用?Java FileCacheQueueScheduler使用的例子?那么恭喜您, 这里精选的类代码示例或许可以为您提供帮助。



FileCacheQueueScheduler类属于us.codecraft.webmagic.scheduler包,在下文中一共展示了FileCacheQueueScheduler类的10个代码示例,这些例子默认根据受欢迎程度排序。您可以为喜欢或者感觉有用的代码点赞,您的评价将有助于我们的系统推荐出更棒的Java代码示例。

示例1: test

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
@Test
public void test() throws Exception {
    Spider.create(new MySqlPageProcessor(htmlService))
            .scheduler(new FileCacheQueueScheduler("F:\\webmagic\\cache\\"))
            .addUrl("http://www.cnblogs.com/")
            .addPipeline(new MySqlPipeline(htmlService))
            .thread(10)
            .run();
}
 
开发者ID:Lzw2016,项目名称:study,代码行数:10,代码来源:HtmlTest.java


示例2: main

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
public static void main(String[] args) throws FileNotFoundException, UnsupportedEncodingException {
    Spider.create(new MamacnPageProcessor())
            .setScheduler(new FileCacheQueueScheduler("/data/webmagic/mamacn"))
            .addUrl("http://www.mama.cn/photo/t1-p1.html")
            .addPipeline(new OneFilePipeline("/data/webmagic/mamacn/data"))
            .thread(5)
            .run();
}
 
开发者ID:mikeqian,项目名称:house,代码行数:9,代码来源:MamacnPageProcessor.java


示例3: main

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
public static void main(String[] args) {

        Spider.create(new GithubRepoPageProcessor())
                //从"https://github.com/code4craft"开始抓
                .addUrl("https://github.com/code4craft")
                .scheduler(new FileCacheQueueScheduler("K:\\data\\webmagic"))
                .addPipeline(new FilePipeline())
                //开启5个线程抓取
                .thread(5)
                //启动爬虫
                .run();
    }
 
开发者ID:lawlite19,项目名称:SmartEducation,代码行数:13,代码来源:GithubRepoPageProcessor.java


示例4: test

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
@Ignore
@Test
public void test() throws IOException {
    DiaoyuwengProcessor diaoyuwengProcessor = new DiaoyuwengProcessor();
    JsonFilePipeline pipeline = new JsonFilePipeline("/data/webmagic/");
    Spider.create(diaoyuwengProcessor).pipeline(new FilePipeline()).pipeline(pipeline).scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).
            run();
}
 
开发者ID:yuany,项目名称:en-webmagic,代码行数:9,代码来源:DiaoyuwengProcessorTest.java


示例5: test

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
@Ignore
@Test
public void test() throws IOException {
    SinaBlogProcesser sinaBlogProcesser = new SinaBlogProcesser();
    //pipeline是抓取结束后的处理
    //默认放到/data/webmagic/ftl/[domain]目录下
    JsonFilePipeline pipeline = new JsonFilePipeline("/data/webmagic/");
    //Spider.me()是简化写法,其实就是new一个啦
    //Spider.pipeline()设定一个pipeline,支持链式调用
    //ConsolePipeline输出结果到控制台
    //FileCacheQueueSchedular保存url,支持断点续传,临时文件输出到/data/temp/webmagic/cache目录
    //Spider.run()执行
    Spider.create(sinaBlogProcesser).pipeline(new FilePipeline()).pipeline(pipeline).scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).
            run();
}
 
开发者ID:yuany,项目名称:en-webmagic,代码行数:16,代码来源:SinablogProcessorTest.java


示例6: testGlobalSpider

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
@Ignore
    @Test
    public void testGlobalSpider(){
//        PageProcessor pageProcessor = new MeicanProcessor();
//        Spider.me().pipeline(new FilePipeline()).scheduler(new FileCacheQueueScheduler(pageProcessor.getSite(),"/data/temp/webmagic/cache/")).
//                processor(pageProcessor).run();
        SimplePageProcessor pageProcessor2 = new SimplePageProcessor("http://www.diaoyuweng.com/home.php?mod=space&uid=88304&do=thread&view=me&type=thread&from=space", "http://www.diaoyuweng.com/thread-*-1-1.html");
        System.out.println(pageProcessor2.getSite().getCharset());
        pageProcessor2.getSite().setSleepTime(500);
        Spider.create(pageProcessor2).pipeline(new FilePipeline()).scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).
                run();


    }
 
开发者ID:yuany,项目名称:en-webmagic,代码行数:15,代码来源:SpiderTest.java


示例7: test

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
@Ignore
@Test
public void test() throws IOException {
    SinaBlogProcessor sinaBlogProcessor = new SinaBlogProcessor();
    //pipeline是抓取结束后的处理
    //默认放到/data/webmagic/ftl/[domain]目录下
    JsonFilePipeline pipeline = new JsonFilePipeline("/data/webmagic/");
    //Spider.me()是简化写法,其实就是new一个啦
    //Spider.pipeline()设定一个pipeline,支持链式调用
    //ConsolePipeline输出结果到控制台
    //FileCacheQueueSchedular保存url,支持断点续传,临时文件输出到/data/temp/webmagic/cache目录
    //Spider.run()执行
    Spider.create(sinaBlogProcessor).pipeline(new FilePipeline()).pipeline(pipeline).scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).
            run();
}
 
开发者ID:code4craft,项目名称:webmagic,代码行数:16,代码来源:SinablogProcessorTest.java


示例8: testGlobalSpider

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
@Ignore
    @Test
    public void testGlobalSpider(){
//        PageProcessor pageProcessor = new MeicanProcessor();
//        Spider.me().pipeline(new FilePipeline()).scheduler(new FileCacheQueueScheduler(pageProcessor.getSite(),"/data/temp/webmagic/cache/")).
//                processor(pageProcessor).run();
        SimplePageProcessor pageProcessor2 = new SimplePageProcessor( "http://www.diaoyuweng.com/thread-*-1-1.html");
        System.out.println(pageProcessor2.getSite().getCharset());
        pageProcessor2.getSite().setSleepTime(500);
        Spider.create(pageProcessor2).addUrl("http://www.diaoyuweng.com/home.php?mod=space&uid=88304&do=thread&view=me&type=thread&from=space").addPipeline(new FilePipeline()).scheduler(new FileCacheQueueScheduler("/data/temp/webmagic/cache/")).
                run();


    }
 
开发者ID:code4craft,项目名称:webmagic,代码行数:15,代码来源:SpiderTest.java


示例9: main

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
public static void main(String[] args) {
    OOSpider.create(Site.me().addStartUrl("https://github.com/explore").setSleepTime(0).setRetryTimes(3),
            new JsonFilePageModelPipeline(), GithubRepo.class)
            .scheduler(new FileCacheQueueScheduler("/data/webmagic/cache/")).thread(15).run();
}
 
开发者ID:mikeqian,项目名称:house,代码行数:6,代码来源:GithubRepo.java


示例10: main

import us.codecraft.webmagic.scheduler.FileCacheQueueScheduler; //导入依赖的package包/类
public static void main(String[] args) {
    OOSpider.create(Site.me().setSleepTime(0).setRetryTimes(3),
            new JsonFilePageModelPipeline(), GithubRepo.class)
            .addUrl("https://github.com/explore")
            .setScheduler(new FileCacheQueueScheduler("/data/webmagic/cache/")).thread(15).run();
}
 
开发者ID:code4craft,项目名称:webmagic,代码行数:7,代码来源:GithubRepo.java



注:本文中的us.codecraft.webmagic.scheduler.FileCacheQueueScheduler类示例整理自Github/MSDocs等源码及文档管理平台,相关代码片段筛选自各路编程大神贡献的开源项目,源码版权归原作者所有,传播和使用请参考对应项目的License;未经允许,请勿转载。


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
Java KernelContext类代码示例发布时间:2022-05-22
下一篇:
Java VirtualMachineSnapshotInfo类代码示例发布时间:2022-05-22
热门推荐
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap