在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:brianway/webporter开源软件地址:https://github.com/brianway/webporter开源编程语言:Java 68.8%开源软件介绍:webporterwebporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。 webporter 寓意“我们不生产数据,我们只是互联网的搬运工~” 如果觉得不错,请先在这个仓库上点个 star 吧,这也是对我的肯定和鼓励,谢谢了。 目前只提供了知乎用户数据的爬虫示例。不定时进行调整和补充,需要关注更新的请 watch、star、fork webporter 的主要特色:
注意:webporter 不是爬虫框架,而是如何使用爬虫框架进行实战的样例,偏休闲性质,不建议使用在生产环境。 生产环境建议使用 webmagic 或者 scrapy webporter 核心模块的架构和设计主要参考了 webmagic https://github.com/code4craft/webmagic webporter 的 github 地址:https://github.com/brianway/webporter 效果展示详细的数据分析文章请看我的博客 《爬取知乎60万用户信息之后的简单分析》
仓库目录
环境要求
新手可参考我的博客 《Elasticsearch 5.0-安装使用》快速上手 Elasticsearch+Kibana 快速开始以爬取知乎用户数据为例 1.定制配置文件 配置文件位于 {
"site": {
"domain": "www.zhihu.com",
"headers": {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36",
"authorization": "Your own authorization here."
},
"retryTimes": 3,
"sleepTime": 500
},
"base_dir": "/Users/brian/todo/data/zhihu/"
} 仅需要修改两处:
配完就可以直接使用了。更多关于 2.启动爬虫 依次运行
3.可视化 安装好 Elasticsearch 和 Kibana 后,在 Kibana 中使用 Visualize 对数据可视化即可 赞助如果您觉得该项目对您有帮助,请扫描下方二维码对我进行鼓励,以便我更好的维护和更新,谢谢支持! TODO
联系作者Email: [email protected] LisenceLisenced under Apache 2.0 lisence |
2023-10-27
2022-08-15
2022-08-17
2022-09-23
2022-08-13
请发表评论