在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
开源软件名称:DataService-Framework开源软件地址:https://gitee.com/hy-wux/DataService-Framework开源软件介绍:DataService-Framework项目介绍基于大数据平台的数据处理服务框架。 软件架构软件结构如下: DataService-Framework 项目根目录├── commons 公共功能模块,提供配置文件读取、数据库连接、日志打印、工具类等公共功能,以供其他模块调用。 ├── examples 样例模块,提供各个功能点的样例代码。 ├── kafka-clients KafkaClients相关功能,比如生产者、消费者等。├── kafka-streams 主题数据过滤模块,Kafka自带的流处理功能,业务系统记录的日志如果包含了大量的:程序异常日志、数据库操作日志、调试日志等日志信息,而采集的数据只需要日志文件中的特定数据的日志记录,那么对于我们采集到的日志来说,可能会有90%以上的日志都是垃圾数据,但是Flume组件没有提供日志过滤功能,而Spark程序又不应该消费这些数据。这时就需要提供一个中间层,将Flume采集到的Topic1的日志中满足条件的数据筛选出来放到Topic2中,Spark程序只需要消费Topic2的数据即可,过滤条件按照正则表达式进行配置。这样Spark消费Topic2的数据都是我们需要的数据,并且我们可以及时的清理掉Topic1的数据以释放空间。├── rule-engine 规则引擎功能。├── spark-sql SparkSQL相关功能,扩展了Dataset/DataFrame的方法,集成Redis数据的读写、MongoDB数据的读写。 ├── spark-streaming SparkStreaming实时数据处理模块,通过SparkStreaming程序,准实时消费Kafka中的数据,流式方式处理MongoDB中的数据。└── third-party 第三方源码 ├── hammurabi Scala规则引擎 ├── mongodb Spark操作MongoDB └── redislabs Spark操作Redis 功能扩展目前,软件实现了Flume数据采集、Kafka主题数据过滤、SparkStreaming实时数据处理。但是SparkStreaming的数据处理只实现了代码值标准化等基础功能。并且,目前默认支持的采集日志格式只有两种:分隔符分隔字段的数据、JSON格式的数据。
使用说明数据端配置工具:数据端配置工具.xlsx 安装教程
参与贡献
码云特技
|
请发表评论