瑞蚨金服决策引擎实时计算系统
2021-1-19 23:58 更新
1、科技部门通过外部接口调取三方数据,并将三方数据格式化为标准 Json 推送至 Kafka,Kafka 的 key 值为 进件号|三方类型|接口类型(Input),Kafka 的 value 为调取三方 Json。 2、使用 Spark Streaming 接入 Kafka 实时数据流,创建 Mysql 连接池,从 Mysql 读取偏移量从 Kafka 获取数据。 3、定义生产标准 Json 并将标准 Json 设置为广播变量。 4、将 Kafka 拉取到的数据进行 Filter,筛选出当前 Spark Streaming 程序所需的 Json。将 Filter 处理后 的数据与广播变量 Json 进行 Union,进行持久化 Persist(MEMORY_AND_DISK)。 5、根据 RowNumber 按进件号、时间戳进行排序,取出最近一条推送数据。 6、通过 Read.Json 根据 Json 创建 DataSet 并通过 Spark Sql 进行模型衍生变量开发获取最终结果集 DataFrame。 7、定义 Hbase 衍生变量 CataLog,调用 org.apache.spark.sql.exeution.datasource.hbase 将衍生变 量存入 Hbase。 8、将衍生变量封装为 Json 推送至 Kafka,Kafka 的 key 为 进件号|三方类型|接口类型(Output)。 9、将持久化 Json 进行清除并将偏移量保存在 Mysql 中。