Skip to content

数据集成任务

wangqi edited this page Jul 11, 2022 · 1 revision

数据集成任务

scaleph 的愿景是围绕 Flink 搭建一个开放的数据平台。

connector

SeaTunnel 作为下一代、海量数据同步框架,依托 Flink 优秀的生产特性,将具有非常亮眼的表现:

  • 分布式、资源扩展
  • 低延迟、高吞吐
  • 以异步轻量级快照算法实现的 Exactly-once 语义,可以支持数据同步任务停止、暂停、重启、更新、容错重试等操作
  • metrics
  • 天然融入大数据生态

目前 SeaTunnel 实现的 connector 多是以 flink 官方仓库 ETL 需求提供的 connector,而专门为数据同步开发的 connector 如 flink-cdc 尚未集成进 SeaTunnel。

除了使用 SeaTunnel 提供的 connector 外,新增 connector 时,可以考虑以 native flink 的方式开发 connector。

SeaTunnel connector 扩展

  • connector 镜像环境。提供开箱即用的 mysql、kafka、es、clickhouse 等容器环境
  • 持续扩展 connector 到拖拉拽 web 页面。

Native flink connector

  • jdbc-connector 功能重构。以 native flink 的方式重构 jdbc-connector,实现根据时间戳实时同步的功能,增加 upsert 语义
  • http-connector 实现。以 flink 同步 http 数据。

Flinkx 支持

SeaTunnel 目前基于 flink 实现的 connector 功能和数量都远不及基于 spark 实现的 connector,考虑引入 Flinkx 作为新的数据集成框架