flink_book/hudi/README.md
2023-07-18 22:45:13 +08:00

1.4 KiB
Raw Blame History

Hudi 简介

Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取 服务、数据群集/压缩优化以及并发,同时保持数据以开源文件格式保留。

Hudi是Hadoop Upserts and Incrementals缩写用于管理分布式文件系统DFS上大型分析数据集存储。Hudi是一种针对分析 型业务的、扫描优化的数据存储抽象它能够使DFS数据集在分钟级的时延内支持变更也支持下游系统对这个数据集的增量 处理。

Hudi特性和功能

  1. 支持快速Upsert以及可插拔的索引。
  2. 支持原子方式操作,且支持回滚。
  3. 写入和插件操作之间的快照隔离。
  4. savepoint用户数据恢复的保存点。
  5. 使用统计信息管理文件大小和布局。
  6. 行和列的异步压缩。
  7. 具有时间线来追踪元数据血统。
  8. 通过聚类优化数据集。

Hudi 基础架构

pic

  • 支持通过Flink、Spark、Hive等工具将数据写入到数据库存储。
  • 支持 HDFS、S3、Azure、云等等作为数据湖的数据存储。
  • 支持不同查询引擎Spark、Flink、Presto、Hive、Impala、Aliyun DLA。
  • 支持 spark、flink、map-reduce 等计算引擎对 hudi 的数据进行读写操作。