History

zeekling 4a99964dd7 添加hudi简介		2023-07-19 23:45:40 +08:00
..
README.md	添加hudi简介	2023-07-19 23:45:40 +08:00

1. Hudi 简介

Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取服务、数据群集/压缩优化以及并发，同时保持数据以开源文件格式保留。

Hudi是Hadoop Upserts and Incrementals缩写，用于管理分布式文件系统DFS上大型分析数据集存储。Hudi是一种针对分析型业务的、扫描优化的数据存储抽象，它能够使DFS数据集在分钟级的时延内支持变更，也支持下游系统对这个数据集的增量处理。

1.1 Hudi特性和功能

Apache Hudi支持在Hadoop兼容的存储之上存储大量数据，不仅可以批处理，还可以在数据湖上进行流处理。

Update/Delete 记录：Hudi 使用细粒度的文件/记录级别索引来支持 Update/Delete 记录，同时还提供写操作的事务保证。查询会处理后一个提交的快照，并基于此输出结果。
变更流：Hudi 对获取数据变更提供了的支持，可以从给定的时间点获取给定表中已 updated / inserted / deleted 的所有记录的增量流，并解锁新的查询姿势（类别）。
Apache Hudi 本身不存储数据，仅仅管理数据。
Apache Hudi 也不分析数据，需要使用计算分析引擎，查询和保存数据，比如 Spark 或 Flink；
使用 Hudi 时，加载 jar 包，底层调用 API，所以需要依据使用大数据框架版本，编译 Hudi 源码，获取对应依赖jar包。

Hudi 表的数据文件一般使用 HDFS 进行存储。从文件路径和类型来讲，Hudi表的存储文件分为两类。