添加hudi简介

2023-07-18 00:06:49 +08:00 · 2023-07-18 00:06:49 +08:00 · d559c9fea3
commit d559c9fea3
parent 3227b84781
1 changed files with 19 additions and 1 deletions
--- a/hudi/README.md
+++ b/hudi/README.md
@ -1,4 +1,22 @@
-# Hudi 相关知识学习
+# Hudi 简介
 Apache Hudi将核心仓库和数据库功能直接带到数据湖中。Hudi提供了表、事务、高效upserts/删除、高级索引、流式摄取
 服务、数据群集/压缩优化以及并发，同时保持数据以开源文件格式保留。
 Hudi是`Hadoop Upserts and Incrementals`缩写，用于管理分布式文件系统DFS上大型分析数据集存储。Hudi是一种针对分析
 型业务的、扫描优化的数据存储抽象，它能够使DFS数据集在分钟级的时延内支持变更，也支持下游系统对这个数据集的增量
 处理。
 ## Hudi特性和功能
 1. 支持快速Upsert以及可插拔的索引。
 2. 支持原子方式操作，且支持回滚。
 3. 写入和插件操作之间的快照隔离。
 4. savepoint用户数据恢复的保存点。
 5. 使用统计信息管理文件大小和布局。
 6. 行和列的异步压缩。
 7. 具有时间线来追踪元数据血统。
 8. 通过聚类优化数据集。