简介
Delta Lake是由Databricks 公司开源的一个开源存储层,为数据湖带来了可靠性。Delta Lake提供了ACID事务、可伸缩的元数据处理以及统一的流和批数据处理。Delta Lake运行在现有数据湖之上,与Apache Spark api完全兼容。

特性
- Spark上的ACID事务:可序列化的隔离级别确保读者永远不会看到不一致的数据。
- 可伸缩的元数据处理:利用Spark的分布式处理能力,轻松处理PB级表的所有元数据和数十亿个文件。
- 批流统一:Delta Lake既可以批处理也可以流式处理,流数据摄取,批量历史回填,交互式查询都是开箱即用的。
- Schema Enforcement:Delta Lake提供了指定和实施模式的能力。这有助于确保数据类型是正确的,并且出现了所需的列,从而防止坏数据导致数据损坏。
- Schema Evolution:大数据在不断变化。Delta Lake使您能够对可自动应用的表模式进行更改,而不需要繁琐的DDL。
- 审计历史:Delta Lake事务日志详细记录了对数据所做的每个更改,提供了对这些更改的完整审计跟踪。
- 版本控制: 数据版本控制支持回滚、完整的历史审计跟踪和可重复的机器学习实验。
- 更新插入和删除:支持合并、更新和删除操作,以支持复杂的用例,如更改数据捕获、缓慢更改维度(SCD)操作、流更新等等。
- 完全兼容Spark API:开发人员可以将Delta Lake与他们现有的数据管道一起使用,只需要做很少的更改,因为它与常用的大数据处理引擎Spark完全兼容
相关导航
暂无评论...