Skip to content

Latest commit

 

History

History
139 lines (70 loc) · 6.97 KB

data-engineering-technologies-2021.md

File metadata and controls

139 lines (70 loc) · 6.97 KB

数据工程技术 2021

原文:www.kdnuggets.com/2021/09/data-engineering-technologies-2021.html

评论

Tech Ninja, @techninjathere 提供,开源、分析和云计算爱好者

顶级数据工程技术

顶级工程技术的部分列表,图片由 KDnuggets 创建。

完整策划的数据工程新兴技术列表

  • Abacus AI,企业级 AI,带有 AutoML,与 DataRobot 类似。

  • Algorithmia,企业级 MLOps。

  • Amundsen,开源的数据发现和元数据引擎。

  • Anodot,实时监控所有数据,快速检测事件。

  • Apache Arrow,因其非 JVM、内存中、列式格式和矢量化而至关重要。

  • Apache Calcite,用于构建 SQL 数据库和数据管理系统的框架,不需要拥有数据。Hive、Flink 等使用 Calcite。

  • Apache HOP,促进所有数据和元数据的调度。

  • Apache Iceberg 是用于大规模分析数据集的开放表格式。

  • Apache Pinot,实时分布式 OLAP 数据存储。其增长令人印象深刻,虽然与 Druid 相似,但并不完全相同!

  • Apache Superset,开源 BI,提供许多连接器。

  • Beam,实现可以在任何执行引擎上运行的批处理和流处理数据作业。

  • Cnvrg,企业级 MLOps。

  • Confluent,Apache Kafka 及其生态系统。

  • Dagster,机器学习的数据调度器,非常注重编程,类似于 Airflow,但强调状态流。

  • DASK,纯 Python 的数据科学。

  • DataRobot,强大的 ML 平台,专注于企业 MLOps。

  • Databricks,凭借新的 SQL 分析和湖屋论文,期待更多令人惊叹的开源软件。

  • DataFrame Whale 是一个简单的数据发现工具。

  • Dataiku,企业级 AI/MLOps 平台。

  • Delta Lake, 在 Apache Spark 上的 ACID。

  • DVC,开源版本控制系统,适用于 ML 项目,MLOps 中的理想选择。

  • Feast,开源特征存储,现在与 Tecton 一起使用。

  • Fiddler,企业级可解释 AI。

  • Fivetran,数据集成管道。

  • Getdbt 正在通过提供简化的基于 SQL 的管道来精准匹配 Apache Spark 的需求。

  • Great Expectations,数据科学测试框架,它已经非常棒了!

  • Hopswork 开源 MLOps 功能存储。

  • Hudi 将事务、记录级更新/删除和变更流带入数据湖。

  • Koalas Pandas 在 Apache Spark 上。

  • Kubeflow 项目致力于在 Kubernetes 上创建简单、可移植和可扩展的机器学习工作流。

  • lakeFS 使你可以像管理代码一样管理数据湖。运行并行管道进行实验和数据的 CI/CD。

  • maiot-ZenML 开源 MLOps 框架,具有各种功能。

  • Marquez 开源元数据工具,具有出色的用户界面。

  • Metabase 一个开源 BI 工具,具有出色的可视化效果。

  • MLFlow 一个机器学习平台。

  • Montecarlodata 数据治理、数据发现或数据可观测性。

  • Nextflow 数据驱动的计算管道,旨在生物信息学领域,但可以超越该领域。

  • Pachyderm MLOps 平台,类似于 MLFlow。

  • Papermill 使笔记本参数化,使数据科学更加令人兴奋和易于访问。

  • Prefect 旨在使工作流管理比 Apache Airflow 更加简便和高效。

  • RAPIDS 数据科学在 GPU 上。

  • Ray 分布式机器学习,现在也支持流处理。

  • Starburst 通过使分布式数据的访问更快、更容易,释放其价值。

  • Tecton 企业功能存储。

  • Trino,即 PrestoSQL,现在与 Presto 明确分离,Trino 可以专注于功能开发。


我们的前三个课程推荐

1. Google Cybersecurity Certificate - 快速进入网络安全职业轨道。

2. Google Data Analytics Professional Certificate - 提升你的数据分析技能

3. Google IT Support Professional Certificate - 支持你的组织的 IT


按字母顺序重新排序,基于此原始文献。经许可转载。

相关:

更多相关话题