原文:
www.kdnuggets.com/2021/09/data-engineering-technologies-2021.html
评论
由 Tech Ninja, @techninjathere 提供,开源、分析和云计算爱好者。
顶级工程技术的部分列表,图片由 KDnuggets 创建。
-
Abacus AI,企业级 AI,带有 AutoML,与 DataRobot 类似。
-
Algorithmia,企业级 MLOps。
-
Amundsen,开源的数据发现和元数据引擎。
-
Anodot,实时监控所有数据,快速检测事件。
-
Apache Arrow,因其非 JVM、内存中、列式格式和矢量化而至关重要。
-
Apache Calcite,用于构建 SQL 数据库和数据管理系统的框架,不需要拥有数据。Hive、Flink 等使用 Calcite。
-
Apache HOP,促进所有数据和元数据的调度。
-
Apache Iceberg 是用于大规模分析数据集的开放表格式。
-
Apache Pinot,实时分布式 OLAP 数据存储。其增长令人印象深刻,虽然与 Druid 相似,但并不完全相同!
-
Apache Superset,开源 BI,提供许多连接器。
-
Beam,实现可以在任何执行引擎上运行的批处理和流处理数据作业。
-
Cnvrg,企业级 MLOps。
-
Confluent,Apache Kafka 及其生态系统。
-
Dagster,机器学习的数据调度器,非常注重编程,类似于 Airflow,但强调状态流。
-
DASK,纯 Python 的数据科学。
-
DataRobot,强大的 ML 平台,专注于企业 MLOps。
-
Databricks,凭借新的 SQL 分析和湖屋论文,期待更多令人惊叹的开源软件。
-
DataFrame Whale 是一个简单的数据发现工具。
-
Dataiku,企业级 AI/MLOps 平台。
-
Delta Lake, 在 Apache Spark 上的 ACID。
-
DVC,开源版本控制系统,适用于 ML 项目,MLOps 中的理想选择。
-
Feast,开源特征存储,现在与 Tecton 一起使用。
-
Fiddler,企业级可解释 AI。
-
Fivetran,数据集成管道。
-
Getdbt 正在通过提供简化的基于 SQL 的管道来精准匹配 Apache Spark 的需求。
-
Great Expectations,数据科学测试框架,它已经非常棒了!
-
Hopswork 开源 MLOps 功能存储。
-
Hudi 将事务、记录级更新/删除和变更流带入数据湖。
-
Koalas Pandas 在 Apache Spark 上。
-
Kubeflow 项目致力于在 Kubernetes 上创建简单、可移植和可扩展的机器学习工作流。
-
lakeFS 使你可以像管理代码一样管理数据湖。运行并行管道进行实验和数据的 CI/CD。
-
maiot-ZenML 开源 MLOps 框架,具有各种功能。
-
Marquez 开源元数据工具,具有出色的用户界面。
-
Metabase 一个开源 BI 工具,具有出色的可视化效果。
-
MLFlow 一个机器学习平台。
-
Montecarlodata 数据治理、数据发现或数据可观测性。
-
Nextflow 数据驱动的计算管道,旨在生物信息学领域,但可以超越该领域。
-
Pachyderm MLOps 平台,类似于 MLFlow。
-
Papermill 使笔记本参数化,使数据科学更加令人兴奋和易于访问。
-
Prefect 旨在使工作流管理比 Apache Airflow 更加简便和高效。
-
RAPIDS 数据科学在 GPU 上。
-
Ray 分布式机器学习,现在也支持流处理。
-
Starburst 通过使分布式数据的访问更快、更容易,释放其价值。
-
Tecton 企业功能存储。
-
Trino,即 PrestoSQL,现在与 Presto 明确分离,Trino 可以专注于功能开发。
1. Google Cybersecurity Certificate - 快速进入网络安全职业轨道。
2. Google Data Analytics Professional Certificate - 提升你的数据分析技能
3. Google IT Support Professional Certificate - 支持你的组织的 IT
按字母顺序重新排序,基于此原始文献。经许可转载。
相关: