Skip to content

Latest commit

 

History

History
141 lines (71 loc) · 9.13 KB

10-modern-data-engineering-tools.md

File metadata and controls

141 lines (71 loc) · 9.13 KB

10 种现代数据工程工具

原文:www.kdnuggets.com/2022/07/10-modern-data-engineering-tools.html

10 Modern Data Engineering Tools

图片由作者提供

dbt


我们的前三名课程推荐

1. Google Cybersecurity Certificate - 快速进入网络安全职业生涯。

2. Google Data Analytics Professional Certificate - 提升你的数据分析技能

3. Google IT Support Professional Certificate - 支持你组织的 IT


dbt

dbt 允许数据工程师使用 SQL 在仓库中建模和转换数据。它负责 ETL 的转换部分。

你可以使用 SQL 选择命令开发模型,进行测试、文档编写,并在安全的开发环境中部署。dbt 促进了 Git 支持的版本控制和团队协作。

按照 Intro to Data Build Tool (dbt) 教程创建你的第一个 dbt 项目。

Airflow

Airflow

Apache Airflow 是一个平台,允许数据工程师创建、调度和监控工作流。工作流可以是复杂的数据管道,由有向无环图(DAGs)任务组成。Airflow 会确保每个作业在特定时间以正确的顺序执行,并获得所需的资源。你还可以通过图形用户界面(GUI)监控和解决问题。

通过参加 Airflow 初学者课程 了解更多关于 Airflow 的信息。

Snowflake

Snowflake

Snowflake 是一个企业级云数据仓库。它允许数据工程师存储数据并执行分析任务,如 ETL。它会自动调整资源的规模,以优化成本而不牺牲性能。

Snowflake 包括托管基础设施、可扩展性、自动集群,并与 JavaScript、Python 和 R 等著名编程语言集成。它具有三层架构:数据库存储、查询处理和云服务。

通过在 YouTube 上观看 简单教程 了解更多关于 Snowflake 的信息。

BigQuery

BigQuery

BigQuery 是一个无服务器的云数据仓库,专为大数据集设计。在 BigQuery 中构建数据湖变得简单、快速且成本效益高。与 Data Studio 的集成允许数据工程师快速简单地可视化处理后的数据表。它包括 BigQuery ML地理空间分析BigQuery BI 引擎连接的 Google Sheets

BigQuey 允许你运行 PB 级别的 SQL 分析查询,以获得关键的商业洞察。

通过关注 Google Big Query 在 YouTube 上的教程来了解更多关于 BigQuey 的信息。

Metabase

Metabase

Metabase 是一个开源 BI(商业智能)工具,可以让你的团队提问并从数据中学习。你可以运行复杂的 SQL 查询,构建交互式仪表板,创建数据模型,设置警报和仪表板订阅。它还允许你分析数据仓库中的数据。Metabase 在开发者中相当受欢迎,在 GitHub 上有 29k 星。

通过关注 Metabase 在 YouTube 上的教程来了解更多信息。

Google Cloud Storage (GCS)

Google Cloud Storage (GCS)

Google Cloud Storage 是安全且可扩展的对象存储,允许你保存图像、文档、电子表格、音频、视频甚至网站。你可以享受无限的存储空间,费用取决于你的使用情况。这对初创企业和中小企业非常有利。对象是存储在称为桶的容器中的不可变文件。桶与项目关联,你可以将项目分组到组织中。

通过关注 Google Cloud Storage 在 YouTube 上的教程来了解更多信息。

PostgreSQL

PostgreSQL

PostgreSQL 是一个开源数据库,既可靠又灵活。它支持关系型和非关系型数据库。PostgreSQL 是最符合标准、稳定且成熟的关系型数据库。它提供性能优化和可扩展性,支持并发,支持多种编程语言,以及灾难恢复管理。

通过关注 Learn PostgreSQL 在 YouTube 上的教程来了解更多信息。

Terraform

Terraform

Terraform是由 HashiCorp 开发的开源 IaC(基础设施即代码)工具,允许你使用配置文件定义云资源和本地资源。这些文件可以进行版本控制、重用和共享。它使数据工程师能够对基础设施进行编码,并实施最佳的 DevOps 实践,如版本控制、持续集成和持续开发。

数据工程师可以在多个云平台上定义资源,创建和监控执行计划,最后按照正确的顺序执行操作。

通过观看Terraform 课程 - 自动化你的 AWS 云基础设施教程,了解更多信息。

Kafka

Kafka

Apache Kafka是一个开源事件流平台,允许数据工程师创建高性能的数据管道、流式分析和数据集成。超过 80%的财富 100 强公司使用它来构建实时流数据管道和应用程序。Kafka 允许应用程序高效且持久地发布和消费大量记录流。它具有高吞吐量、低延迟和容错能力。

通过观看学习 Kafka | Intellipaat教程,了解更多信息。

Spark

Spark

Apache Spark™是一个开源的多语言数据处理引擎,适用于大规模数据集。它允许你在单节点或集群上运行数据工程、数据科学和机器学习过程。

Spark 的主要特点:

  • 使用首选编程语言(Scala、Java、Python 和 R)进行批处理/流处理数据

  • 快速的 SQL 分析

  • 在 PB 级数据上进行探索性数据分析

  • 开发和部署可扩展的机器学习解决方案

通过观看PySpark教程,了解更多信息。

结论

数据工程是增长最快、薪资最高的职业之一。美国顶尖科技公司每年支付给合格的数据工程师的薪资超过 177,000 美元 - indeed.com。要在数据工程领域成长,你必须学习和掌握需求量大的工具。

我仍在学习数据工程及其对数据驱动型公司的重要性。我提到的工具列表是由在顶尖科技公司工作的经验丰富的数据工程师使用的。

如果你是数据工程领域的新手,完成data engineering zoomcamp以了解工具、最佳实践和理论。这个 zoomcamp 将帮助你理解这些工具如何在典型的数据工程项目中协同工作。

Abid Ali Awan (@1abidaliawan) 是一名认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作和撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一种 AI 产品,帮助那些与心理疾病作斗争的学生。

了解更多相关主题