·发表于Towards Data Science ·12 分钟阅读·2024 年 2 月 24 日
--
AI 生成的图像,使用Kandinsky
在这个故事中,我想谈谈数据仓库设计以及我们如何组织这个过程。数据建模是数据工程中的一个重要部分。它定义了数据库结构、我们使用的模式以及用于分析的数据物化策略。设计得当时,它有助于确保我们的数据仓库高效运行,满足所有业务需求和成本优化目标。我们将通过使用 dbt 工具作为示例,讨论一些数据仓库设计中的知名最佳实践。我们还将更深入地探讨如何组织构建过程,测试我们的数据集,并使用宏的高级技术来更好地集成工作流和部署。
假设我们有一个数据仓库,并且需要处理仓库中的大量 SQL 数据。
在我的案例中,使用的是 Snowflake。它是一个很棒的工具,也是当前市场上最流行的解决方案之一,绝对位列前三名。
那么,我们如何构建我们的数据仓库项目结构呢?请看下面这个初学者项目文件夹结构。这是我们运行dbt init
命令后得到的结构。
.
├── README.md
├── analyses
├── dbt_project.yml
├── logs
│ └── dbt.log
├── macros
├──…