构建数据仓库

原文：towardsdatascience.com/building-a-data-warehouse-9696b238b2da?source=collection_archive---------5-----------------------#2024-02-24

面向初学者的最佳实践和高级技术

💡Mike Shakhomirov

·发表于Towards Data Science ·12 分钟阅读·2024 年 2 月 24 日

--

AI 生成的图像，使用Kandinsky

在这个故事中，我想谈谈数据仓库设计以及我们如何组织这个过程。数据建模是数据工程中的一个重要部分。它定义了数据库结构、我们使用的模式以及用于分析的数据物化策略。设计得当时，它有助于确保我们的数据仓库高效运行，满足所有业务需求和成本优化目标。我们将通过使用 dbt 工具作为示例，讨论一些数据仓库设计中的知名最佳实践。我们还将更深入地探讨如何组织构建过程，测试我们的数据集，并使用宏的高级技术来更好地集成工作流和部署。

结构

假设我们有一个数据仓库，并且需要处理仓库中的大量 SQL 数据。

在我的案例中，使用的是 Snowflake。它是一个很棒的工具，也是当前市场上最流行的解决方案之一，绝对位列前三名。

那么，我们如何构建我们的数据仓库项目结构呢？请看下面这个初学者项目文件夹结构。这是我们运行dbt init命令后得到的结构。

.
├── README.md
├── analyses
├── dbt_project.yml
├── logs
│   └── dbt.log
├── macros
├──…

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

building-a-data-warehouse-9696b238b2da.md

building-a-data-warehouse-9696b238b2da.md

构建数据仓库

面向初学者的最佳实践和高级技术

结构

Files

building-a-data-warehouse-9696b238b2da.md

Latest commit

History

building-a-data-warehouse-9696b238b2da.md

File metadata and controls

构建数据仓库

面向初学者的最佳实践和高级技术

结构