原文:
www.kdnuggets.com/2021/05/guide-become-data-scientist.html
有很多资源和链接,但我们经常会困惑选择哪个资源。别担心,我已经为你准备好了。我附上了几个我认为适合初学者的 YouTube 频道、博客、课程和其他网站的链接。
你也可以使用像 Analytics Vidhya 和 Kaggle 这样的数据科学社区网站来实施你的学习,并获得数据科学的实践经验。
1. Google 网络安全证书 - 快速进入网络安全职业。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织的 IT 工作
数据科学路线图
在开始数据科学之旅时,第一步是熟悉一种编程语言。在两者之间,Python 是最受欢迎的编程语言,大多数数据科学家都采用它。它易于理解、多功能,并支持各种内置库,如 Numpy、Pandas、Matplotlib、Seaborn、Scipy 等。
注意: 在学习 Python 时,应了解基本的 Python 变量、数据类型、面向对象的概念、Numpy、Pandas、Matplotlib 和 Seaborn。
对于成为数据科学家来说,了解统计学和概率学就像食物中需要盐一样重要。了解这些知识将帮助数据科学家解读大量数据集,从中获得洞察,并更好地分析数据。
注意: 统计学提供了关于均值、中位数、众数、范围、方差、标准差、图表或绘图、总体和样本的概念。
结构化查询语言(SQL)用于从大型数据库中提取和沟通。应专注于理解不同类型的规范化、编写嵌套查询、使用相关查询、分组、执行连接操作等,并以原始格式提取数据。然后,这些数据将在 Microsoft Excel 中或使用 Python 库进一步清理。
注意: 在 SQL 中,应了解创建表、插入数据、更新数据、删除数据以及执行一些基本查询操作。
当数据科学家接到一个项目时,大多数时间花在清理数据集、删除不必要的值、处理缺失值上。可以通过使用一些内置的 Python 库,如 Pandas 和 Numpy,来实现这一点。
还应了解如何使用 Microsoft Excel 操作数据。
注意: 在 Microsoft Excel 中,你应该了解基本的数据筛选或排序、函数或公式、Vlookup、数据透视表和图表以及表格等。
探索性数据分析是谈论数据科学时的关键部分。数据科学家有许多任务,包括发现数据模式、分析数据、寻找数据中的适当趋势并获得有价值的见解等,使用各种图形和统计方法,包括:
A) 使用 Pandas 和 Numpy 进行数据分析
B) 数据操作
C) 数据可视化
Seaborn Python 库中的图表类型。
根据 Google 的说法,“机器学习是一种数据分析方法,它自动化了分析模型的构建。它是基于人工智能的一个分支,其思想是系统可以从数据中学习、识别模式,并在最少的人为干预下做出决策。”
这是数据科学家生命周期中最关键的一步,在这一步中,必须使用机器学习算法构建各种模型,并能够预测并提出最优化的解决方案来解决任何问题。
机器学习领域。
在掌握数据科学基础知识后,现在是时候获得实践经验了。有许多在线平台,如 Kaggle 和 Analytics Vidhya,可以提供初级和高级数据集的实践经验。它们可以帮助你理解各种机器学习算法、不同的分析技术等。
你可以按照以下方法了解如何有效地使用这些平台。
-
你可以先下载数据集并分析数据,然后实施你所学的各种技术。
-
接下来,你可以查看其他人的笔记本,了解他们是如何解决特定问题或从数据中获取见解的。(这种方法将使你更加自信,并帮助你提升知识。)
-
当你足够自信时,你可以参加 Kaggle 和 Analytics Vidhya 组织的竞赛。这不仅会帮助你提升数据科学技能,还能更好地学习数据科学。
阿迪提亚·阿格瓦尔 是东北大学的研究生。
原文。已获许可转载。