原文:
www.kdnuggets.com/2021/09/2-years-self-teaching-data-science.html
评论
作者 Vishnu U,Mindtree 校园实习生 | 探索数据科学。
1. 谷歌网络安全证书 - 快速进入网络安全职业道路。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT
(图片来源)
数据科学爱好者往往最初是自学的,而不是后来获得硕士学位。但数据科学领域的广阔现实往往在初学者进入这一领域后才会显现出来,真正有价值的时间可能被错误的学习方式浪费。在本文中,我将分享我在两年的数据科学学习过程中学到的一些事实,希望能帮助你更好地学习。
持续学习 — 这个领域没有尽头! (图片来源).
在开始之前,要了解数据科学是一个非常广阔的领域。不要指望在几个月内或通过在线课程完成学习。研究和开发经常发生变化,所以要做好长期学习的准备。此外,要明白实际的数据科学与我们自己做的有很大不同,但要记住你所学的内容。
基础数学是必不可少的 (图片来源).
这是一个常见的说法,但我觉得一点数学(概率、微积分、统计学和线性代数的基础)是有好处的。你不一定需要深入研究这些学科,但基本的理解在解决数据问题时会是一个很大的优势。数学计算的大部分工作都由库来完成。
数据科学过程——注意收集和准备正确的数据是至关重要的 (Image source)。
最常见的错误是直接跳入机器学习,从那里开始学习,这样的学习顺序正好相反。机器学习是任何数据科学过程的最后一步。从这里开始学习会让你错过许多更重要的概念——数据加载和管理、探索性分析和数据工程。首先学习 Python,加载数据,处理数据集(pandas),然后生成仪表板和可视化,再转向机器学习和预测建模。这篇文章解释了数据科学的总体过程。
Kaggle 是数据科学爱好者的圣地——但一定要从基础开始 (Image source)。
一旦掌握了基础知识,你就可以开始在 Kaggle 上进行项目实践。Kaggle 是一个可以找到数据集的网站——你可以利用这些数据集来提升数据科学技能。但请记住一点:如果你是初学者,先从基础且较小的数据集和简单任务开始,然后再进入竞赛。原因是 Kaggle 是一个公开的平台,你可能会遇到行业专家和研究人员。他们的知识水平与你这个新手会有所不同——所以从基础数据集开始,逐步过渡到复杂建模问题或竞赛。
比较会带来臭名昭著的冒名顶替综合症——但这只是你心中制造的错觉 (Image source)。
新手常犯的一个错误是将自己的工作与他人进行比较。这是一个大错,因为经验和知识水平的差异。相反,反过来想:如果在你理解范围内,试着学习他们做了什么。每一个拥有最佳作品的人曾经也像你一样是个初学者。
解决问题是一项关键技能 (Image source)。
所有数据科学问题都集中在解决实际问题或商业问题上。此外,理解业务问题通常被称为“数据科学的第一规则”。最好的建议是专注于解决实际问题的数据集和项目,而不是单纯地生成可视化和模型。“猫与狗”数据集对于学习和尝试东西是很好的,但不适合作为项目或工作。
现实世界中的数据存在多种形式 — 了解它们以成为优秀的数据科学家 (Image source)。
对于初学者,最好从 CSV 文件中的数据开始,但随着你逐渐适应,学习使用其他数据源也是很重要的:使用正则表达式的文本文件、SQL 数据库、带有云接口的数据仓库、非结构化数据(图像和音频文件)、JSON 数据等。随着你对基本数据源的熟悉,你还可以尝试数据抓取。你也可以阅读这篇文章。
按需学习构建技能 — 不要期望在短时间内学会所有内容 (Image source)。
数据科学要求你使用各种库、工具和 API,但你不必精通它们(如果你精通那就更好了)。这里的主要思想是了解概念,而不必完全掌握整个库或 API!根据需要学习必要的知识。
云计算是一个不同的领域,但对于许多大规模的数据科学问题非常有用 (Image source)。
云计算通常与数据科学问题结合在一起,原因可能是资源需求量大,或解决方案可以直接部署在云上。了解云平台、各种服务及其使用情况。云平台还提供了大数据存储和管理的各种服务,而这些服务是数据科学领域的核心。
原文。转载已获许可。
相关: