2021年01月09日,第21期 Datawhale 组队学习活动马上就要开始啦!
本次组队学习的内容为:
- 数据挖掘实战(学术前沿趋势分析)
- 编程实践(LeetCode 腾讯精选练习50)
- 数据挖掘实战(异常检测)
- 自然语言处理实践(知识图谱)
大家可以根据我们的开源内容进行自学,也可以加入我们的组队学习一起来学。
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AcademicTrends
- 贡献人员:刘羽中、杨毅远、张晋、雷钲仪、周郴莲、宋怡然、姚童
- 学习周期:15天,每天平均花费时间2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:理论+练习
- 人群定位:熟悉数据挖掘的基本方法,对学习数据分析掌握比赛技巧有需求的学员。
- 先修内容:Python编程语言、编程实践(Numpy)、编程实践(Pandas)、编程实践(数据可视化)
- 难度系数:中
本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门数据分析之学术前沿趋势分析。
赛题以数据分析为背景,要求选手使用公开的arXiv论文完成对应的数据分析操作。与之前的数据挖掘赛题不同,本次赛题不仅要求选手对数据进行建模,而且需要选手利用赛题数据完成具体的可视化分析。
为更好的引导大家入门,我们同时为本赛题定制了系列学习方案,其中包括数据科学库使用(Pandas、Numpy和Matplotlib)、数据分析介绍和数据分析工具使用三部分。通过对本方案的完整学习,可以帮助掌握数据分析基本技能。同时我们也将提供专属的视频直播学习通道。
- 组队、修改群昵称。
- 熟悉打卡规则。
Task1:论文数据统计(3天)Link
- 学习主题:论文数量统计(数据统计任务),统计2019年全年,计算机各个方向论文数量;
- 学习内容:赛题理解、
Pandas
读取数据、数据统计 ; - 学习成果:学习
Pandas
基础;
Task2:论文作者统计(3天)Link
- 学习主题:论文作者统计(数据统计任务),统计所有论文作者出现评率Top10的姓名;
- 学习内容:作者姓名识别和统计;
- 学习成果:学习字符串基本操作、
Matplotlib
基础使用、Seaborn
基础使用;
Task3:论文代码统计(3天)Link
- 学习主题:论文代码统计(数据统计任务),统计所有论文类别下包含源代码论文的比例;
- 学习内容:代码链接识别和统计;
- 学习成果:学会使用正则表达式;
Task4:论文种类分类(3天)Link
- 学习主题:论文种类分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;
- 学习内容:使用论文标题完成类别分类;
- 学习成果:学会文本分类的基本方法、
TFIDF
等;
Task5:作者信息关联(3天)Link
- 学习主题:作者信息关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;
- 学习内容:构建作者关系图,挖掘作者关系;
- 学习成果:论文作者知识图谱、图关系挖掘;
开源内容:https://github.com/datawhalechina/team-learning-program/tree/master/LeetCodeTencent
- 贡献人员:姚行志,韩绘锦,徐韬,马燕鹏
- 学习周期:20天,每天平均花费时间2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:练习
- 人群定位:有一定编程基础,对学习算法有需求的学员。
- 先修内容:Python编程语言、数据结构与算法、编程实践(LeetCode 分类练习)
- 难度系数:中
每天刷三道题,利用20天完成Leetcode腾讯精选练习50题。
- 组队、修改群昵称
- 熟悉打卡规则
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AnomalyDetection
- 贡献人员:梁家晖,李玲,李芝翔,赵可,陈信达
- 学习周期:14天,每天平均花费时间2小时-5小时不等,根据个人学习接受能力强弱有所浮动。
- 学习形式:理论+实践
- 人群定位:熟悉数据挖掘的基本方法,对学习异常检测算法有需求的学员。
- 先修内容:Python编程语言、编程实践(Numpy)、编程实践(Pandas)、编程实践(数据可视化)
- 难度系数:中
理解传统的异常检测方法原理,并具备基本的调用相应python库进行操作的能力。
- 组队、修改群昵称
- 熟悉打卡规则。
- 了解异常检测基本概念
- 了解异常检测基本方法
- 掌握基于高斯分布的异常检测方法
- 理解非参数异常检测方法
- 掌握HBOS算法
- 理解线性回归
- 掌握主成分分析的异常检测方法
- 理解基于距离的异常检测方法
- 掌握基于密度的LOF算法
- 了解集成方法的思想
- 理解feature bagging原理
- 掌握孤立森林算法
开源内容:https://github.com/datawhalechina/team-learning-nlp/tree/master/KnowledgeGraph_Basic
- 贡献人员:吴晓均、杨开漠、康兵兵,周郴莲,王翔,超逸,王嘉鹏,陈安东,段秋阳
- 学习周期:8天
- 学习形式:理论 + 实践
- 人群定位:熟悉自然语言处理基本方法,对学习知识图谱算法有需求的学员。
- 先修内容:Python编程语言
- 难度系数:中
理解知识图谱的基本原理,熟悉Neo4j并具备基本的调用相应python库进行操作的能力。
- 组队、修改群昵称
- 熟悉打卡规则
- 知识图谱简介
- 怎么构建知识图谱
- 知识图谱的存储
- Neo4j 介绍与安装
- Neo4j 实战
- 通过 Python 操作 Neo4j
- 通过csv文件批量导入图数据
- 引言
- 运行环境
- 搭建知识图谱
- 启动问答测试
- 代码目录介绍
- 引言
- Neo4j简介
- Neo4j 数据导入
- 总结
- 引言
- 什么是问答系统
- 任务实践
- 主体类 EntityExtractor 框架介绍
- 命名实体识别任务实践
- 意图识别任务实践
- Neo4j介绍
- 基于知识图谱的问题系统 主体类 AnswerSearching 框架介绍
- 代码分模块介绍
- 注册 CSDN、Github 或 B站等账户。
- 按照任务安排进行学习,完成后写学习笔记Blog 或 进行视频直播。
- 在每次任务截止之前在群内填写问卷打卡,遇到问题在群内讨论。
- 未按时打卡的同学视为自动放弃,被抱出学习群。
有关Datawhale组队学习的开源内容如下:
本次组队学习的 PDF 文档可到Datawhale的知识星球下载: