Skip to content

Latest commit

 

History

History
27 lines (25 loc) · 2.23 KB

机器学习基础概念.md

File metadata and controls

27 lines (25 loc) · 2.23 KB

1.机器学习/深度学习是由数据驱动的。
2.什么叫数据集?数据集就是用来训练模型的数据集合。
3.数据集由什么组成?数据集由样本组成。
4.样本由什么组成?特征和标签。一个样本只有一个label,可以有多个feature。
5.什么叫特征?样本的属性。
6.什么是标签?样本的分类。
7.什么是训练?从数据中学习得到模型的过程。
8.什么是模型?从数据中学习得到的全局性结果。
9.什么是模式?从数据中学习得到的局部性结果。
10.什么是假设(Hypothesis)?通过训练得到的模型关于数据的潜在客观规律。
11.什么是真实(Ground Truth)?数据的客观规律。
12.什么是测试?测试是整个训练过程的一部分,使用数据集中的一部分作为测试数据来评估模型的性能。
13.什么是泛化?模型适用于新样本(所谓新样本就是数据集中没有出现的样本)的能力。
14.什么是样本空间?由样本的属性构成的空间。
15.什么是标记空间?由样本和标签构成的空间。
16.什么是监督学习(Supervised Learning)?在模型的训练过程中需要使用标签。
17.什么是无监督学习(UnSupervised Learning)?在模型的训练过程中不需要使用标签。
18.机器学习的三大任务?监督学习(分类(Classification),回归(Regession)),无监督学习(聚类(Clustering))
19.什么是分类任务?分类的目标是通过学习找到客观规律,将此客观规律用于新样本的分类。特征:标签是离散的。标签不能用方程式表示。
20.什么是回归?标签是连续的(可以用方程式表示)。回归可以用来预测。
21.什么是聚类?聚类是不用标签的。聚类是按照数据的一定分布规律,将数据分成若干组。聚类有一定的随机性。
22.什么是样本的特征向量?由样本的所有特征的坐标在样本空间内组成的向量。(向量的内容:就是坐标)
23.为什么要使用特征向量?在欧几里得几何空间内,需要用特征向量来计算数据之间的距离。

离散:散点。
连续:一条线。