Part1-机器学习介绍

什么是机器学习？

机器学习的定义：

Arthur Samuel对机器学习的定义：在没有明确设置的情况下，使计算机具有学习能力的研究领域

Tom Mitchell对机器学习的定义：一个适当的学习问题定义如下：计算机程序从经验E中学习解决某一任务T进行某一性能度量P，通过P测定在T上的表现因经验E而提高，简言之，就是一个计算机程序可以通过经验E使得其在处理任务T时获得了更好的效果(这个效果的好坏用P来衡量)
机器学习的分类：

主要两类是：
- 监督学习
- 无监督学习
其它：强化学习、推荐系统等

举例：

假设想要预测房价，根据一些统计的房屋的面积和价格对应信息，预测一个新的房屋面积对应的价格

定义：给定算法一个数据集，其中包含了正确答案，算法的目的就是给出更多的正确答案

上述房价预测实际上是一个回归问题，回归指的是预测连续的数值输出

其它监督学习例子：

乳腺癌肿瘤预测，根据一些统计的肿瘤大小和对应肿瘤是良性或恶性，预测一个新的尺寸肿瘤对应的性质

上述肿瘤预测实际上是一个分类问题，分类指的是预测一个离散值的输出

举例：

以上述肿瘤预测为例，根据一些统计的肿瘤属性如大小等，但没有任何标签，不知道要用来干什么，也不知道每个每个数据点是什么，能在其中找到某种结构吗？

上述肿瘤问题中，最终可能会将数据分成两簇，对应两类，这就是一个聚类问题

定义：根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题，称之为无监督学习。

对应其它应用：组织计算机集群、社交网络分析、市场细分、天文数据分析

无监督学习对应有一个经典问题：就是鸡尾酒会问题，即在酒会上会有多种声音，将其作为数据进行无监督学习，进而对声音进行分离，解决问题只需要： \[ [W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x') \]