Part1-机器学习介绍
什么是机器学习?
机器学习的定义:
Arthur Samuel对机器学习的定义:在没有明确设置的情况下,使计算机具有学习能力的研究领域
Tom Mitchell对机器学习的定义:一个适当的学习问题定义如下:计算机程序从经验E中学习解决某一任务T进行某一性能度量P,通过P测定在T上的表现因经验E而提高,简言之,就是一个计算机程序可以通过经验E使得其在处理任务T时获得了更好的效果(这个效果的好坏用P来衡量)
机器学习的分类:
主要两类是:
- 监督学习
- 无监督学习
其它:强化学习、推荐系统等
监督学习
举例:
假设想要预测房价,根据一些统计的房屋的面积和价格对应信息,预测一个新的房屋面积对应的价格
定义:给定算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案
上述房价预测实际上是一个回归问题,回归指的是预测连续的数值输出
其它监督学习例子:
乳腺癌肿瘤预测,根据一些统计的肿瘤大小和对应肿瘤是良性或恶性,预测一个新的尺寸肿瘤对应的性质
上述肿瘤预测实际上是一个分类问题,分类指的是预测一个离散值的输出
无监督学习
举例:
以上述肿瘤预测为例,根据一些统计的肿瘤属性如大小等,但没有任何标签,不知道要用来干什么,也不知道每个每个数据点是什么,能在其中找到某种结构吗?
上述肿瘤问题中,最终可能会将数据分成两簇,对应两类,这就是一个聚类问题
定义:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。
对应其它应用:组织计算机集群、社交网络分析、市场细分、天文数据分析
无监督学习对应有一个经典问题:就是鸡尾酒会问题,即在酒会上会有多种声音,将其作为数据进行无监督学习,进而对声音进行分离,解决问题只需要: \[ [W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x') \]