0%

Part1-机器学习介绍

Part1-机器学习介绍

什么是机器学习?

  1. 机器学习的定义:

    Arthur Samuel对机器学习的定义:在没有明确设置的情况下,使计算机具有学习能力的研究领域

    Tom Mitchell对机器学习的定义:一个适当的学习问题定义如下:计算机程序从经验E中学习解决某一任务T进行某一性能度量P,通过P测定在T上的表现因经验E而提高,简言之,就是一个计算机程序可以通过经验E使得其在处理任务T时获得了更好的效果(这个效果的好坏用P来衡量)

  2. 机器学习的分类:

    主要两类是:

    • 监督学习
    • 无监督学习

    其它:强化学习、推荐系统等

监督学习

举例:

假设想要预测房价,根据一些统计的房屋的面积和价格对应信息,预测一个新的房屋面积对应的价格

定义:给定算法一个数据集,其中包含了正确答案,算法的目的就是给出更多的正确答案

上述房价预测实际上是一个回归问题,回归指的是预测连续的数值输出

其它监督学习例子:

乳腺癌肿瘤预测,根据一些统计的肿瘤大小和对应肿瘤是良性或恶性,预测一个新的尺寸肿瘤对应的性质

上述肿瘤预测实际上是一个分类问题,分类指的是预测一个离散值的输出

无监督学习

举例:

以上述肿瘤预测为例,根据一些统计的肿瘤属性如大小等,但没有任何标签,不知道要用来干什么,也不知道每个每个数据点是什么,能在其中找到某种结构吗?

上述肿瘤问题中,最终可能会将数据分成两簇,对应两类,这就是一个聚类问题

定义:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。

对应其它应用:组织计算机集群、社交网络分析、市场细分、天文数据分析

无监督学习对应有一个经典问题:就是鸡尾酒会问题,即在酒会上会有多种声音,将其作为数据进行无监督学习,进而对声音进行分离,解决问题只需要: \[ [W,s,v] = svd((repmat(sum(x.*x,1),size(x,1),1).*x)*x') \]