什么是机器学习?

关于机器学习的定义,有两种说法:

Arthur Samuel 将其描述为“在非特定编程条件下,赋予计算机自主学习能力的研究领域“,这种定义略显陈旧并且也不那么正式。

Tom Mitchell 给出了一种更加现代化的定义:“定义某种任务 T 和性能评估标准 P 以及与之相关的经验 E,机器学习就是能够从经验 E 中学习并且提高其在任务 T 中用函数 P 量化的表现性能的程序。“

比如:下跳棋

经验 E = 下许多盘跳棋的经验

任务 T = 下跳棋

评估标准 P = 程序赢得下一场比赛的可能性

通常来说,机器学习问题在广义上可以被分为两类:监督学习和非监督学习。

监督学习

在监督学习中,我们会事先给定一组数据集,有正确答案并且知道输入和输出之间存在着某种关系。

监督学习问题被分为“回归“和“分类“两种。在回归问题中,我们会尝试在连续的输出中预测结果,也就是说我们会尝试将输入的变量映射到某种连续函数中。在分类问题中,我们会尝试着在离散的输出中预测结果,也就是说我们会尝试将输入的变量映射到离散的类别中。

Math is Fun 中有两个关于连续和离散数据的描述:

其一

给出真实交易市场上的一组房屋面积,并尝试预测它们的价格。房屋价格作为面积的函数,其输出是连续的,因此这是一个回归问题。

我们可以通过预测房屋的最终售价在标价之上或之下的方式将这个问题转换为分类问题。这样一来,我们就基于价格将房屋分到两个离散的类别中去了。

其二

(a)回归 - 有一副男/女人的图片,我们要根据图片来预测他/她的年龄。

(b)分类 - 有一副男/女人的图片,我们要根据图片来预测他/她是在读高中、大学或者已经毕业了。另一个分类的例子 - 银行会根据信用历史来决定是否给某人贷款。

非监督学习

非监督学习可以帮助我们处理那些毫无头绪的问题。

我们不必知道变量的关系就能从数据中得到某种规律,比如我们可以基于变量之间的关系对数据做聚合处理,并从中总结出规律。

非监督学习中没有基于预测结果的反馈,也就是说,没有老师来纠正你的答案。

比如:

聚合:有 1000 篇关于美国经济的短文,尝试找出一种方法自动地将这些短文按照某种特征分组,这些特征可以是词频,句长,页数等等。

非聚合:“鸡尾酒会算法“能够在杂乱的数据中找到规律(比如在嘈杂的鸡尾酒会中分辨出某个人的嗓音和音乐声)(维基百科)。

本文译自斯坦福大学吴恩达老师的机器学习课程资料,想要了解更多请查看 Machine Learning | Coursera