周志华《机器学习》 版本空间

第一章1.3节提出了一个概念“版本空间”,搞明白之后其实是蛮简单的一个东西,按书上说的西瓜问题的假设空间如下(Ø表示不存在好瓜坏瓜之分):

编号 色泽 根蒂 敲声
1 * * *
2 青绿 * *
3 乌黑 * *
4 * 蜷缩 *
5 * 硬挺 *
6 * 稍蜷 *
7 * * 浊响
8 * * 清脆
9 * * 沉闷
10 青绿 蜷缩 *
11 青绿 硬挺 *
12 青绿 稍蜷 *
13 乌黑 蜷缩 *
14 乌黑 硬挺 *
15 乌黑 稍蜷 *
16 青绿 * 浊响
17 青绿 * 清脆
18 青绿 * 沉闷
19 乌黑 * 浊响
20 乌黑 * 清脆
21 乌黑 * 沉闷
22 * 蜷缩 浊响
23 * 蜷缩 清脆
24 * 蜷缩 沉闷
25 * 硬挺 浊响
26 * 硬挺 清脆
27 * 硬挺 沉闷
28 * 稍蜷 浊响
29 * 稍蜷 清脆
30 * 稍蜷 沉闷
31 青绿 蜷缩 浊响
32 青绿 蜷缩 清脆
33 青绿 蜷缩 沉闷
34 青绿 硬挺 浊响
35 青绿 硬挺 清脆
36 青绿 硬挺 沉闷
37 青绿 稍蜷 浊响
38 青绿 稍蜷 清脆
39 青绿 稍蜷 沉闷
40 乌黑 蜷缩 浊响
41 乌黑 蜷缩 清脆
42 乌黑 蜷缩 沉闷
43 乌黑 硬挺 浊响
44 乌黑 硬挺 清脆
45 乌黑 硬挺 沉闷
46 乌黑 稍蜷 浊响
47 乌黑 稍蜷 清脆
48 乌黑 稍蜷 沉闷
49 Ø

西瓜数据集如下:

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

书上说:

搜索过程可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确性判断)的假设,这就是我们学得的结果。

假设1与数据1,2一致,但是也与数据3,4一致,删除

假设2与数据1一致,但是也与数据3一致,删除

假设3与数据2一致,但是也与数据4一致,删除

假设4与仅数据1,2一致,不删

假设10虽然与数据1一致,但是与数据2不一致,删除

最终得到的西瓜问题的版本空间是:

编号 色泽 根蒂 敲声
4 * 蜷缩 *
7 * * 浊响
22 * 蜷缩 浊响

版本空间内每一个假设都可以判断上面数据集中的每一条数据,是好瓜还是不是好瓜,但是用不同的假设判断一条新数据可能会得出不一样的结果,这属于“归纳偏好”问题。

感谢