- 1、本文档共42页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习
支持向量机
复旦大学 赵卫东 博士
wdzhao@
章节介绍
• 支持向量机(Support Vector Machine ,SVM )属于有监督学习模型,主要用
于解决数据分类问题。通常SVM用于二元分类问题,对于多元分类可将其分
解为多个二元分类问题,再进行分类,主要应用场景有图像分类、文本分
类、面部识别和垃圾邮件检测等领域。
• 本章共划分为两个小节,分别介绍支持向量机模型的基础以及支持向量机
的应用过程。
章节结构
• 支持向量机模型
– 核函数
– 模型原理分析
• 支持向量机应用
– 基于SVM进行新闻主题分类
– 基于支持向量机和主成分分析的人脸识别
一个例子:青光眼诊断
图中“+ ”表示开角型青光眼样本点,“〇
”表示闭角型青光眼型样本点。样本数据相
互交叉较多,不易进行线性可分。
支持向量机模型
• 支持向量机在高维或无限维空间中构造超平面或超平面集合,将原有限维
空间映射到维数高得多的空间中,在该空间中进行分离可能会更容易。它
可以同时最小化经验误差和最大化集合边缘区,因此它也被称为最大间隔
分类器。直观来说,分类边界距离最近的训练数据点越远越好,因为这样
可以缩小分类器的泛化误差。
低维不可分问题高维未必不可分
模型基本思想
议程
• 以一个二元分类问题为例讲解模型原理。首先假设有两类数据,如图需要
找出一条边界来将两类数据分隔开来。
模型基本思想
议程
• 下图中列出一些可行的分隔方式。在当前的数据集的条件下,三种分隔方
式都是可行的,我们该如何做选择?
模型基本思想
议程
• 一般说来,需要选择的是具有较强分类能力的直线,有较稳定的分类结果
和较强的抗噪能力,比如在数据集扩展之后如下图所示。在这三种分隔方
式中,b的分隔效果更好。
模型基本思想
议程
• 找到最优分类数据的分界线,使得对样本数据的分类效果更好的方法就是
要尽可能地远离两类数据点,即数据集的边缘点到分界线的距离d最大,这
里虚线穿过的边缘点称作支持向量,分类间隔为2d 。如下图所示。
支持向量机原理
SVM是从线性可分情况下的最优分类面发展而来的。
• 分类超平面:(w.x)+b=0
• 判决函数:
y sgn(wx b)y {1,1}
i i i
• 最大间隔问题:
在间隔固定为1时,寻求最
小的‖w ‖
支持向量机原理
容易看出,最优化目标就是最大化几何间隔,并且注意到几何间隔与
‖w ‖ 反比,因此只需寻找最小的‖w ‖,即
对于这个目标函数,可以用一个等价的目标函数来替代:
支持向量机原理
为使分类对所有样本正确分类,要求满足如下约束:
支持向量机原理
文档评论(0)