基于AlexNet的图像分类-吴彩云.pptx

下载文档 降价啦

77
1
约1.09万字
约 52页
2020-08-11 发布于江苏
举报
版权申诉
保障服务

基于AlexNet的图像分类-吴彩云.pptx

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Caffe AlexNet instanceCaffe AlexNet 实例汇报:吴彩云基本原理简介CONTENTCaffe框架简介目录AlexNet物体分类例程01chapter基本原理简介人工智能与深度学习的关系人工智能机器学习深度学习人工智能是一门具有高度综合性和交叉行性的学科，其研究范畴包括：自动推理、知识表达、专家系统、机器学习、语言识别、图像识别、智能机器人等。而其中机器学习是人工智能的核心，其应用遍布了人工智能的各个领域，涉及的算法包括：决策树、支持向量机（SVM）、人工神经网络、聚类、贝叶斯分类器、规则学习、强化学习等。20世纪80年代，人工神经网络，成为了人工智能领域的研究热点，它模拟了生物神经元的工作原理进行建模，取得了很大的进展。但是浅层的网络在表达能力方面有所欠缺。后来人工神经网络发展到深层的状态，也就是现在的深度学习网络。更深的网络使得模型的性能更好，相较于传统机器学习，不需要进行手工提取特征。常见的深度学习网络MLP多层感知机CNN卷积神经网络RNNLSTM循环神经网络长短时记忆网络网络其结构包括：多层感知机（MLP）、卷积神经网络（CNN）、循环神经网络（RNN），长短时记忆网络网络（LSTM）等。其实质上均为一个非常复杂的非线性数学计算结构，它可以拟合各种复杂的规律。神经网络基本单元—神经元单个神经元的实质：输入加权求和再加偏置，激活函数进行非线性转化，映射到固定值域。当激活函数为如下的阶跃函数时：这时候的神经元又叫作—“感知器”常见的激活函数BP神经网络BP神经网络是一种按照误差反向传播算法训练的多层前馈神经网络，是目前应用最广泛的神经网络。其结构可以看做若干神经元叠加而成。网络最后常接上Softmax或其他分类器，生成输入属于每个类别的概率，概率最高即为输出的分类使用误差反向传播（BP）算法BP神经网络反向传播的基本思想正向传播，计算输出，对比label，得到error，反向调整权值偏置，最小化error，error，最小时，权值最优。梯度下降梯度下降是神经网络求解最常用的算法，简单的理解，就是从初始值顺着“loss”盆地最陡峭的方向下降，直到达到最低点，此时对应的参数即为最优解。卷积神经网络（CNN）卷积网络（CNN）是为识别二维形状而特殊设计的一个前馈神经网络，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。全连接如图为三层的全连接网络。全连接层中，每个节点与相邻层的所有节点都有连接。特点：参数较多，计算量较大，容易造成过拟合。作用：用于将提取的图像特征用于分类。局部感知上图左：全连接网络。如果我们有1000x1000像素的图像，有106个隐层神经元，每个隐层神经元都连接图像的每一个像素点，就有1000x1000x106=1012个连接，也就是1012个权值参数。上图右：局部连接网络，每一个节点与上层节点同位置附近10x10的窗口相连接，则106个隐层神经元就只有100乘以106，即108个参数。其权值连接个数比原来减少了四个数量级。权值共享在局部感知的基础上，若所有神经元采取一套权值，则数量级则会由106个，降低到102个。卷积结构卷积操作示意图如左图：原图：绿色矩阵，矩阵每个值对应原图的像素值。卷积核：黄色矩阵，对图像大矩阵和卷积小矩阵对应的位置元素相乘在求和的操作就叫做卷积。新生成图像：红色矩阵。第一个窗口的输入权值第一个窗口的输出多核卷积如图所示，不同颜色表明不同的卷积核，单个卷积核特征提取显然不充分，多个卷积核能获取更充足的特征信息。多通道卷积如图展示了四通道的卷积操作，共有两个卷积核，生成两个特征图。以w1为例，在m层生成的特征图的某个位置（i，j）处的值，为四个通道对应卷积结果相加取激活操作得到的值。池化（pooling）操作池化通常作用于图像中不重合的区域，过程如右图。步长stride：相邻两个池化窗口，水平位移或竖直位移。最常见的池化：平均池化（mean pooling）和最大池化（max pooling）。02chapterCaffe框架简介Caffe简介Caffe作者——贾扬清Caffe的特点速度快多语言易上手社区友好主CNN特点：1 、基于C++/CUDA框架，也支持命令行、Matlab和Python接口2、利用MKL、OpenBLAS、cuBLAS等矩阵运算库加速计算、同时支持GPU加速3、例程脚本丰富，入门很快4、有检测框架Faster R-CNN系列、Caffe For Windows等衍生项目Caffe源码文件夹结构build: 编译结果存放处，结构与主目录相似cmake：存放的编译配置文件，不关注，可忽略data：存放原始数据集，及数据集获取的脚本如:MNIST 、CIFAR-10distribute：编译后生