计算机视觉 知识脉络梳理-天天短讯
计算机视觉的任务是跨越图像矩阵到语义信息的语义鸿沟。
一、图像分类
(相关资料图)
什么是图像分类任务:建立像素到语义的映射,完成图像数据分类.
图像分类任务面临的问题:角度、光照、尺度、遮挡、形变、背景杂波(背景和物体具有相似性,如雪地里面的雪狐)、类内形变(不同形状的同一类物品)、运动模糊、类别繁多
为图像分类任务设计算法,第一步就是列清楚图像分类任务中的难点,有针对性的融合技术给出解决方案
基于规则的分类方法:通过硬编码方式识别类别非常困难。难以为一类数据给出一套固定的判别模式。
数据驱动的图像分类方法:
数据集构建
分类器设计与训练
输入图像,选择合适的形式在模型中表示这个图像中的特征
像素表示(维度比较高)
全局特征表示(如GIST,适用于大场景分类)
局部特征表示(如SIFT特征+词袋模型,适用于小目标分类)
选择合适的分类模型对输入做出预测
近邻分类器
贝叶斯分类器
线性分类器
支持向量机分类器【线性分类器的拓展】
神经网络分类器
随机森林
Adaboost
选择合适的损失函数计算预测值与真实值之间的差异值
0-1损失
多类支撑向量机损失
交叉熵损失
L1损失
L2损失
选择合适的优化算法更新模型参数
一阶方法:
梯度下降
随机梯度下降
小批量随机梯度下降
二阶方法:
牛顿法
BFGS
L-BFGS
分类器决策:处理输入数据后,调用模型对输入图像进行预测
数据驱动范式总结:
数据集划分
数据集预处理
数据增强
解决欠拟合与过拟合【减少算法复杂度;引入正则项;引入dropout正则化】
超参数调整
模型集成
基于线性分类器的图像分类范式:基于像素的图像表示
经典的图像类别:
二值图像:0/1
灰度图像:0-255
彩色图像:分为RGB三个通道,每个通道值是0-255
flatten:将图像中相邻通道的像素值放在一起,,将高维矩阵转换为一维向量
线性分类器定义、权值和分界面
一种线性映射,将输入向量映射到类别标签。其输出值是一个维数为标签数目的向量。
其中,每一个标签对应的维度上的值为该输入对应到该标签的得分。对于线性分类器,取wx+b=0时那条线就是线性决策面
损失函数的定义:
定量评价给定分类器的预测值和真实值的不一致程度,其输出通常为一个非负实值。
其输出通常可以作为反馈信号,指导优化算法对分类器参数进行调整。
多类支持向量机损失,hingeloss(折页损失)
这种损失函数的关键点在于其比较当前类别的预测值与正确类别预测值,当满足时将当前类别损失值设置为0,否则将当前类别的损失值设定为1+两者之差。
二、图像检测
图像检测任务
图像检测评价指标
二阶段检测网络
一阶段检测网络
三、图像分割
图像分割任务
图像分割评价指标
语义分割网络
实例分割网络
四、图像描述
循环神经网络
LSTM
注意力机制
五、图像生成
深度生成网络
