壹
模式识别 目的是将对象进行分类
用来分类的测量值,均值和标准偏差称为 特征值。一般情况下使用l 个特征值 组成特征向量。每一个特征向量表示一个样本(对象)。本书中特征值和 特征向量 分别视为 随机变量 和向量。
决策线 将特征空间划分为不同的类空间。
用来设计分类 器的样本(特征向量)的所属类是已知的,这些样本称为训练样本(训练特征向量)。
怎样得到特征?用均值和偏差作为特征。这是特征提取阶段的任务
特征数多少 为好? 特征选择阶段
怎样设计分类器? 按最优准则。在分类器设计阶段
如何评估分类器性能? 系统评估阶段
有监督和无监督模式识别 假设可用训练集,通过挖掘已知先验知识来设计分类器。
没有已知类别标签的训练数据可供使用, 给定一组特征向量来提示潜在的相似性,并且将相似性的特征向量分为一组。这就是无监督模式识别或聚类clustering
贰
基于贝叶斯决策理论的分类器 将未知类型的样本分类到最可能 类别中.
有关模式识别 分类器设计的内容共有三章。这是第一章。 下面介绍的方法以特征值的统计概率为基础,
m 类分类任务, 生成 m 个条件概率。
用特征向量x表示的未知样本。
对于特征向量X , 每一项都代表未知样本 属于 某一特定类的概率。
要计算条件概率 , 贝叶斯规则条件概率,
贝叶斯分类规则描述:
证明: 贝叶斯分类器在最小化 分类错误率上 最优。
最小平均风险。
判别函数和决策面。 使分类错误率 或风险概率最小化, 等价于 将特征空间划分 m 个区域。
通过选择代价的方法 直接计算决策面 , 性能次于Bayes
正态分布的贝叶斯方分类
高斯 密度或 正态密度 容易计算 , 能 充分模拟大量的数据 。
二次曲线 分类器。
决策 超平面 , hyper planes
最小距离 分类器。
在实际应用 中, 普遍使用高斯分布 来描述每 类 中的数据 。 根据协方差的假设 来决定相关的贝叶斯分类 器 是线性的还是二次的,判断它们是否完全相同 或有差别。
线性判别分析/二次判别分析 LDA 和 QDA 存在的主要问题是 :必须在高维空间 条件下 估计大量的未知参数。 必须有大量的训练样本,这是任何一个分类器的主要问题。
从分类的角度来看,线性和二次 决策面 对空间对待了合理的划分 ,
未知概率密度函数的估计
有时知道概率密度函数的类型(高斯 , 瑞利。。) 但不知道具体的函数,,例如均值方差, ,,,。 或不知道函数类型, 但知道均值方差。
最大似然估计 Maximum Likelihood
最大似然是渐近无偏的。无偏估计
最大似然是渐近一致的,满足一致性条件,收敛于均方值。
最大似然是渐近有效的。总之, 最大似然是无偏的,正态分布的,具有最小方差的估计。 但所有这些优点只有N足够大才成立。
最大后验概率估计
最大似然和 最大后验 不同之处。
贝叶斯推论
最大熵估计 熵是关于事件 的 不确定因素的度量方法, 从另个角度来看, 是系统输出信息 (特征向量)的随机性度量。
未知概率密度函数的 最大熵估计 都服从均匀分布 。
混合模型
通过密度函数的纯属合并 获取未知的模型。
换言之,假设一个J分布符合p , 这个模型隐含的 假设 是每一个 点x 都 可能以概率 P 属于 J模型分布。可以看出这个模型可以接近任何连续密度函数, 只要有足够量的 混合 J和适当的参数。
这个过程的第一步,以参数形式 选择密度组成 p , 然后根据已知训练样本 计算未知 参数 theta 和P 。 可以用不同方法 计算 。 典型的最大似然法,即使 theta 和P 的似然函数 最大 是第一种方法。 但由于未知参数 以非纯属形式出现在最大化中, 导致计算困难 ,
非参数估计 这是未知概率密度函数的直方图估计.
Parzen 窗
k近邻密度估计
朴素贝叶斯分类器 可克服维数灾难,并有效利用训练样本集.但从完全依赖特征转到了相互独立特征的情况.
最近邻规则
贝叶斯网络 DAG,
/
需要巩固下matlab . 书到用时方恨少吗? 话说回来 我从来也没有好好看过它.然何谓"好好看过" ,世间事若皆由尔花费精力,故无全力举大事,败也.
叁
线性分类器 的主要优点是 简单和可计算性,.研究线性函数的计算方法,寻找优化规则.
线性判别函数和决策超平面
感知器算法
最小二乘法
均方误差估计 MSE
随机逼近和LMS(最小均方)
误差平方和估计
均方估计的回顾
均方误差回归
MSE 后验概率
偏差方差选择
逻辑识别
支持向量机
可分类
不可分类
多类
v-SVM
几何学观点
简化的凸包
肆
非线性分类器,线性分类器即使最理想情况下也难以产生满意性能 ,因此有必要设计非线性分类器.
两层感知
三层感知
基于训练的准确分类
反向传播
反向传播算法的改进
代价函数
神经网络大小的选择
仿真实例
具有权值共享的网络
纯性分类器推广
线性二分法 l维空间容量
多项式分类器
径向基函数网络
通用逼近
概率神经元网络
支持向量机:非线性情况
超越SVM的范例
核函数和稀疏模型的扩展
鲁棒性统计回归
决策树
问题集
分支准则
合并分类器
几何平均
算法平均
多数投票
贝叶斯观点
类的不平衡
伍
特征选择 给定一些特征 ,怎样选择其中重要特征以减少特征数量,尽量保留分类信息.
预处理: 剔除离群点, 数据归一化, 丢失数据 ,
峰值现象:
基于统计假设检验的特征选择
接收机操作特性 ROC曲线
类可分性测量
发散性
Chernoff 界和 Bhattacharyya距离
散布矩阵
特征子集选择
标量特征
特征向量
最优特征生成
神经网络特征生成
推广理论
贝叶斯信息准则
陆
特征生成:线性变换 将给定测度集合变换成新的特征集合,这一处理过程称为维数降低任务 .
Karhunen_Loeve变换 或PCA 是常用的特征生成 我降低维数的方法. PCA .可以通过KL变换得到互不相关特征.如果以维数降低为目标 , 并希望逼近均方差极小化,由KL变换得到的结果最优.
奇异值分解 广泛应用于模式识别的维数降低.
独立成分分析 ICA .
非负矩阵因子分解
非线性维数降低
DFT
DCT
Hadamard变换
Haar变换
离散时间小波DTWT
多分辨解释
小波包
二维推广
柒
特征生成 ,给定一幅图像或一个区域生成特征,然后 将这些特征送入分类器,将图像分类到可能 的类中.
区域特征
纹理特征
局部线性变换
矩
参数模型
字符形状和大小
傅里叶特征
链码
几何特征
分形
自相似性和分形维数
分形布朗运动
语音
捌
模板匹配 假定有一个有效的参考模板集,然后决定未知模式与哪个参考模式是最佳匹配.
基于最优路径搜索技术的测度
基于相关的测度
可变形的模板模型
基于内容的信息搜索
釚
上下文相关分类 假设各类之间密切相关的,连续的特征向量不是相互独立的.单独对单个特征向量分类是没意义的,
贝叶斯分类器
马尔科夫链模型
Viterbi算法
信道均衡
隐马尔科夫
状态驻留HMM
马尔科夫随机场
壹拾
监督学习:尾声 1.系统错误率评价性能 2. 结合各互相独立的设计阶段成一个系统 3. 半监督
误差计算方法
探讨有限数据集大小
医学图像实例
半监督学习
壹拾壹
聚类 本章及以后 无监督学习.解释聚类 并讨论近邻测度.
近邻测度
壹拾贰
聚类算法:顺序算法
聚类算法的分类
BSAS改进
两个阈值的顺序方法
改进
神经网络实现
壹拾叁
聚类算法: 层次算法,不产生单一聚类,而是层次聚类,通常用于社会科学和生物学领域.
合并算法
cophenetic矩阵
分裂算法
用于大数据集的层次算法
最佳聚类选择
壹拾肆
聚类算法: 基于函数最优算法 用数据集X的所有向量来计算聚类表达 ,而不仅仅是分配到该聚类的向量.
混合分解方法
模糊聚类
点
二次曲面
超平面
几何解释
可能性聚类
硬聚类
向量量化
一拾伍
聚类算法:1.基于图论 2.基于竞争学习 3.分支和有界算法 4.形态变换
基于图论的聚类算法
竞争学习
二值形态聚类
边界检测
谷点搜索
代价最优聚类
分支和有界聚类
模拟退火
确定退火
核聚类
大数据集基于密度算法'
高维数据集的聚类算法
一十六
聚类有效性 验证X是否具有聚类结构的问题踢球为聚类趋向,
假设检验回顾