wordpress悬浮按钮,产品做优化好还是超级网站好,nginx wordpress怎么样,小程序微信开发文章目录 考试题型零、简介1.自学内容(1)机器学习(2)机器学习和统计学中常见的流程(3)导数 vs 梯度(4)KL散度(5)凸优化问题 2.基本概念3.典型的机器学习系统4.前沿研究方向举例 一、逻辑回归1.线性回归2.逻辑回归3.随堂练习 二、贝叶斯学习基础1.贝叶斯公式2.贝叶斯决策3.分类器… 文章目录 考试题型零、简介1.自学内容(1)机器学习(2)机器学习和统计学中常见的流程(3)导数 vs 梯度(4)KL散度(5)凸优化问题 2.基本概念3.典型的机器学习系统4.前沿研究方向举例 一、逻辑回归1.线性回归2.逻辑回归3.随堂练习 二、贝叶斯学习基础1.贝叶斯公式2.贝叶斯决策3.分类器的概念4.基于高斯分布的贝叶斯分类器5.朴素贝叶斯分类器6.参数估计(1)最大后验估计 MAP(2)期望最大化算法 (EMExpectation Maximization) 7.随堂练习 三、人工神经网络1.感知机2.多层神经网络(1)神经元(2)多层神经网络(3)反向传播算法 3.深层神经网络(1)浅层与深度神经网络(2)过拟合问题(3)局部极值问题(4)梯度消失问题 4.常用的深度神经网络(1)自编码网络(2)卷积神经网络 CNN(3)循环神经网络 RNN循环连接、顺序处理①长短期记忆网络 (long short-term memoryLSTM)②Seq2Seq (4)Transformer自注意力机制、并行处理(5)变分自编码器 VAE(6)对抗生成网络 GAN生成(7)扩散模型 SD生成 5.随堂练习(1)神经网络(2)变分自编码 VAE(3)生成对抗网络 GAN 四、支持向量机0.概念1.大间隔原理分界面、间隔面、支持向量 2.基本分类模型3.拉格朗日对偶优化(1)概念(2)拉格朗日对偶函数、弱对偶(3)强对偶①互补松弛条件②KKT条件③强对偶 4.线性不可分数据的分类(1)松弛变量ξ(2)核方法 5.支持向量机回归6.模型扩展7.随堂练习(1)核方法、核函数(2)拉格朗日对偶优化(3)支持向量机优化 五、聚类1.K-means聚类(1)算法介绍①概念②算法步骤③公式讲解 (2)模糊K-均值聚类 (Fuzzy K-Means)加权①聚类数目的确定类数K越多损失越小 2.谱聚类(1)概念谱聚类 (Spectral Clustering)(2)步骤①定义最优切割的优化目标②计算图拉普拉斯矩阵1比率切割每个簇的个数不能太少2归一化切割(Normalized Cut)一种图划分算法 3.高斯混合模型(GMM) 聚类 (1)模型表示(2)模型推理与参数估计③EM算法的步骤 (复习) (3)GMM与K-means的区别(4)GMM的应用场景 4.DBSCAN聚类5.随堂练习(1)K-means(2)高斯混合模型聚类(3)谱聚类 六、强化学习1.基本概念与理论基础(0)策略学习同策略、异策略(1)有环境模型、无环境模型(2)马尔可夫决策过程(3)贝尔曼期望方程①状态值函数 (State Value Function) V π ( s ) V^π(s) Vπ(s)②动作值函数 (Action Value Function) Q π ( s , a ) Q^π(s,a) Qπ(s,a)③策略 π ( a ∣ s ) π(a∣s) π(a∣s) (4)状态动作值函数(5)最优策略的评估、贝尔曼最优策略异策略 2.规划有环境模型的评估与控制3.无环境模型的控制基于值函数(1)蒙特卡洛控制异策略(2)时序差分控制SARSA同策略(3)基于 Q学习(q-learning) 的异策略控制(4)基于Q学习的深度Q网络控制 4.无环境模型的控制基于策略(1)蒙特卡洛策略梯度法 和 REINFORCE算法(2)行动者-评论者算法 5.随堂练习(1)状态值函数、状态动作值函数(2)策略迭代算法、值迭代算法(3)强化学习(4)强化学习 七、主成分分析、相关的谱方法1.主成分分析 PCA(1)最大化方差①概念②协方差矩阵S③m维度④讲义 (2)最小化误差(3)主成分分析与K-L变换 2.概率PCA PPCA(1)概念(2)概率PCA与传统PCA的区别(3)概率PCA的优点(4)PPCA的计算过程(5)潜变量z(6)讲义 3.核PCA (kernel PCA)(1)概念(2)核心思想(3)核PCA与普通PCA的比较(4)讲义 4.相关的谱方法(1)线性判定分析 (LDA)0.概念①二类数据的线性判别分析②多类数据的线性判别分析1类间散度矩阵 S B S_B SB2类内散度矩阵 S W S_W SW (2)典型相关分析 (CCA) 5.随堂练习(1)PCA(2)线性判别分析LDA 考试题型
一、单项选择8道5分40分 二、简答题10*660 QKV交叉注意力Q、K、V分别是什么 零、简介
模式识别与机器学习 (Pattern Recognition Machine Learning) 1.自学内容
(1)机器学习
机器学习直接来源于早期的人工智能领域传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。 从学习方法上来分机器学习算法可以分为监督学习、无监督学习、半监督学习、集成学习、深度学习和强化学习。 1.机器学习包含的模型 线性模型、树模型、支持向量机、人工神经网络模型
2.强化学习是一种机器学习模型的学习方式(强化学习是一种机器学习方法)目前机器学习主流学习方式大致有三种有监督学习、无监督学习和强化学习 (2)机器学习和统计学中常见的流程
建模 → 学习(参数设计) → 预测
1.建模 建模是根据问题需求构建一个数学模型或算法框架用于描述数据特性和预测目标。这个阶段回答了“用什么模型来描述和解决问题”。 ①线性模型如线性回归、逻辑回归适用于简单数据和线性关系。 ②非线性模型如决策树、支持向量机SVM、神经网络适用于复杂数据。 ③概率模型如朴素贝叶斯、隐马尔可夫模型适用于概率推断任务。
2.学习 (1)目标函数 ①回归问题均方误差(MSE) ②分类问题交叉熵损失 ③其他任务如强化学习中的奖励函数 (2)优化算法 梯度下降(Gradient Descent)算法批量梯度下降、随机梯度下降(SGD) (3)超参数调整 模型设计中无法直接从数据中学习的参数(如学习率、正则化系数)。 通过交叉验证或网格搜索选择最佳超参数。
3.预测 预测阶段是用训练好的模型对新数据进行推断或预测的过程。这个阶段回答了“模型如何解决实际问题”。 输入新数据、模型推断、评估预测效果、应用 (3)导数 vs 梯度 (4)KL散度
1.概念两个概率分布之间的差异或信息损失的衡量方式 KL散度Kullback-Leibler Divergence又称为相对熵是信息论和概率论中的一个重要概念用来衡量两个概率分布之间的差异。KL散度被广泛用于机器学习、信息检索和统计学中。
2.定义基于Jensen不等式 当且仅当 P(x)Q(x) 时KL 散度等于 0。
3.KL散度的非负性证明
4.应用 深度学习和概率模型中用 KL散度衡量模型分布和真实分布之间的差异。 如变分自编码器(VAE)、生成对抗网络(GAN)等。 (5)凸优化问题
1.凸优化问题的标准形式 min x f ( x ) \min\limits_xf(x) xminf(x) f(x)是一个凸函数定义在一个凸集C上 x是待优化的变量 约束条件可以是线性或非线性的但是通常需要这些约束形成一个凸集。例如线性约束 A x ≤ b Ax≤b Ax≤b或非线性约束 g i ( x ) ≤ 0 g_i(x)≤0 gi(x)≤0 (其中 g i ( x ) g_i(x) gi(x)是凸函数)
2.常见凸优化技术 (1)梯度下降法 (Gradient Descent) 梯度下降法是最常见的凸优化技术之一特别适用于可微分且凸的目标函数。其基本思路是从某个初始点开始沿着目标函数的负梯度方向即下降最快的方向逐步调整解的值直到收敛到最优解。 x k 1 x k − α ▽ f ( x k ) x_{k1}x_k-α▽f(x_k) xk1xk−α▽f(xk) (2)牛顿法Newton’s Method (3)内点法Interior Point Method (4)对偶方法Dual Methods (5)分布式优化Distributed Optimization 凸优化问题 用户提到的贪心策略问题通常发生在非凸优化或离散优化中。 2.基本概念 数据 模型
训练集、测试集
分类、回归
损失最小二乘线性回归
过拟合模型太复杂 / 数据量太少模型相对于数据复杂。训练集好测试集差(Loss高)。 (泛化性差只学到了表面没有学到本质)
正则化(Regularization)正则化是通过在模型的损失函数中添加额外项以对模型的复杂性进行约束防止过拟合。常用的正则化方法有L1正则化和L2正则化 机器学习方法 (1)近邻法
(2)集成学习方法
(3)主动学习 3.典型的机器学习系统
1.医学图像诊断
2.时间序列识别
3.对话系统 ①领域任务型对话系统 以完成一项具体的领域任务为目标如车载导航机器人和各公司的智能客服等 ②开放域对话系统 目的是满足用户的闲聊需求或者常识性问答需求以产生内容丰富且有意义的问答如闲聊型对话机器人等 4.异常检测 4.前沿研究方向举例
1.多视图机器学习
2.强化学习 (1)监督学习 vs 强化学习 (2)适合强化学习下棋、游戏AI (3)离线强化学习 端到端给输入直接输出。中间过程不可知。 自动驾驶CARLA(Car Learning to Act) 4.可信人工智能 对抗攻击分类模型加噪声人发现没变化机器却无法识别了。 一、逻辑回归
1.线性回归
1.最小二乘线型回归求解 2.概率线性回归 3.最小二乘与最大似然 (1)稀疏解减少过拟合(1范数、2范数)、特征选择
L1范数(对应L1正则化)绝对值之和 L2范数(对应L2正则化)平方和开根 2.逻辑回归
逻辑回归是判别式的 逻辑回归可以加正则化。L2范数可微分用梯度下降。L1用次梯度。 1.二类逻辑回归 逻辑函数也称为Sigmoid函数
2.多类逻辑回归 3.随堂练习 解析 1.线性回归
2.逻辑回归 D.逻辑回归是线性分界面 二、贝叶斯学习基础 1.贝叶斯公式
概率分类 贝叶斯公式 P ( A ∣ B ) P ( A B ) P ( B ) P ( B ∣ A ) ⋅ P ( A ) ∑ A P ( A ) ⋅ P ( B ∣ A ) P(A|B)\dfrac{P(AB)}{P(B)}\dfrac{P(B|A)·P(A)}{\sum\limits_A{P(A)·P(B|A)}} P(A∣B)P(B)P(AB)A∑P(A)⋅P(B∣A)P(B∣A)⋅P(A) 2.贝叶斯决策
贝叶斯决策Bayesian decision是概率框架下实施决策的基本方法它通过综合考虑决策的后验分布和错误决策的损失来做出决策。其中贝叶斯公式被用于计算后验分布。 贝叶斯决策的前提是假设 贝叶斯决策分类最小错误率、最小风险 召回率召回率回答了这样一个问题模型在所有需要找到的目标中成功找到了多少
最小风险贝叶斯决策会选择条件风险最小的类别 3.分类器的概念
1.概念 二类分类问题要机器来判断一张图像是大熊猫还是小熊猫 多类分类问题区分一张图片是大熊猫、小熊猫还是棕熊
分类器是一个计算系统它通过计算出一系列判别函数的值做出分类决策实现对输入数据进行分类的目的。 判别函数是一个从输入特征映射到决策的函数其结果可以直接用于做出分类决策。 分类问题中分类器会把输入空间划分成多个决策区域这些决策区域之间的边界称作决策面或决策边界 2.构建方法 分类器的构建方法有很多种常用的方法大致可以分为三大类这里按照复杂度依次降低的顺序罗列。其中生成式模型和判别式模型都是基于概率框架生成式模型构建所有观测的联合分布而判别式模型只关心给定输入数据时输出数据的条件分布。
生成式模型 vs 判别式模型 ①生成式模型 ②判别式模型 3.分类器的错误率计算通常有三种方法 ①根据错误率的定义按照公式进行计算 ②计算错误率的上界 ③通过在测试数据上进行分类实验来估计错误率 4.基于高斯分布的贝叶斯分类器 5.朴素贝叶斯分类器
概念 应用适合文本分类、垃圾邮件检测。 属于生成式 6.参数估计
(1)最大后验估计 MAP
最大后验估计(Maximum A Posteriori Estimation简称 MAP)是统计学和机器学习中用来估计未知参数的一种方法。它是贝叶斯推断的核心方法之一通过结合先验知识和观测数据进行参数估计。
最大后验估计的目标是找到使后验概率最大的参数值即 (2)期望最大化算法 (EMExpectation Maximization)
对数联合关于后验的期望
(1)后验分布 q ( z ) p ( z ∣ x , θ ) q(z)p(z|x,θ) q(z)p(z∣x,θ) 它表示在给定观测数据 x和当前模型参数 θ的情况下隐变量 z的分布。 给定观测数据x和当前参数θ隐变量z的概率分布。这一分布的引入和使用是 EM 算法的核心所在。 它是EM算法中E步的核心用于计算期望并指导参数更新(M步) arg max ln ∫ p ( x ∣ z , θ ) ⋅ p ( z ) d z ≥ ∫ p ( z ∣ x ) ⋅ ln p ( x , z ∣ θ ) d z − ∫ p ( z ∣ x ) ln p ( z ∣ x ) d z \argmax\ln\int p(x|z,θ)·p(z)dz≥\int p(z|x)·\ln p(x,z|θ)dz-\int p(z|x)\ln p(z|x)dz argmaxln∫p(x∣z,θ)⋅p(z)dz≥∫p(z∣x)⋅lnp(x,z∣θ)dz−∫p(z∣x)lnp(z∣x)dz KL散度 针对于这种包含隐变量z的参数估计问题需要使用EM最大期望算法来解决。 EM算法是一种迭代算法是一种包含隐变量的极大似然估计算法。包含两个步骤 (1)E步计算期望 在E步骤中需要根据当前的参数估计值计算出隐变量的概率分布即求解出每个隐变量的条件分布也就是隐变量的期望值。这个期望值是基于当前的参数估计值计算得到的。
(2)M步最大化 在M步骤中需要根据E步骤计算得到的隐变量的期望值重新估计当前的参数值。这个估计值是基于E步骤计算得到的隐变量的期望值计算得到的。
(3)更新参数值 通过E步骤和M步骤的迭代最终会得到一组参数估计值。如果该估计值收敛则算法结束否则继续迭代。每一步迭代都会优化参数值直到找到最优的参数估计值。 E步预测每个点属于不同类别的概率
M步用估计的分类来更新每一个高斯分布(正态分布)的平均值、方差、当前类别的先验概率 3.蒙特卡罗EM(Monte Carlo EM) 和 变分EM(Variational EM)
变分EM最大化q最大化θ再最大化q… 7.随堂练习
(1)问题1关于概率运算下面说法正确的是 A.先验概率*似然概率后验概率 B.联合概率/边缘概率条件概率 C.贝叶斯分类决策中通常类别作为先验概率类条件概率作为似然概率 D.贝叶斯决策通常根据先验概率制定决策
解析 A.要除一个条件 D.贝叶斯模型、朴素贝叶斯模型都是生成式模型而不是判别式模型 答案BC (2)下面说法正确的是 A. 贝叶斯决策就是最小错误率决策 B. 贝叶斯决策中是否假设先验与最后决策结果无关 C.最小风险贝叶斯决策也需要计算类别的后验概率 D.朴素贝叶斯决策通常假设每个类别中的特征是相互独立的
答案CD (3)下面说法正确的是 A. 最大似然参数估计与最大后验参数估计得到的结果相同 B. EM算法仅适用于最大似然估计 C.EM算法中通常为了解决模型中有隐含变量时的参数估计问题 D.EM算法是交替执行求期望和求最大的运算
解析 A.取决于先验 D.EM 算法包括两个步骤 ①E-step(期望步骤)基于当前参数估计计算隐含变量的期望。对数联合关于后验的期望。 ②M-step(最大化步骤)优化模型参数使得对数似然函数最大化。
答案CD 三、人工神经网络 1.感知机 2.多层神经网络
(1)神经元
1.多个输入一个输出 2.线性之间要有一个非线性的激活函数否则全是wxb例如 w(w(wxb)xb)xb最后还是wxb (2)多层神经网络
1.常用的激活函数 (1)Sigmoid二分类、多个独立二分类 (2)tanh (3)ReLU (4)softmax多分类 (5)恒等函数回归问题 (3)反向传播算法
1.概念 反向传播算法Backpropagation简称BP是神经网络中的一种常用算法主要用于通过梯度下降法优化神经网络的权重训练神经网络。它通过计算网络输出误差对每个权重的梯度并将这个误差从输出层反向传播到输入层从而调整每个权重的值最终达到最小化误差的目的。 反向传播Backpropagation是神经网络训练中的一种重要算法它通过计算损失函数相对于网络中每个参数的梯度来更新神经网络的参数以最小化损失函数。反向传播通常依赖链式法则来计算梯度确保误差信息能够从输出层逐层传递到输入层从而调整每一层的权重和偏置。 2.反向传播算法的工作原理 (1)前向传播 (2)计算输出层的误差 (3)反向传播误差 (4)更新权重
3.优点 反向传播算法通过链式法则的应用减少了计算量。具体来说反向传播通过局部计算和逐层传播误差的方式大大降低了计算复杂度尤其是在深层神经网络中
4.反向传播的局限性 (1)局部最小值问题 (2)梯度消失问题 反向传播算法的核心公式 3.深层神经网络
(1)浅层与深度神经网络
深度学习 效果优于 宽度学习
相同的参数深度学习的错误率 比 宽度学习 更低效果更好
前面几层在提取特征类别共享。 理论上宽度学习也能拟合任意函数但是宽度学习需要的数据量比起深度学习大得多。 (2)过拟合问题
1.概念 过拟合问题是深度神经网络的主要挑战之一其主要原因是模型过于复杂或者训练集过少。
2.解决 (1)早停止 早停止是指在模型训练过程中可通过观察验证集上的预测性能来 决定何时停止对参数的优化从而可以在产生过拟合之前停止训练。 (2)权重衰减 权重衰减是指为了防止得到的权重参数过大而采取的在每步迭代中少量减少权重的方法 (3)丢弃法 丢弃法是指在深度神经网络的训练过程中对于网络中的神经单元(包括节点以及与之连接的边)按照一定的概率将其暂时从网络中丢弃 (3)局部极值问题
1.多次随机初始化 2.随机梯度下降 (更快更好) 3.基于动量的梯度下降 (4)梯度消失问题
当使用反向传播方法求解梯度时使用sigmoid函数或者tanh函数作为激活函数的深度神经网络随着网络层数的增加从输出层到网络最初几层的反向传播得到的梯度的幅度值可能会急剧增大(梯度爆炸)或减小(梯度消失) 激活函数f的导数是0-1之间的数(sigmoid激活函数)其连乘后结果会变的很小导致梯度消失。若初始化的w是很大的数w大到乘以激活函数的导数都大于1那么连乘后可能会导致梯度爆炸。 4.常用的深度神经网络
(1)自编码网络
1.稀疏自编码 2.去噪自编码 (2)卷积神经网络 CNN
1.卷积层、卷积核(convolution kernel) 2.池化(pooling)均值池化(average pooling)、最大池化(max pooling) 3.感受野 4.UNet卷积反卷积图像分割、语义分割 卷积、激活、池化→卷积、激活、池化 (Input→Convolution→Activation→Pooling→…) (3)循环神经网络 RNN循环连接、顺序处理
1.概念 循环神经网络recurrent neural networksRNN。 顺序处理RNN 是一种顺序计算模型它在处理每个时间步时都依赖前一个时间步的计算结果。它是一个逐步的过程即先处理第一个元素再处理第二个元素依此类推。这使得 RNN 在长序列上训练时容易受到梯度消失或梯度爆炸问题的影响。
2.原理、结构 ①智能填空与上下文有关. ②自回归 ③循环连接
3.缺点 梯度消失问题类似传话筒文本很长时传递消息就会出现较大误差
4.应用 ①多对一时序分类如情感分析行为识别 ②一对多时序生成如图像描述 ③多对多对齐时序标注如实体识别填空 ④多对多非对齐机器翻译 ①长短期记忆网络 (long short-term memoryLSTM)
遗忘门决定了哪些信息被遗忘。 输入门决定了哪些新的信息被加入到状态中。 输出门决定了当前的隐藏状态输出哪些信息 ②Seq2Seq
1.概念 Seq2Seq (Sequence-to-Sequence) 模型是基于RNN的一种深度学习架构主要用于处理序列到序列的任务 (机器翻译、语音识别、文本摘要)等.
2.结构 ①编码器 (Encoder) ②解码器 (Decoder) 在现代深度学习中Transformer已经逐渐取代了传统的RNN架构成为处理序列任务的主流方法。 (4)Transformer自注意力机制、并行处理
1.概念 注意力就是权重加权
Transformer是一种seq2seq模型其核心思想是使用注意力 (attention) 和自注意力 (self-attention) 机制。 注意力机制用于捕获输入序列和输出序列之间的关系。 自注意力机制用于捕获文本序列内部的依赖关系构建对原始文本的语义表示。 其中的自注意力是一种特殊的注意力模型。
(1)注意力 注意力作为组件被嵌入在seq2seq神经机器翻译模型中用于学习序列到序列的对齐关系 (2)自注意力 所谓自注意力是指输入序列中的每个单词(或字)都要和该序列中的所有单词(或字)进行注意力计算。好处是学习序列内部的单词(或字)的依赖关系捕获句子的内部结构。 2.原理 引入了Q K V查询(query)、键(key)、值(value) Transformer是并行的。 GPT不是并行的。 (5)变分自编码器 VAE p ( x ) ∫ p ( x ∣ z ) p ( z ) d z p(x)\int p(x|z)p(z)dz p(x)∫p(x∣z)p(z)dz 变分分布通常用q(z∣x) 是对潜在变量 z 的一个近似后验分布 变分下界(ELBO)的推导 最大似然 重建损失 - KL散度 重参数化 z μ ( x ) σ ( x ) ⋅ ϵ zμ(x)σ(x)⋅ϵ zμ(x)σ(x)⋅ϵ (6)对抗生成网络 GAN生成
1.组成 生成器(Generator) 和 判别器(Discriminator)
CNN是GAN的重要组成部分。CNN 是 GAN 架构中的关键组件特别是在图像生成和图像分类等任务中。CNN 用于提取图像的空间特征、进行图像合成和生成以及判断图像的真实性
2.GAN的应用 ①超分辨率重建(SRSuper-Resolution Reconstruction) ②Deepfake换脸
3.例子 G和D对抗如印钞机和验钞机
4.公式
5.CircleGAN (7)扩散模型 SD生成 预测原本的噪声
Stable Diffusion 5.随堂练习
(1)神经网络 解析 C.不一定相同。取决于用的是什么激活什么池化 D.也可以大于
答案B (2)变分自编码 VAE 解析 A.是编码网络
答案BCD (3)生成对抗网络 GAN 解析 A.应该是打分是0.5 B.不需要 C.等价但效果不一样
答案D VAE和GAN分别实现风格迁移如自然场景生成梵高的画风 ①条件生成条件VAE要求训练集必须是配对好的 ②循环GAN不需要配对只要有A风格和B风格内容不一样也可以 四、支持向量机 0.概念
支持向量机(SVMsupport vector machine)又称大间隔分类器 1.大间隔原理
H1 分界面 (超平面) 的 泛化性 更好离分界面距离最小的点距离分界面的距离尽可能地大 (边界离两个数据集都比较远再来新的点不容易被误分。) 找到一个最宽的板子分开红豆和绿豆 分界面、间隔面、支持向量 1.分界面划分两类 2.间隔面离分界面最近的点对分界面作平行线
蓝色线是间隔面红色线是分界面。 蓝色线之外α0ξ0β0 蓝色线上0αC 两个蓝色线内αCξ0β0
3.支持向量 支持向量是那些位于分类间隔边界上或间隔内部的样本点对应 拉格朗日乘子 α i 0 α_i0 αi0 2.基本分类模型
1.基本分类模型
2.大间隔思想 1.二范数Euclidean norm其定义为向量各个分量的平方和的平方根。 ∣ ∣ w ∣ ∣ 2 w 1 2 w 2 2 . . . w n 2 ||w||_2\sqrt{w_1^2w_2^2...w_n^2} ∣∣w∣∣2w12w22...wn2 2.假设直线为 w 1 x 1 w 2 x 2 b w_1x_1w_2x_2b w1x1w2x2b s.t. 是subject to的缩写表示“在…条件下”即“约束条件是…” 解约束条件 ① min f ( x 1 , x 2 , . . . , x n ) \min f(x_1,x_2,...,x_n) minf(x1,x2,...,xn)s.t. x ≥ 0 x≥0 x≥0可用重参数化技巧令 x e y xe^y xey ② min f ( x 1 , x 2 , . . . , x n ) \min f(x_1,x_2,...,x_n) minf(x1,x2,...,xn)s.t. ∑ i 1 n x i C \sum\limits_{i1}^nx_iC i1∑nxiC先求两个其他为常数就解出来了一个x。以此类推。 3.拉格朗日对偶优化
(1)概念
凸优化问题极值点就是最值点
max (maximum最大值)是一个点 min (minimum最小值)是一个点 sup (supremum上确界)可能仍是一个函数 inf (infimum下确界)可能仍是一个函数 (2)拉格朗日对偶函数、弱对偶
1.拉格朗日对偶函数 g ( λ μ ) inf x L ( x , λ , μ ) g(λμ)\inf\limits_x L(x,λ,μ) g(λμ)xinfL(x,λ,μ) 永远小于 f 0 ( x ) f_0(x) f0(x)即是拉格朗日函数关于原问题的下界 2.弱对偶 对偶函数取最大值近似逼近 f 0 ( x ) f_0(x) f0(x)的最小值
根据 拉格朗日弱对偶性对于任意的拉格朗日乘子 λ ≥ 0 λ≥0 λ≥0和 μ μ μ对偶函数值 g ( λ , μ ) g(λ,μ) g(λ,μ)总是小于等于原问题最优值 p ∗ p^* p∗即 g ( λ , μ ) ≤ p ∗ g(λ,μ)≤p^* g(λ,μ)≤p∗ 这是拉格朗日对偶方法的基础性质适用于任何优化问题无论是否是凸优化问题。 类似 鞍点 (3)强对偶 ①互补松弛条件
互补松弛条件 (Complementary Slackness)两项相乘为0则至少有一项为0 (另一项就可以松弛不为零)
②KKT条件 KKT条件Karush-Kuhn-Tucker 条件是非线性优化问题中一种非常重要的必要条件广泛应用于求解带有约束的优化问题尤其是在 约束优化 和 凸优化 中。KKT条件为最优解的判定提供了必要条件尤其适用于非线性规划问题。 1.概念 KKT条件约束优化问题的最优解的判定条件
2.KKT条件的组成 ①可行性条件 ②拉格朗日乘数条件 ③互补松弛条件 ④梯度条件
3.KKT条件与强对偶 满足强对偶则一定满足KKT条件 但是满足KKT条件不一定满足强对偶。 即KKT条件是强对偶的必要不充分条件。 例外在满足 Slater 条件的凸优化问题中两者可以等价 ③强对偶
强对偶原问题的最优值等于对偶问题的最优值即 p ∗ d ∗ p^* d^* p∗d∗ p*原问题的最优值 d*对偶问题的最优值 弱对偶性矮个子里最高的 ≤ 高个子里最矮的 4.线性不可分数据的分类
(1)松弛变量ξ
1.松弛变量ξ有一定的容错代表容错率。 ξ i ξ_i ξi是支持向量机中的 松弛变量用于表示分类点偏离分隔超平面的程度。 ①ξ0完全正确分类可能不属于支持向量 ②0ξ1正确分类但位于分类间隔内是支持向量 ③ξ1分类错误 2.折衷参数C 折衷参数CC越大则松弛变量ξ越小容错越小容易过拟合表现为 训练集效果好测试集效果差。 C越小则松弛变量ξ越大容错越大容易欠拟合表现为 训练集效果差测试集效果也差。
点到分界面的距离 1 ∣ ∣ w ∣ ∣ \dfrac{1}{||w||} ∣∣w∣∣1 3.拉格朗日乘子 α i α_i αi、 β i β_i βi (1) α i α_i αi用于处理 分类约束条件 的拉格朗日乘子变量 α i α_i αi的作用控制分类约束是否被满足。 (2) β i β_i βi用于处理 松弛变量非负性约束 的拉格朗日乘子变量 β i β_i βi的作用确保松弛变量非负。 (3)值是 f ( x ∗ ) w T x ∗ b f(x^*)w^Tx^*b f(x∗)wTx∗b (2)核方法
1.核方法通过将数据从原始空间映射到一个高维特征空间在这个高维空间中使得非线性问题变得线性可分。
核方法的前提优化目标中要有样本的内积。 x i T x j x_i^Tx_j xiTxj即 k e r n e l ( x i , x j ) kernel(x_i,x_j) kernel(xi,xj) 在许多问题中数据在低维空间中是非线性不可分的但在更高维度的特征空间中可能变得线性可分。核方法通过引入一个核函数Kernel Function来隐式地完成这种映射而无需明确地计算高维特征空间中的坐标。 2.映射 将原始输入空间 X 的样本点映射到一个高维甚至无限维的特征空间 F。 3.核函数 核函数 K ( x , z ) K(x,z) K(x,z)是原始空间中的一个函数它等价于高维空间中两个样本点的内积 核方法的核心在于直接利用核函数 K ( x , z ) K(x,z) K(x,z)来计算而不需要显式地进行高维映射 ф ( x ) ф(x) ф(x)。
并不是所有的距离函数都可以作为核函数。一个函数要成为合法的核函数必须满足 Mercer 定理即其对应的核矩阵必须是 半正定的positive semi-definite, PSD 4.核方法的核心思想 通过核技巧Kernel Trick避免显式地将数据映射到高维空间而是在低维空间中通过计算核函数 K ( x , z ) ф ( x ) T ф ( z ) K(x,z)ф(x)^Tф(z) K(x,z)ф(x)Tф(z)代替高维内积计算从而有效解决高维计算复杂性问题。 5.支持向量机回归
SVM①基本只能做二分类 ②泛化性好不容易过拟合
上文讲的是SVM用于分类问题 (尤其是二分类)其实最大间隔的思想同样适用于回归问题。 6.模型扩展
双平面SVM 两个分布的分界面的角平分线 7.随堂练习
(1)核方法、核函数 解析 C.并不是所有的距离函数都可以作为核函数。一个函数要成为合法的核函数必须满足 Mercer 定理即其对应的核矩阵必须是 半正定的(positive semi-definite, PSD)。C错误。
答案ABD (2)拉格朗日对偶优化 解析 B.注意是小于等于不是小于。B正确。
答案ABC (3)支持向量机优化 解析 A.SVM的SMO优化算法。A错误。 B.当使用核方法时支持向量机不再显式地计算 ω ω ω而是通过核函数 K ( x i , x j ) K(x_i,x_j) K(xi,xj)间接计算数据点之间的相似性。具体来说模型的决策函数依赖于对偶参数 α i α_i αi和核函数的线性组合而不是直接计算 ω ω ω。因此无法显式求解 ω ω ω的具体数值。B正确。 C.互补松弛条件是支持向量机优化问题中的重要性质用于连接对偶变量 α i α_i αi、约束条件和松弛变量 ξ i ξ_i ξi通过互补松弛条件 α i ( y i ( w T x i b ) − 1 ξ i ) 0 α_i(y_i(w^Tx_ib)-1ξ_i)0 αi(yi(wTxib)−1ξi)0。可以根据支持向量点的状态求解出偏置项b。C正确。 D.对偶参数alpha0的样本才是支持向量。D错误。
答案BC 五、聚类
本讲学习目标 ①理解聚类的两大类方法 ②掌握K-均值聚类方法理解模糊K-均值聚类的原理 ③掌握谱聚类方法 ④掌握高斯混合模型聚类方法 ⑤掌握DBSCAN聚类方法 1.K-means聚类
K-means聚类 (K-均值聚类)
(1)算法介绍
①概念
1.聚类任务 ①在相同簇中的数据尽可能相似 ②在不同簇中的数据尽可能不同
2.聚类方法 ①基于数据间相似度的方法 ②基于密度估计的方法
3.K-均值K-means 将K个聚类簇的中心作为簇的代表希望所有数据点与其所在聚类中心 的距离总和最小 ②算法步骤
K-means的具体实现包括以下步骤 (1)初始化 ①从数据集中随机选择k个数据点作为初始簇中心。 ②也可以通过优化方法(如K-means)选择初始中心以提升算法性能。 (2)分配数据点到簇 (3)更新簇中心 (4)重复迭代 重复步骤 2 和 3直到簇中心不再发生显著变化或达到预设的迭代次数 ③公式讲解
某个簇这个簇走了一个样本点那么该簇的总损失会下降。 同理一个簇增加了一个样本点该簇的总损失上升。
K-means的目标就是不断移动各个样本点不断迭代使得让所有簇的总损失最小。
1.公式 K-means的目标函数 目标函数是最小化簇内误差平方和公式如下 J ∑ k 1 K ∑ n 1 N I ( z n k ) ∣ ∣ x n − μ k ∣ ∣ 2 J\sum\limits_{k1}^K\sum\limits_{n1}^NI(z_nk)||x_n-μ_k||^2 Jk1∑Kn1∑NI(znk)∣∣xn−μk∣∣2 K簇的数量 N数据点的总数 x n x_n xn第n个数据点 μ k μ_k μk第k个簇的中心 I ( z n k ) I(z_nk) I(znk)一个指示函数若数据点 x n x_n xn属于簇 k k k则取值为1否则为0
目标是找到最佳的簇中心 μ k μ_k μk 使得所有数据点到其对应簇中心的距离平方和 J J J最小 2.均值μ的变化 (1)数据点离开簇 i i i (2)数据点加入簇 j j j (2)模糊K-均值聚类 (Fuzzy K-Means)加权
在每个组里都有兼职 即该样本点在多个簇中只占部分比例要有一个加权系数
①聚类数目的确定类数K越多损失越小
误差会随着聚类数目K的增多假设从当前聚类结果中取出一个数据点为新簇而逐渐减小但是减小的幅度在变化。 通常情况下在聚类数目较少时误差会随着数目的增加而大幅度减小但是在聚类数目达到某个值后误差减小速度会变缓这个值可定为聚类数目。 手肘法如图应选K4。因为从K4开始损失下降速度已不明显边际效益递减。 2.谱聚类
谱聚类是一种基于图论的聚类算法与K-means、模糊K均值等方法不同它不直接在样本的原始特征空间中进行聚类而是通过对样本间的相似度关系构造图利用图的谱特征值和特征向量信息实现聚类。 谱聚类特别适合处理非凸形状簇或复杂数据分布在处理非线性分布数据时表现优异。 (1)概念谱聚类 (Spectral Clustering)
①预处理构建代表数据集的无向图并计算相似度矩阵 ②谱表示构造相应的拉普拉斯矩阵并且计算拉普拉斯矩阵的特征值和特征向量其中一个或多个特征向量构成了所有数据点在新的空间中的表示 ③聚类使用聚类算法如-均值对新的数据表示进行聚类 当我们的数据具有紧凑性、凸数据K-means效果好 但是具有连接结构的数据K-means就失效了应该用谱聚类谱表示 (2)步骤
①定义最优切割的优化目标
1.首先定义最优切割的优化目标要求切割后两个簇的相似性最低 (看起来像是相互之间的距离尽可能地大) 相似度矩阵和度矩阵 2.构造相似图
3.最优切割的优化问题通常有两种表达方式 ①比率切割 (ratio cut) ②归一化切割 (normalized cut) ②计算图拉普拉斯矩阵 投影到一个维度空间在新的空间用K-means聚类。 特征值分解 拉普拉斯矩阵是根据相似度矩阵来定义的 要求是个正交阵即 s . t . H T H I s.t. \quad H^THI s.t.HTHI H是特征向量矩阵。I是正交矩阵(orthogonal matrix)。 Q是正交矩阵 I 或 E是单位矩阵 根据构造的相似图计算图的拉普拉斯矩阵L。常见的拉普拉斯矩阵形式 未归一化拉普拉斯矩阵 L D − W LD-W LD−W 1比率切割每个簇的个数不能太少 2归一化切割(Normalized Cut)一种图划分算法 3.高斯混合模型(GMM) 聚类
高斯混合模型Gaussian Mixture Model, GMM是一种基于概率的聚类方法是混合模型的一种特例用于描述一个数据集由多个高斯分布组成的情况。GMM通过优化混合参数来拟合数据分布并将数据点划分为不同的类别。以下从多个角度详细介绍GMM的概念、原理、优缺点以及应用。 (1)模型表示 (2)模型推理与参数估计
1.后验概率 p ( z n ∣ x n ) p ( x n ∣ z n ) ⋅ p ( z n ) p ( x n ) p(z_n|x_n)\dfrac{p(x_n|z_n)·p(z_n)}{p(x_n)} p(zn∣xn)p(xn)p(xn∣zn)⋅p(zn)
2.步骤 (1)参数估计(最大似然估计) (2)EM算法 ③EM算法的步骤 (复习)
(1)初始化 (2)E步 (期望步骤) 计算每个数据点属于第k个高斯分布的责任值 (3)M步 (最大化步骤)更新模型参数 π k μ k ∑ k π_kμ_k\sum_k πkμk∑k (4)重复迭代 (3)GMM与K-means的区别 GMM除了衡量每个点到我的中心的距离还要考虑这个簇的方差 马氏距离Mahalanobis Distance是以 印度统计学家普拉萨特·马哈拉诺比斯Prasanta Chandra Mahalanobis1893-1972 的名字命名的。他是现代统计学的重要奠基人之一也是印度统计研究所Indian Statistical Institute的创始人。 马哈拉诺比斯提出了马氏距离用以衡量数据点与数据分布之间的距离。与欧几里得距离不同马氏距离考虑了数据的协方差结构因此在处理高维数据和相关变量时具有重要的应用价值。 (4)GMM的应用场景
GMM因其灵活性和概率模型的特点广泛应用于以下领域 ①图像分割如背景与前景分离。 ②模式识别人脸识别、语音识别中的特征建模。 ③异常检测通过概率分布识别数据中的异常点。 ④数据降维与分类结合PCA等方法对复杂数据集进行特征提取和分类。 4.DBSCAN聚类
DBSCAN 不需要事先指定聚类的数量能够有效识别任意形状的簇并可以自动区分噪声点。 1.概念 Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 一种基于密度对噪声鲁棒的空间聚类算法。 基于密度DBSCAN算法可以找到样本点的全部密集区域并把这些密集区域当做一个一个的聚类簇。
2.特点 ①对远离密度核心的噪声点鲁棒。 ②无需知道聚类簇的数量。 ③可以发现任意形状的聚类簇。
3.应用 DBSCAN通常适合于对较低维度数据进行聚类分析 4.思想
5.三类数据点 ①核心点 (Core Point) ②边界点 (Border Point) ③噪声点 (Noise Point)
6.四类关系
7.利用数据关系聚类
8.DBSCAN的步骤 ①临时簇 ②合并临时簇
9.DBSCAN的缺点 维度高了不行 5.随堂练习
(1)K-means C.模糊K-均值聚类必须需要全部的样本点。(因为要每个点在所有簇中都要占据一定的比例)
答案AC (2)高斯混合模型聚类 答案ABCD (3)谱聚类 解析 B.
答案ABCD 六、强化学习 1.基本概念与理论基础 (0)策略学习同策略、异策略 (1)有环境模型、无环境模型
有环境模型(model-based)智能体能够获取环境变化信息能够提 前知道奖励和后续状态。Eg., 已知迷宫地图走迷宫可在脑中预演 无环境模型(model-free)智能体只有执行策略通过与环境交互 才能知道奖励和后续状态。Eg., 不知迷宫地图走迷宫 五子棋和王者荣耀游戏控制是有环境模型还是无环境模型呢
看你能否提前获得 (2)马尔可夫决策过程
当前的行为与前面n个有限的状态有关。 (3)贝尔曼期望方程
动作价值函数 (Action-Value Function) ①Q (Quality)动作值函数评估状态-动作对的期望回报。 ②V (Value)状态值函数评估单个状态的期望回报。 ③π (Policy)策略定义了智能体在每个状态下采取动作的概率分布。 ①状态值函数 (State Value Function) V π ( s ) V^π(s) Vπ(s)
状态值函数 V π ( s ) V^π(s) Vπ(s) 表示在给定策略π下从某一状态s开始能获得的期望累计回报。 它衡量的是一个状态的“好坏”程度具体定义为 从状态 s 开始遵循策略 π 行动。 ②动作值函数 (Action Value Function) Q π ( s , a ) Q^π(s,a) Qπ(s,a)
动作值函数 Q π ( s , a ) Q^π(s,a) Qπ(s,a) 表示在给定策略 π 下从某一状态s开始采取动作a后能获得的期望累计回报。 它衡量的是在特定状态下采取特定动作的“好坏”程度具体定义为 ③策略 π ( a ∣ s ) π(a∣s) π(a∣s)
目的学习一个好的策略π (4)状态动作值函数
状态动作值函数简称动作值函数 (5)最优策略的评估、贝尔曼最优策略异策略 2.规划有环境模型的评估与控制 GridWorld: Dynamic Programming Demohttps://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_dp.html 3.无环境模型的控制基于值函数
(1)蒙特卡洛控制异策略 (2)时序差分控制SARSA同策略 (3)基于 Q学习(q-learning) 的异策略控制
Q学习 (Q-Learning)基于贝尔曼最优方程是异策略目标是通过逐步更新 Q(s,a) 值逐渐接近最优。 q-learning 中有两个重要的概念一个是状态一个是动作 Q π ( s , a ) Q π ( s , a ) α [ r γ max a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q_\pi(s,a)Q_\pi(s,a)α[rγ\max\limits_{a} Q(s,a)-Q(s,a)] Qπ(s,a)Qπ(s,a)α[rγa′maxQ(s′,a′)−Q(s,a)] s当前状态 a当前动作 s’下一状态 r即时奖励 α学习率 γ折扣因子 max a ′ Q ( s ′ , a ′ ) \max\limits_{a} Q(s,a) a′maxQ(s′,a′)从下一状态s’开始所能获得的最大值 Q Learning 介绍https://wizardforcel.gitbooks.io/learn-dl-with-pytorch-liaoxingyu/content/7.1.html Q ( 3 , 1 ) R 3 , 1 γ ⋅ max ( Q ( 1 , 3 ) Q ( 1 , 5 ) ) 0 0.8 ∗ 0 0 Q(3,1)R_{3,1}\gamma·\max(Q(1,3)Q(1,5))00.8*00 Q(3,1)R3,1γ⋅max(Q(1,3)Q(1,5))00.8∗00 Q ( 1 , 5 ) . . . Q(1,5)... Q(1,5)...
Q-Learning与Dijkstra的区别 (4)基于Q学习的深度Q网络控制 4.无环境模型的控制基于策略
(1)蒙特卡洛策略梯度法 和 REINFORCE算法 (2)行动者-评论者算法 基于值函数 基于策略有一个策略网络 5.随堂练习
(1)状态值函数、状态动作值函数 解析 C.只能获得下一个状态动作值不能获得当前的状态动作值
答案BD (2)策略迭代算法、值迭代算法 C.不需要交替 D.不改进
答案AB (3)强化学习 答案AC (4)强化学习 (1)基于策略的方法 B. Actor-Critic 算法 D. 蒙特卡洛策略梯度
(2)非基于策略的方法 A. 深度 Q 学习 C. 蒙特卡洛控制 [基于值] (1)基于贝尔曼最优方程的算法是 ①值迭代 ②Q学习
(2)基于贝尔曼期望方程的算法 ①策略迭代 ②SARSA 七、主成分分析、相关的谱方法
主成分分析(PCA)无监督的 线性判别分析(LDA)有监督的 1.主成分分析 PCA
PCA投影完后特征相互独立。
①特征选择L1正则化 ②特征提取乘一个矩阵d×D X ∈ R D → X ~ ∈ R D X∈R^D→\tilde{X}∈R^D X∈RD→X~∈RD X ~ W T ⋅ X W ∈ R D × d \tilde{X}W^T·XW∈R^{D×d} X~WT⋅XW∈RD×dW称为投影矩阵u称为投影向量 (1)最大化方差
①概念
①协方差矩阵SD×D是对称矩阵 S ∈ R D × D S∈R^{D×D} S∈RD×D ②投影向量uD×1 ③谱聚类拉普拉斯矩阵n×n ④Kernel矩阵n×n 一维刻画方差向量刻画协方差。 空间相互独立协方差矩阵就是对角阵。只有自己和自己有一个自协方差即是方差 ②协方差矩阵S
1.协方差矩阵S的定义为 S 1 N ∑ i 1 N ( x i − m ( x ) ) ( x i − m ( x ) ) T S\dfrac{1}{N}\sum_{i1}^N(x_i-m(x))(x_i-m(x))^T SN1i1∑N(xi−m(x))(xi−m(x))T D D D数据的维度 N N N样本数量即数据点的总数
其中 x i x_i xi第i个观测数据点属于 R D R^D RD m ( x ) m(x) m(x)数据的均值向量计算公式为 m ( x ) 1 N ∑ i 1 N x i m(x)\dfrac{1}{N}\sum\limits_{i1}^Nx_i m(x)N1i1∑Nxi是一个D维向量 2.协方差矩阵S的意义 协方差矩阵S是主成分分析(PCA)的核心 ①PCA的目标是将数据投影到一个子空间使得投影后的数据方差最大化。 ②协方差矩阵的特征值和特征向量决定了最佳投影方向主成分对应于最大化方差的方向。 ③m维度 max T r [ U T ] S U \max Tr[U^T]SU maxTr[UT]SU
①中心化所有数据都减去均值 ②标准化除以标准差s即除方差的开根 ③归一化让所有数据都压缩到[0,1] ④讲义 S u 1 λ u 1 Su_1λu_1 Su1λu1即投影向量u1是协方差矩阵S的特征向量。 (2)最小化误差
主成分分析的另一种定义方法以最小化原始数据与投影后数据的距离平方和误差为优化目标。
①最小化误差的思想是如何将原始数据点 x n x_n xn 从原始 D-维空间A转换到一个新的D-维空间B 中同时最小化投影误差。 ②核心思想用新空间的正交基U表示原空间的数据同时最小化误差。 (3)主成分分析与K-L变换
总类内散度矩阵 2.概率PCA PPCA
(1)概念
概率PCA(Probabilistic PCA, 简称 PPCA)是一种基于概率模型的主成分分析(PCA)由Tipping和Bishop于1999 年提出。它将PCA解释为一个线性高斯生成模型并提供了PCA的概率框架。
与传统PCA不同PPCA ①将数据的生成过程建模为 潜变量(latent variables) 和噪声的组合。 ②基于最大似然估计MLE或贝叶斯推断来求解主成分方向。 (2)概率PCA与传统PCA的区别
PPCA与PCA的关系当噪声方差 σ 2 → 0 σ^2→0 σ2→0 时PPCA退化为传统PCA。 (3)概率PCA的优点
①概率解释PPCA提供了一个明确的概率模型能够量化不确定性。 ②噪声建模PPCA显式地建模了观测数据中的噪声。 ③撒播缺失数据处理由于PPCA是基于概率的可以通过期望最大化EM算法处理缺失数据。 ④与PCA的关系当噪声方差 σ 2 → 0 σ^2→0 σ2→0 时PPCA退化为传统PCA。 (4)PPCA的计算过程 (5)潜变量z
1.概念 潜变量(Latent Variables)是数据中隐藏的、不直接观测到的变量用于解释观测数据的结构或特征。 在概率主成分分析(PPCA)中潜变量z是一个低维空间中的向量用来表示高维观测数据x在低维空间中的投影。
2.定义 PPCA假设数据x是通过潜变量z通过一个线性变换生成的表达式为 x W z μ ϵ xWzμϵ xWzμϵ 其中 W W W投影矩阵 (从潜变量到观测空间的线性变换) μ μ μ测数据的均值。 ϵ ϵ ϵ高斯噪声 ϵ ∼ ϵ\sim ϵ∼
3.潜变量z的作用 ①降维 ②特征表示 ③生成模型 ④数据重建 (6)讲义 3.核PCA (kernel PCA)
(1)概念
核主成分分析(Kernel PCA)是一种非线性数据降维方法它是主成分分析(PCA)的扩展通过引入核技巧(kernel trick)可以捕捉数据的非线性结构。
普通的PCA假设数据分布在一个线性子空间中而核PCA通过将数据映射到一个高维的特征空间在特征空间中执行PCA从而能够处理非线性数据。 (2)核心思想 (3)核PCA与普通PCA的比较 (4)讲义 当前样本点和所有的相似度很像样本之间的注意力 通过它跟其他的关联性去刻画一种新的表示 4.相关的谱方法
(1)线性判定分析 (LDA)
0.概念
(1)线性判别分析(LDALinear Discriminant Analysis)。
(2)LDA ①类间最大化均值距离 ②类内最小化类内散度
(3)概念 LDA是一种统计方法主要用于分类和降维。它通过投影将数据从高维空间映射到低维空间同时最大化类间的可分性(类间方差)并最小化类内的紧凑性(类内方差)
线性判别分析LDA是一种有监督的降维方法主要用于分类和数据降维任务。LDA通过投影将数据从高维空间映射到低维空间目标是最大化类间可分性并最小化类内分散性以便在降维后的空间中实现更好的分类效果。
(4)LDA的目标函数
(5)LDA的核心思想 ①二类数据的线性判别分析 ②多类数据的线性判别分析
1类间散度矩阵 S B S_B SB
类间散度描述的是每个类别的均值相对于整体均值的散布 S B ∑ c 1 C N c ( m c − m ) ( m c − m ) T S_B\sum\limits_{c1}^CN_c(m_c-m)(m_c-m)^T SBc1∑CNc(mc−m)(mc−m)T 其中 m c m_c mc第c类的均值 m m m所有数据的全局均值 N c N_c Nc第c类的样本数 2类内散度矩阵 S W S_W SW
类内散度描述的是每个类别内部样本的散布偏离其类别均值的程度 S W ∑ c 1 C ∑ n 1 N c ( x n c − m c ) ( x n c − m c ) T S_W\sum\limits_{c1}^C\sum\limits_{n1}^{N_c}(x_n^c-m_c)(x_n^c-m_c)^T SWc1∑Cn1∑Nc(xnc−mc)(xnc−mc)T 其中 x n c x_n^c xnc属于第c类的样本 (2)典型相关分析 (CCA)
CCA是前融合 Clip模型语义一致相关性高 5.随堂练习
(1)PCA 答案ACD (2)线性判别分析LDA 解析 A.PCA是无监督的LDA是有监督的 B.PCA可以降维到任意维LDA有限制 D.PCA投影后是对角阵而LDA不一定
答案AC