做网站按什么收费,苏州cms,珠海百度推广优化,翻墙到国外网站怎么做文章目录 文章目录 00 写在前面01 基于Python版本的K-means代码02 X-means方法03 最小二乘法简单理解04 贝叶斯信息准则 00 写在前面
时间演变聚类算法#xff1a;将时间演变聚类算法用在去噪上#xff0c;基本思想是#xff0c;具有相似信号演化的体素具有相似的模型参数… 文章目录 文章目录 00 写在前面01 基于Python版本的K-means代码02 X-means方法03 最小二乘法简单理解04 贝叶斯信息准则 00 写在前面
时间演变聚类算法将时间演变聚类算法用在去噪上基本思想是具有相似信号演化的体素具有相似的模型参数值并且由机器学习决定的集群数量远远小于体素的数量。因此对一个聚类进行平均可以大大提高聚类级逆解的信噪比这可以用作体素级优化的鲁棒初始猜测。
在该演变算法的基础上总结了K-means算法、X-means算法、最小二乘法、贝叶斯信息准则
01 基于Python版本的K-means代码
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs# 生成具有三个簇的示例数据
n_samples 300
n_features 2
centers 3
cluster_std 1.0x, y make_blobs(n_samplesn_samples, n_featuresn_features, centerscenters, cluster_stdcluster_std, random_state42)# 设置K值簇的数量
k 3# 初始化KMeans算法
kmeans KMeans(n_clustersk, random_state42)# 进行聚类
kmeans.fit(X)# 获取聚类结果
labels kmeans.labels_
centroids kmeans.cluster_centers_# 绘制聚类结果
plt.figure(figsize(8, 6))
plt.scatter(X[:, 0], X[:, 1], clabels, cmapviridis, markero, edgecolork, s50)
plt.scatter(centroids[:, 0], centroids[:, 1], cred, markerx, s200, linewidths3, zorder10)
plt.title(K-means Clustering)
plt.xlabel(Feature 1)
plt.ylabel(Feature 2)
plt.grid(True)
plt.show() 02 X-means方法
传统的K-means聚类算法需要预先确定聚类的数量K。在这里使用了一种称为X-means的方法该方法能够自动选择K。X-means方法通过两个步骤反复迭代来选择合适的聚类数量K。
步骤1首先执行传统的K-means聚类给定一个初始的聚类数量。计算贝叶斯信息准则BICBIC是聚类对数似然和对K的惩罚项的和。随着K的增加拟合的优度对数似然增加但过拟合的可能性也增加。惩罚项用来减少这种可能性。步骤2每个聚类的质心质心被替换为两个子质心并在该聚类内使用这些子质心作为初始猜测进行局部K-meansK 2。计算该聚类的BIC如果BIC较大则进行替换否则保留“父”质心。重复步骤1和步骤2直到整体BIC不再增加或 K达到预先设定的最大值为止。在这项研究中初始聚类数为1最大聚类数为50。
03 最小二乘法简单理解
最小二乘法Least Squares Method, LSM是统计学和数据分析中常用的一种方法用于拟合数据模型。它的本质是一个优化过程因为它通过最小化目标函数来找到模型参数的最优解。
1最小二乘法的基本思想 假设我们有一组观测数据点(x1, y1),(x2, y2),…,(xn, yn)我们希望找到一个函数 f(x)来拟合这些数据点。最简单的情况是线性拟合即找到一个直线模型 yaxb使得该直线尽可能靠近所有观测数据点。
最小二乘法的目标是最小化以下目标函数误差的平方和 S ( a , b ) ∑ i 1 n ( y i − ( a x i b ) ) 2 S(a,b) {\textstyle \sum_{i1}^{n}} (y_{i}-(ax_{i}b) )^{2} S(a,b)∑i1n(yi−(axib))2 其中yi是观测值axib是预测值。
2最小二乘法的优化过程
步骤1 定义目标函数目标函数S(a,b) 表示预测值与观测值之间的误差的平方和。步骤2 求导数为了找到使目标函数最小的参数 a 和b我们对 S(a, b) 分别对a 和 b 求偏导数并将其设为零得到一组方程 ∂ S ∂ a − 2 ∑ i 1 n x i ( y i − a x i − b ) 0 \frac{\partial S}{\partial a} -2 {\textstyle \sum_{i1}^{n}} x_{i}(y_{i}-ax_{i}-b)0 ∂a∂S−2∑i1nxi(yi−axi−b)0 ∂ S ∂ b − 2 ∑ i 1 n ( y i − a x i − b ) 0 \frac{\partial S}{\partial b} -2 {\textstyle \sum_{i1}^{n}} (y_{i}-ax_{i}-b)0 ∂b∂S−2∑i1n(yi−axi−b)0步骤3 解方程通过求解上述方程组可以得到最优参数 a 和 b 的值。具体求解过程可以得到如下结果 a n ∑ i 1 n x i y i − ∑ i 1 n x i ∑ i 1 n y i n ∑ i 1 n x i 2 − ( ∑ i 1 n x i ) 2 a \frac{n {\textstyle \sum_{i1}^{n}}x_{i}y_{i}-\sum_{i1}^{n}x_{i}\sum_{i1}^{n}y_{i} }{n {\textstyle \sum_{i1}^{n}}x_{i}^{2}-({\textstyle \sum_{i1}^{n}}x_{i})^{2} } an∑i1nxi2−(∑i1nxi)2n∑i1nxiyi−∑i1nxi∑i1nyi b ∑ i 1 n y i − a ∑ i 1 n x i n b \frac{{\textstyle \sum_{i1}^{n}}y_{i}-a\sum_{i1}^{n}x_{i}}{n} bn∑i1nyi−a∑i1nxi步骤4 优化的本质最小二乘法的过程实际上是通过优化方法来最小化目标函数。优化在这里的意思是找到使目标函数达到最小值的参数组合。在最小二乘法中这个目标函数是误差的平方和优化过程就是通过求解导数来找到误差平方和的最小值。
04 贝叶斯信息准则
贝叶斯信息准则Bayesian Information Criterion, BIC是一种统计量用于模型选择特别是在评估模型复杂性和拟合优度之间的平衡时使用。 BIC 的计算公式如下 B I C − 2 l n ( L ) k l n ( n ) BIC-2ln(L) kln(n) BIC−2ln(L)kln(n)
其中
ln(L)是模型的对数似然log-likelihood。对数似然度量了模型对数据的拟合优度。对数似然值越大说明模型越能解释数据。k是模型的参数数量。在聚类模型中参数数量通常包括聚类数K和每个聚类的参数如均值和方差。k越大模型越复杂。n是样本数量。样本数量是指数据中的观测值个数。BIC 的公式中-2ln(L)代表了模型的拟合优度值越小拟合越好。kln(n)是对模型复杂性的惩罚项随着参数数量 k 和样本数量n的增加惩罚项也增加。这个项用来防止过拟合。BIC 的值越小模型越好。因此在选择模型时希望找到使 BIC 最小的模型。