国外购买空间的网站有哪些,营销培训内容有哪些,网站模块删除,四川省工程建设信息网站1.线性回归#xff0c;对数几率回归#xff0c;线性判别分析是分类还是回归任务#xff1f;是有监督的学习还是无监督的学习#xff1f;
有监督学习和无监督学习
解释#xff1a; 线性模型要做的有两类任务#xff1a;分类任务、回归任务
分类的核心就是求出一条直线w…1.线性回归对数几率回归线性判别分析是分类还是回归任务是有监督的学习还是无监督的学习
有监督学习和无监督学习
解释 线性模型要做的有两类任务分类任务、回归任务
分类的核心就是求出一条直线w的参数使得直线上方和直线下方分别属于两类不同的样本 回归就是用来拟合尽可能多的点的分布的方法我们可以通过拟合的直线知道一个新样本的相关数值 有监督的学习
通过已有的训练样本去训练得到一个最优模型再利用这个模型将所有的输入映射为相应的输出对输出进行简单的判断从而实现预测和分类的目的也就具有了对未知数据进行预测和分类的能力。简单来说就像有标准答案的练习题然后再去考试相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的 它的训练样本中是同时包含有特征和标签信息的因此根据这些来得到相应的输出。
有监督算法常见的有线性回归算法、BP神经网络算法、决策树、支持向量机、KNN等。 监督学习从训练数据集合中训练模型再对测试据进行预测训练数据由输入和输出对组成测试数据也由相应的输入输出对组成。
有监督学习中比较典型的问题可以分为输入变量与输出变量均为连续的变量的预测问题称为回归问题(Regression)输出变量为有限个离散变量的预测问题称为分类问题(Classfication)输入变量与输出变量均为变量序列的预测问题称为标注问题。
应用垃圾邮件分类等已知结果的分类问题。 无监督的学习
训练样本的标记信息未知 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律为进一步的数据分析提供基础此类学习任务中研究最多、应用最广的是聚类 (clustering)聚类目的在于把相似的东西聚在一起主要通过计算样本间和群体间距离得到。深度学习和PCA都属于无监督学习的范畴。
无监督算法常见的有密度估计(densityestimation)、异常检测anomaly detection)、层次聚类、EM算法、K-Means算法(K均值算法)、DBSCAN算法 等。
应用 比较典型的是一些聚合新闻网站比如说百度新闻、新浪新闻等利用爬虫爬取新闻后对新闻进行分类的问题将同样内容或者关键字的新闻聚集在一起。所有有关这个关键字的新闻都会出现它们被作为一个集合在这里我们称它为聚合(Clustering)问题。 答案
线性回归是回归任务
对数几率回归线性判别分析是分类任务。
都是有监督的学习。
机器学习(三)一文读懂线性判别分析LDA 2.判断下列说法是否正确并说明理由。
1逻辑回归也叫对数几率回归是监督机器学习的算法.
答正确
逻辑回归(Logistic Regression,LR)是一种广义的线性回归分析模型, 它使用了真值对数据进行训练需要打标数据所以应该属于监督学习算法。
2逻辑回归主要用来做回归。
答错误
逻辑回归可以用在回归、二分类和多分类等问题上主要用来处理分类问题。
3在训练逻辑回归模型之前对特征进行标准化是必须的。
特征标准化 答错误
特征标准化的主要目的是实现模型的最优化并不是必要过程。 3.梯度下降法找到的一定是下降最快的方向么
答: 不一定是梯度下降只是‘局部最优下降’梯度下降法并不是下降最快的方向它只是目标函数在当前的点的高维切平面上下降最快的方向。 4.试分析在什么情况下f(x) W.T* x b 中不用考虑偏置项b。
答1
类比与平面直线方程b相当于自变量取值为0因变量的值。当只需要考虑x的取值对y的影响的话则可以不用考虑b。
答2
①b与输入毫无关系如果没有by‘wx必须经过原点 ②当两个线性模型相减时消除了b。可用训练集中每个样本都减去第一个样本然后对新的样本做线性回归不用考虑偏置项b。
答3
能够确定算法结果仅和给出的属性相关或者有其他影响因素但是这些因素都相同时。
答4
1.当讨论变量x对结果y的影响不用考虑b 2.可以用变量归一化max-min或z-score来消除偏置。 类别不平衡
解决类别不平衡问题的方法综述 当分类的训练样例数据相差很多达到一个数量级甚至以上时我们通常需要通过再缩放recalling来平衡数据的分布通常有几种手段
欠采样去掉数据量多的类别中的部分样本简单的丢弃数据可能会导致重要信息缺失可以将该类分割为几个集合供不同分类器训练使用自助法留出法交叉验证法等然后再将分类器集成 过采样 增加数据量少的类别一部分样本单纯通过复制样本来增加数据量可能使过拟合风险提高可以通过一些插值算法来生成 调整阈值将分类的阈值做相应调整 多分类学习
多分类学习
对于有N个类别的多分类任务我们可以将其拆分为多个二分类分类器。 常用拆分有OvOOne vs. OneOvROne vs RestMvMMany vs Many。
OvO N个类别两两配对产生 NN-1/2个分类器并得到 NN-1/2 个结果最终将预测最多的类别设定为最终分类结果。OvR将每次一个类的样例作为正例所有其他类的样例作为房里来训练N个分类器。测试时选择若仅有一个分类器分为正类则判定为该类产生 N个分类器并得到 N个结果结果是二值的即“是”或“否”如果结果是“是”的话那么这个类可能是最终的结果。在所有的结果中若有只一个正类那么这个类就是分类的结果若有多个正类则根据N个正类结果的置信度来判断。MvM是OvO和OvR的一般化每次将若干类作为正例若干类最为负例。 常见的MvM技术有纠错输出码(Error Correcting Output Codes ECOC)。