织梦做公司网站要钱吗,深圳的外资企业有哪些,公司包装推广,品牌高端网站制作企业1. 宽表 2.缺失值的处理方法
最简单粗暴的就是删除#xff0c;这种情况是凡是有缺失值行数很少。均值替代。缺失值的行数比较多一点儿的时候#xff0c;直接删除会影响样本数量#xff0c;那就均值替代#xff0c;或者中位数替代等方法。还有复杂的方法#xff0c;把有缺…1. 宽表 2.缺失值的处理方法
最简单粗暴的就是删除这种情况是凡是有缺失值行数很少。均值替代。缺失值的行数比较多一点儿的时候直接删除会影响样本数量那就均值替代或者中位数替代等方法。还有复杂的方法把有缺失值的列做Y标签用其他列做X训练模型缺失值处用预测值替代很繁琐但效果比较好一点。
3.超参搜索
超参搜索通过代码放到每个算法上。这个很有价值因为模型训练就实现了自动化。模型训练处理数据处理特征工程外很关键的就是调整参数让模型精度实现最优。
4.不均衡数据处理
主要是不同种类标签的数量有的非常多有的非常少。把非常少的进行简单的复制黏贴使每个标签种类的数量达到1000实现所有标签种类的大体均衡成为均衡数据
5.书籍推荐
李沐的《统计学习》周志华《机器学习》
6.hierarchical model层级模型分层模型
有2个底层逻辑不同的算法分别命名为算法1和算法2。算法1较弱一点。
我们用算法1的预测结果作为新特征X放进训练数据集。相当于我用算法1去训练模型1时有30个X (x1,x2,~~, x30) , 现在算法1模型的预测结果作为x31这样训练数据就有31个X了再算法2去训练模型2再去做预测。
如果用算法1训练模型1并把所有训练数据都做预测预测结果作为新特征x31
用三折法或者五折法即把train数据随机均分成三份dataset1dataset2dataset3。拿dataset1和dataset2这两份训练模型合并在一起用算法1训练模型model3并对dataset3数据做预测预测结果Ypred3作为新特征放进dataset3中作为新的1/3训练数据dataset3new。
依次类推分别把用dataset2和dataset3合并起来依然用算法1训练模型model1并对dataset1做预测预测结果Ypred1作为新的特性放进dataset1中作为新的1/3训练数据dataset1new。
再求出dataset2new最后合并dataset1newdataset2newdataset3new成datasetnew。
使用datasetnew数据做训练用算法2训练基于算法2的M2。
用train数据包含dataset1dataset2dataset3用算法1训练模型M1对testsuperset做预测预测结果Ypred_testsuperset作为新的特性重新放入testsuperset之中生testsuperset_new。再用M2对testsuperset_new重新预测预测结果作为最后结果submission_new提交kaggle。
理论上这时的精度更好。
这就是分层模型。
注意算法1和2是不同底层逻辑的不同算法。
7.基于逻辑回归的多分类算法
multiple logisticalregression modelDeep Belief Networks (DBNs)Radial Basis Function Networks (RBFNs)
8.学习器结合
算法1BLAST算法2PSI-BLAST算法3HMMER算法4HHSearch 最后将上述结果通过投票规则选出得票最高的每个sequence的term值及其相似性的取值。
9.集成学习总结Adaboosting、随机森林、Bagging、结合策略
10.学习器结合能带来三点好处