福建住房与城乡建设部网站,厦门专业制作网站,网站 工信部备案 收回,免费网站空间免费主机文章目录 1.类型2.数据集3.效果评估4.sklearn5.sklearn机器学习算法七种数据分析方法1.对比分析2.细分分析3.A/B测试 #xff08;单一变量分析#xff09;4.漏斗分析5.留存分析6.相关分析7.聚类分析 1.类型
【1】监督学习#xff1a;从成对的已经标记好的输入和输出经验数据… 文章目录 1.类型2.数据集3.效果评估4.sklearn5.sklearn机器学习算法七种数据分析方法1.对比分析2.细分分析3.A/B测试 单一变量分析4.漏斗分析5.留存分析6.相关分析7.聚类分析 1.类型
【1】监督学习从成对的已经标记好的输入和输出经验数据作为一个输入进行学习用来预测输出结果是从有正确答案的例子中学习 任务分类/回归
【2】无监督学习在数据中发现一些规律 任务聚类/降维
【3】半监督学习介于监督学习与非监督学习之间的学习一种增强学习问题可以通过决策来获得反馈但是反馈与某一个决策可能没有直接关系
2.数据集 三种类型 【1】训练集用来进行训练产生模型或算法的数据集 规模50%以上 问题过度拟合
【2】测试集用来专门进行测试已经学好的模型或者算法的数据集 规模25%
【3】验证集调整超参数变量 规模余下部分 交叉验证 将数据集分成N块使用N-1块进行训练在另一块上测试。一次循环直到每一块都测试过。
优点 1.充分利用数据在数据较少的情况下也能有较好的表现 2.交叉验证为模型的效果评估提供来比只有一个数据集更准确的方法
3.效果评估
1.无监督学习
真阳性TP正确识别目标
假阳性FP错误识别目标
真阴性TN正确识别非目标
假阴性FN错误识别非目标【指标】
准确率ACCTPTN/TPTNFPFN
精确率PTP/TPFP
召回率RTPTPFN
4.sklearn
sklearn.datasets.load_* 获取小规模数据集 sklearn.datasets.fetch_* 获取大规模数据
5.sklearn机器学习算法
【分类】
K-近邻算法 sklearn.neighbors
贝叶斯算法 sklearn.naive_bayes
逻辑回归 sklearn。linear_model.LogisticRegression
决策树与随机森林 sklearn.tree【回归】线性回归 sklearn.linear_model.LinearRegression岭回归 sklearn.linear_model.Ridge
【无监督学习】
聚类 sklearn。cluster.KMeans
七种数据分析方法
1.对比分析
对比数量差异 例如时间维度上进行环比、同比、定基对比
2.细分分析
逐步分析例如-销售额上涨先拆分到国家、省、市、门店对比分析哪个区域变大带来的或者拆分到大的品类、在进行细分到某个小的单品
交叉细分同时选取两个或者三个维度的变量综合分析对结果或者群体的影响例如四象限分析、RFM模型
3.A/B测试 单一变量分析
4.漏斗分析
漏斗图展示某个特定流程中事件的变化情况主要用于统计和计算转化率等关键数据 首先确定用户转化路径之后通过量化每一步的转化率来衡量一个商业或者产品的成败及可优化调整的点
一款电商类APP从用户下载、访问、注册、浏览、交易计算每一步的数值及漏斗比例
5.留存分析
用来分析用户参与情况/活跃程度的分析模型
常见留存指标有次日留存、七日留存、十五日留存、月留存等表示目标用户在一段时间后回访产品或回到产品中完成某个行为的比例
6.相关分析
研究现象之间是否存在某种依存关系
方法散点图、相关系数等
分类单相关、复相关、偏相关
7.聚类分析
将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程
常见应用用户细分、异常检测