建设电子商务网站的步骤,网页广告怎么彻底删除,珠海市建设工程信息网,广告制作服务文章目录 第2章 问题建模#xff08;一#xff09;对于多分类问题#xff0c;可否将其看作回归问题进行处理#xff0c;对类别标签又有什么要求#xff1f;#xff08;二#xff09;目前给出的都是已有的评价指标#xff0c;那么这些评价指标#xff08;分类指标和回归… 文章目录 第2章 问题建模一对于多分类问题可否将其看作回归问题进行处理对类别标签又有什么要求二目前给出的都是已有的评价指标那么这些评价指标分类指标和回归指标的损失函数如何实现三解决样本分布不均衡问题时尝试用代码实现样本加权、类别加权和采样算法等几种方式并对比使用权重前后的分数变化。四在对不均衡的数据集进行采样时是否会影响训练集和测试集之间的独立同分布关系五在进行K折交叉验证的时候对于K值的选取是否越大越好呢六在大多数情况下我们会选择使用K折交叉验证那么K折交叉验证为什么能够帮助提升效果呢 第3章 数据探索第7章 用户画像一你觉得用户画像是想体现用户的共性还是个性为什么二就你日常使用的App思考其算法与运营团队会如何给你画像呢三文本挖掘算法也是非常多的尝试整理这些算法调用方法并且结合原理去熟悉参数的设置。四嵌入方式被广泛应用除了Word2Vec和Deep Walk以外还有哪些嵌入算法具体原理是什么样的五相似度计算方法非常多但要从大量数据中检索出最为相似的或者相似度排前N位的并不是件容易的事情所以有什么好的检索算法吗六内容摘要/总结 最近在看《机器学习算法竞赛实战》虽然很多看不懂但是我觉得学习就是看不懂、然后就厚着脸皮反复看呗我不是一次就能看懂、学会的天才。 思考练习里面的内容我基本都答不上来答案来自CodeGeeX。仅供参考。 第2章 问题建模
一对于多分类问题可否将其看作回归问题进行处理对类别标签又有什么要求
CodeGeeX 对于多分类问题可以将它们看作回归问题进行处理。但是为了 successful会对类别标签提出以下要求 1、每个类别都有一个唯一的数值标签。 2、类别标签必须是 continuous 且 non-negative。 3、类别标签不能存在空值或缺失值。 满足这些要求的类别标签可以使用进行回归问题处理。但是请注意这种方法可能会降低 model 的性能因为多分类问题通常需要 special handling。 【翻译】 continuous连续性 negative负类 non-negative非负类 special handling特殊处理
二目前给出的都是已有的评价指标那么这些评价指标分类指标和回归指标的损失函数如何实现
CodeGeeX 在机器学习中指标如 F1-score、Accuracy、MSE 等通常用于评估模型的性能。这些指标可以使用损失函数如 Log-loss、MSE-loss 等实现。在神经网络训练过程中模型会根据输入数据计算损失函数并根据损失函数的大小更新模型参数。 我 我觉得这个问题CodeGeeX回答的不太好。依据我看书后的理解和总结如下 1、分类问题常见的评价指标 ①错误率与精度 要点加总等于1。 ②准确率与召回率 要点同时使用此消彼长。 ③F1-score 要点调和平均②介于[0,1]区间。 ④ROC曲线 要点正负样本不均衡时依然能够保持不变。该指标不常用。 ⑤AUC 要点极常见的指标。定义为ROC曲线下的面积。取值范围0.5-1之间。 是数值值越大分类器效果越好。 ⑥对数损失 要点常见指标。取值0-1之间。 2、AUC和对数损失对比 同样是概率。 AUC侧重于模型将正样本排到前面的能力。比如广告排序效果。 我理解的是如果要考察排在前几位的就用AUC。比如热度前十增长前十这类的……评价这类的预测用AUC比较好。 对数损失反映平均偏差更偏向于将样本数量多的那类划分准确。评价模型预测的概率是否足够准确。 3、如何实现大概就是代码问题了书上给了准确率、召回率、F1-score
from sklearn.metrics import precision_score, recall_score, f1_score
precision precision_score(y_train, y_pred)
recall recall_score(y_train, y_pred)
f1 f1_score(y_train, y_pred)代码很简单导入模块然后直接使用方法参数就那两个直接放进去 就好啦。 4、回归指标 ①平均绝对误差MAEMean Absolute Error又称为L1范数损失 残差的基础上弄了个绝对值。所谓的“绝对”就是绝对值的意思。 ②均方误差MSEMean Squared Error又称为L2范数损失 残差基础上弄了个平方。 ③均方根误差 在均方误差基础上弄了个开方。 ④平均绝对百分比误差MAPE) 在平均绝对误差MAE基础上除以预测值y’。弥补了MAE的不足真实值越大误差越小。 5、这些指标的损失函数……这个我就不太理解了貌似书上只说了这些指标啊它们还有损失函数吗以后再说吧…… 现实情况是我还没啰嗦完面试官可以滚了下一位……
三解决样本分布不均衡问题时尝试用代码实现样本加权、类别加权和采样算法等几种方式并对比使用权重前后的分数变化。
CodeGeeX 在解决样本分布不均衡问题时可以使用以下几种方式来处理 1、样本加权为不同类别的样本分配不同的权重以便于对不同类别进行均衡采样。 2、类别加权为不同类别的样本分配不同的数量以便于对不同类别进行均衡训练。 3、采样算法使用算法来生成平衡的样本分布例如adasyn、balance_dataset、ClassBalancedSampler 等。 4、使用权重前缀在计算损失函数时使用权重前缀来调整不同类别的重要性。例如在 softmax 损失函数中可以使用权重前缀来调整预测概率的权重。 5、使用 focal lossfocal loss 是一种针对样本分布不均衡问题的损失函数它可以有效地提高识别困难样本的能力。 6、使用 gradient reverse algorithmGRAD 是一种通过调整学习率来解决样本分布不均衡问题的方法它通过最大化正负样本的差值来提高困难样本的训练强度。 我 看不懂……遇到具体问题的时候再说吧……代码实现没有没有……
四在对不均衡的数据集进行采样时是否会影响训练集和测试集之间的独立同分布关系
CodeGeeX 在某些情况下对不均衡的数据集进行采样可能会影响训练集和测试集之间的独立同分布关系。具体来说这取决于采样算法的设计和数据集的性质。一些采样算法如 undersampling欠采样 和 oversampling过采样可以确保训练集和测试集之间的独立同分布关系保持不变。然而一些算法如 balanced sampling平衡取样;对称抽样可能会改变独立同分布关系。 因此在对不均衡的数据集进行采样时需要根据实际需求和数据集的性质来选择合适的采样算法以保持训练集和测试集之间的独立同分布关系。
五在进行K折交叉验证的时候对于K值的选取是否越大越好呢
CodeGeeX 通常情况下K值的选取不是越大越好。在K折交叉验证中K值越大意味着每个验证集的大小越小XTrain和XTest之间的独立同分布关系越小这可能会导致模型泛化能力不足。因此K值的选取需要根据实际需求和数据集的性质来选择。在某些情况下K值可能需要减小到接近于1的值以提高模型的泛化能力。 我 K值过大计算量过大。一般K5或10。
六在大多数情况下我们会选择使用K折交叉验证那么K折交叉验证为什么能够帮助提升效果呢
CodeGeeX K折交叉验证是一种常用的评估方法它可以帮助我们评估模型的泛化能力。与直接使用整个训练集作为验证集相比K折交叉验证可以在不暴露测试集的情况下估计模型的性能从而更准确地评估模型的效果。通过K折交叉验证我们可以看到不同训练集下的模型性能从而更好地理解和优化模型。
第3章 数据探索
我跳着看的晚些回来补充……
第7章 用户画像
一你觉得用户画像是想体现用户的共性还是个性为什么
CodeGeeX 用户画像通常是想体现用户的共性。用户画像的主要目的是为了更好地了解和满足用户的需求icheck 平台通过分析用户在产品使用过程中的行为数据如浏览记录、购买记录、搜索记录等来构建用户的画像从而为后续的营销策略提供参考。用户画像是基于共性来提取特征从而进行分类的。 我icheck平台没查到什么相关的资料不重要……
二就你日常使用的App思考其算法与运营团队会如何给你画像呢
我呵呵……虽然我在学习给用户画像但我不希望被画像……
三文本挖掘算法也是非常多的尝试整理这些算法调用方法并且结合原理去熟悉参数的设置。
CodeGeeX 文本挖掘算法有以下几种 1、深度学习算法如BERT、GPT等这些算法采用深度学习技术和大规模语言模型训练能够更好地理解和处理文本数据。 2、机器学习算法如分类模型、回归模型等这些算法采用机器学习技术对文本数据进行训练和优化以实现对文本数据的分类或预测。 3、自然语言处理算法如分词、词性标注、命名实体识别等这些算法主要用于处理文本数据以提取关键信息。 4、信息检索算法如TF-IDF、BM25、LDA等这些算法主要用于处理文档数据以实现对大量文本数据的检索。 5、情感分析算法如正面情感分析、负面情感分析等这些算法主要用于处理文本数据以实现对用户情感的识别和分析。 6、文本生成算法如机器翻译、文本摘要等这些算法主要用于处理文本数据以实现文本的生成和转换。 7、文本分类算法如主题模型、sentence-transformers等这些算法主要用于处理文本数据以实现文本的分类和聚类。 8、文本匹配算法如字符串匹配、向量匹配等这些算法主要用于处理文本数据以实现文本的相似性匹配。 9、文本嵌入算法如Word2Vec、GloVe、BERT等这些算法主要用于处理文本数据以实现文本的向量表示和嵌入。 10、文本分区算法如分水岭算法、聚类算法等这些算法主要用于处理文本数据以实现文本的分区。 这些算法的调用方法取决于具体的应用场景和需求。在实际应用中可以根据需要选择合适的算法进行学习和实践。 我晕了晕了……混个脸熟先……
四嵌入方式被广泛应用除了Word2Vec和Deep Walk以外还有哪些嵌入算法具体原理是什么样的
CodeGeeX 除了Word2Vec和Deep Walk之外还有以下几种嵌入算法 1、GloVe是一种基于图的嵌入方法通过训练来学习图中节点之间的相似度并将这些相似度转换为低维的向量表示。 2、BERT是一种基于Transformer的预训练语言模型能够学习语言模式和知识并将它们嵌入到低维空间中。 3、Transformer是一种基于自注意力机制的深度神经网络模型用于处理序列数据可以实现词嵌入、句嵌入和文档嵌入。 4、GCN是一种基于图卷积神经网络的嵌入方法可以学习图中的节点关系并将这些关系转换为低维的向量表示。 5、DNN是一种基于深度神经网络的嵌入方法可以学习大量数据的模式并将它们转换为低维的向量表示。 6、CDSSM是一种基于局部上下文的嵌入方法可以学习文本中的局部特征并将它们转换为低维的向量表示。 7、LSTM是一种基于长短期记忆网络的嵌入方法可以学习文本中的长期依赖关系并将它们转换为低维的向量表示。 8、GLM是一种基于生成式模型的嵌入方法可以学习大规模语言模型中的词嵌入并将它们转换为低维的向量表示。 9、向量空间模型是一种基于概率模型的嵌入方法可以学习大规模语言模型中的词嵌入并将它们转换为低维的向量表示。 10、概率模型是一种基于概率模型的嵌入方法可以学习大规模语言模型中的词嵌入并将它们转换为低维的向量表示。 这些算法的原理有所不同具体原理可以参考相关文献或教程。在实际应用中可以根据需要选择合适的算法进行学习和实践。 我呃……为什么9、向量空间模型和10、概率模型的解释完全相同 先不去管它了反正看到这么多生词脑瓜子嗡嗡的…… 还得补充一下书中提到词嵌入Word2Vec衍生的Item2Vec以及图嵌入LINE、Node2Vec、SDNE。
五相似度计算方法非常多但要从大量数据中检索出最为相似的或者相似度排前N位的并不是件容易的事情所以有什么好的检索算法吗
CodeGeeX 文本检索算法有很多以下是一些常见的算法 1、基于向量的检索方法如TF-IDF、BM25、LDA等这些算法主要用于处理文档数据以实现对大量文本数据的检索。 2、基于概率模型的检索方法如概率模型、向量空间模型等这些算法主要用于学习大规模语言模型中的词嵌入并将它们转换为低维的向量表示。 3、深度学习算法如BERT、GPT等这些算法采用深度学习技术和大规模语言模型训练能够更好地理解和处理文本数据。 4、局部模型如CNN、RNN等这些算法用于处理短文本数据可以实现词嵌入、句嵌入和文档嵌入。 5、全局模型如Transformer、GLM等这些算法用于处理长文本数据可以实现全局特征的抽取。 6、嵌入模型如Word2Vec、GloVe等这些算法用于学习文本数据的模式并将它们转换为低维的向量表示。 7、主题模型如LDA、LSI等这些算法用于处理文档数据可以实现对文本数据的自动分类和聚类。 8、感分析算法如正面情感分析、负面情感分析等这些算法用于处理文本数据以实现对用户情感的识别和分析。 9、文本生成算法如机器翻译、文本摘要等这些算法用于处理文本数据以实现文本的生成和转换。 10、文本分类算法如主题模型、sentence-transformers等这些算法用于处理文本数据以实现文本的分类和聚类。 这些算法的应用场景和需求不同可以根据需要选择合适的算法进行学习和实践。 我……所以并没有回答究竟那个检索算法更好。 此外我发现两个事CodeGeeX 最多就是罗列10个答案……只有top10啊~ 还有这些算法和上面的差不多所以文本挖掘算法主要的也就这么些了不要害怕不要害怕~~~~
六内容摘要/总结
这一章干货还是挺多的想了想还是做了个笔记。详见 【机器学习】《机器学习算法竞赛实战》第7章用户画像
更新中…… CodeGeeX