网站建设完不管了自己怎么接手,巢湖网站开发,网站推广费用预算,关于做网站的创新创业策划书【社交网络分析】考试后复盘 相关资料补充 写在最前面论述1.描述Logistic回归模型构造损失函数的主要思想。它是如何把线性回归预测模型转化为二分类模型的。Logistic回归模型构造损失函数的主要思想Logistic回归如何将线性回归预测模型转化为二分类模型 2.社交网络分析中面临… 【社交网络分析】考试后复盘 相关资料补充 写在最前面论述1.描述Logistic回归模型构造损失函数的主要思想。它是如何把线性回归预测模型转化为二分类模型的。Logistic回归模型构造损失函数的主要思想Logistic回归如何将线性回归预测模型转化为二分类模型 2.社交网络分析中面临的两个主要问题是数据量巨大和特征维度较高。描述一下采用什么方法能够解决这两个问题。问题1数据量巨大问题2特征维度较高 3.在对 TVDM模型进行数值模拟和仿真时需要预先给定模型涉及的许多超参数。根据你的理解和分析模型建立者是如何确定这些参数的。1. 先验知识2. 历史数据分析3. 实验和测试4. 迭代调整5. 自动化参数调整技术 其他补充Logistic回归线性回归到Logistic回归的转化Logistic回归模型的损失函数 王乐章同学的资料补充顿巴数社交网络匿名化技术逻辑斯蒂回归中引入logit变换的主要目的是什么LightGBM采用哪些方法解决数据量大和特征维度较高的问题在建立TVDM模型的过程中应用到了哪些领域的知识简要地进行说明ILDR模型与传统的SEIR模型有哪些不同结合社交网络不实信息传播分析的研究现状分析一下ILDR模型的主要创新点体现在什么地方ILDR模型中包含许多超参数根据你的理解和分析模型建立者是如何确定这些参数的李雅普诺夫稳定性 写在最前面
《社交网络分析》课程由鲁宏伟老师授课其教学方式不仅严谨负责还充满幽默与个人见解。这个方向对我而言也尤其有吸引力怀着极大的兴趣选修了这门课程。
期待将这些知识应用到未来的学习和工作中继续在这个充满潜力的领域探索新的可能。 本章主要为考试后复盘 相关资料补充。
鲁宏伟老师给我留下了极其真诚、严谨的印象无论教书过程、还是最后的考试形式。 最开始复习的时候我以为课程提纲只是帮助我们梳理课程脉络的工具然而令人惊喜的是这些提纲实际上是整个考试的考纲范围hh
特别感谢王乐章同学的思考和笔记。他的分享不仅丰富了我的学习材料还给我提供了新的视角和思考方式。笔记随附在最后 ~
下面是考试复盘 —— 名词解释社交网络分析、扎根理论、六度分割理论 简答题 1.列举两种在社交网络分析中采用的数学理论或方法并简述其应用场景。 2.简要地介绍一下k-匿名以及针对这种方法的攻击方式。 3.什么是负例采样?其主要作用是什么? 4.社交网络舆情的构成包括哪几个部分简要进行说明。
论述
1.描述Logistic回归模型构造损失函数的主要思想。它是如何把线性回归预测模型转化为二分类模型的。
Logistic回归模型构造损失函数的主要思想
Logistic回归模型的核心在于将线性回归的输出通过一个非线性函数通常是logistic函数映射从而将问题转化为二分类问题。在构造损失函数时主要考虑以下几点 概率解释Logistic回归通过sigmoid函数或logistic函数将线性回归模型的输出转化为概率值表示为 p 1 1 e − z p \frac{1}{1 e^{-z}} p1e−z1其中 z z z是线性模型的输出。 损失函数为了衡量模型预测的准确性Logistic回归采用的是对数似然损失函数Log-Likelihood Loss。对于单个样本其损失函数为 − log ( p ) -\log(p) −log(p)或 − log ( 1 − p ) -\log(1-p) −log(1−p)具体取决于该样本的真实类别。 最大化似然整体目标是最大化所有样本的似然函数即最小化负对数似然损失。这可以通过梯度下降等优化算法实现。 正则化为防止过拟合还可以在损失函数中加入正则化项如L1或L2正则化。
Logistic回归如何将线性回归预测模型转化为二分类模型
Logistic回归通过以下步骤将线性回归模型转化为二分类模型 线性组合首先它构建一个线性模型 z β 0 β 1 x 1 β 2 x 2 ⋯ β n x n z \beta_0 \beta_1x_1 \beta_2x_2 \cdots \beta_nx_n zβ0β1x1β2x2⋯βnxn其中 β 0 , β 1 , ⋯ , β n \beta_0, \beta_1, \cdots, \beta_n β0,β1,⋯,βn是模型参数 x 1 , x 2 , ⋯ , x n x_1, x_2, \cdots, x_n x1,x2,⋯,xn是特征。 应用Sigmoid函数接着将线性模型的输出通过sigmoid函数转换得到一个介于0和1之间的值表示样本属于特定类别的概率。 分类决策最后设定一个阈值通常是0.5如果模型输出的概率大于这个阈值则预测样本属于正类否则属于负类。
通过这种方式Logistic回归有效地将线性模型的输出转化为分类决策使其能够处理二分类问题。
2.社交网络分析中面临的两个主要问题是数据量巨大和特征维度较高。描述一下采用什么方法能够解决这两个问题。
问题1数据量巨大
在社交网络分析中处理大规模数据集是一个常见挑战。解决这个问题的方法主要包括 分布式计算采用如Hadoop或Spark等分布式计算框架可以有效地处理大规模数据集。这些框架支持将数据分散存储并并行处理大大加快了处理速度。 数据采样在数据量极大时合理的数据采样策略可以减少处理的数据量同时保持数据的代表性。例如随机采样、分层采样等。 数据压缩使用数据压缩技术如主成分分析PCA等减少数据存储空间加快计算速度。
问题2特征维度较高
社交网络数据通常具有高维特征这可能导致计算复杂度增加和过拟合等问题。解决方法包括 特征选择通过选择与预测变量最相关的特征来减少特征的数量。常用方法包括基于统计测试的特征选择、基于模型的特征选择等。 降维技术使用降维技术如主成分分析PCA线性判别分析LDA等将高维数据转换为低维空间减少特征的数量同时保留大部分信息。 正则化技术在模型训练过程中使用正则化方法如L1、L2正则化可以减少特征的有效复杂度防止过拟合。
3.在对 TVDM模型进行数值模拟和仿真时需要预先给定模型涉及的许多超参数。根据你的理解和分析模型建立者是如何确定这些参数的。
在进行TVDM时变动态模型的数值模拟和仿真时模型建立者在确定模型中涉及的超参数时通常会采用一个多维度的方法。
TVDM模型的超参数确定是一个综合多种方法的过程包括理论指导、数据驱动分析、实验测试以及迭代优化等。这种综合方法有助于确保模型在复杂的社交网络环境中的准确性和有效性。
下面详细阐述这些方法
1. 先验知识 理论基础模型建立者会根据社交网络理论和信息传播理论等相关领域的理论知识设置一些符合逻辑和经验的初步参数。例如基于群体行为理论或网络拓扑结构特性的理解可以设定影响模型动态的关键参数。 专家意见在某些情况下模型建立者也可能依赖于领域专家的意见来确定某些参数的初始值尤其是在新领域或缺乏足够数据的情况下。
2. 历史数据分析 统计推断通过对历史数据进行详细的统计分析可以估计参数的可能范围。例如分析用户行为数据可以帮助确定用户互动频率的参数。 数据驱动的调整通过将模型应用于历史数据并观察其预测与实际情况的吻合程度可以调整和优化参数。
3. 实验和测试 模拟实验通过在控制环境中进行模拟实验可以测试不同参数设置下模型的表现。这有助于理解各参数对模型行为的影响。 参数敏感性分析进行敏感性分析以识别对模型输出影响最大的参数这有助于优化关键参数。
4. 迭代调整 持续优化在模型运行和验证过程中根据实际效果不断调整和优化参数以提高模型的准确性和鲁棒性。 交叉验证使用交叉验证方法来评估不同参数配置下模型的性能并据此进行调整。
5. 自动化参数调整技术 机器学习算法使用机器学习算法如贝叶斯优化或遗传算法自动搜索最优参数组合。 反馈机制在一些高级模型中可能采用基于反馈的方法让模型根据预测效果自动调整其参数。
其他补充
Logistic回归
Logistic回归是一种广泛应用于二分类问题的统计方法它通过将线性回归模型的输出传递给sigmoid函数将连续型预测值转化为概率值从而实现分类。
线性回归到Logistic回归的转化
线性回归模型的形式为 y β 0 β 1 x 1 β 2 x 2 ⋯ β n x n y \beta_0 \beta_1x_1 \beta_2x_2 \cdots \beta_nx_n yβ0β1x1β2x2⋯βnxn其中 y y y 为预测值 β 0 , β 1 , . . . , β n \beta_0, \beta_1, ..., \beta_n β0,β1,...,βn 为模型参数 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn 为特征变量。然而线性回归输出的是一个连续值不适用于分类问题。
为了将线性回归模型用于分类问题特别是二分类问题Logistic回归引入了sigmoid函数或逻辑函数这个函数的表达式为 σ ( z ) 1 1 e − z \sigma(z) \frac{1}{1 e^{-z}} σ(z)1e−z1。通过将线性回归模型的输出 z β 0 β 1 x 1 β 2 x 2 ⋯ β n x n z \beta_0 \beta_1x_1 \beta_2x_2 \cdots \beta_nx_n zβ0β1x1β2x2⋯βnxn 作为sigmoid函数的输入可以将任意实数值映射到区间 ( 0 , 1 ) (0, 1) (0,1) 上这个值可以被解释为事件发生的概率。
Logistic回归模型的损失函数
为了训练Logistic回归模型需要定义一个损失函数也称为成本函数用以衡量模型预测值与实际值之间的差距。对于Logistic回归来说常用的损失函数是对数损失函数Log-Loss其形式为 L ( β ) − 1 m ∑ i 1 m [ y i log ( y ^ i ) ( 1 − y i ) log ( 1 − y ^ i ) ] L(\beta) -\frac{1}{m}\sum_{i1}^{m}[y_i\log(\hat{y}_i) (1 - y_i)\log(1 - \hat{y}_i)] L(β)−m1i1∑m[yilog(y^i)(1−yi)log(1−y^i)]
其中 m m m 是样本数量 y i y_i yi 是第 i i i 个观测的真实标签0或1 y ^ i \hat{y}_i y^i 是模型预测的概率即 y ^ i σ ( z i ) \hat{y}_i \sigma(z_i) y^iσ(zi)。
这个损失函数能够很好地反映分类预测的准确性。当预测的概率接近真实标签时损失函数值较小当预测的概率远离真实标签时损失函数值较大。通过最小化这个损失函数可以使得模型在训练数据上达到较好的分类效果。
王乐章同学的资料补充
顿巴数
也称150定律指能与某个人维持紧密人际关系的人数上限通常认为是150。这是由大脑新皮质的大小决定的这使得人类的社交人数上限为150人。
社交网络匿名化技术
社交网络数据的拥有者在发布含有敏感信息的数据之前通常对数据进行匿名化操作如删除用户名、用户电话号码等身份信息同时添加或删除部分社交网络好友连接以改变社交网络的拓扑结构。匿名化技术以某种方式更改将要发布使用的数据防止其中的关键信息被识别从而保护数据隐私。
逻辑斯蒂回归中引入logit变换的主要目的是什么
课件上给出的解释是在研究某一结果 y y y与一系列因素 ( x 1 , x 2 , . . . , x n ) (x_1, x_2, ..., x_n) (x1,x2,...,xn)之间的多元线性关系时需要让不显著的线性关系变得显著使因素的变化能够引起结果发生显著的变化。通过引入logit变换对因变量取对数使得自变量的微小变化导致因变量的巨大变化
查阅资料后我认为这一解释并不准确。logit变换的目的是引入逻辑函数将线性回归的输出映射至 ( 0 , 1 ) (0,1) (0,1)区间使最终的输出可以用于表示事件的概率。
逻辑斯蒂回归是在线性回归的基础上建立的线性回归为因变量 y y y和一系列自变量 x 1 , x 2 , . . . , x n x_1, x_2, ..., x_n x1,x2,...,xn建立了多元线性关系即 y β 1 x 1 β 2 x 2 . . . β n x n ε y\beta_1x_1\beta_2x_2...\beta_nx_n\varepsilon yβ1x1β2x2...βnxnε记作 y β X ε y\mathbf{\beta}\mathbf{X}\varepsilon yβXε此时 y y y的取值范围是 ( − ∞ , ∞ ) (-\infty,\infty) (−∞,∞)。逻辑斯蒂回归的目的是进行二分类估计某件事情的概率介于 ( 0 , 1 ) (0,1) (0,1)之间于是在线性回归的基础上引入逻辑函数 f ( z ) 1 1 e − z f(z)\frac{1}{1e^{-z}} f(z)1e−z1将线性回归的输出由 ( − ∞ , ∞ ) (-\infty,\infty) (−∞,∞)映射至 ( 0 , 1 ) (0,1) (0,1)最终得到新的模型 p 1 1 e − y 1 1 e − ( β X ε ) p\frac{1}{1e^{-y}}\frac{1}{1e^{-(\mathbf{\beta}\mathbf{X}\varepsilon)}} p1e−y11e−(βXε)1。其中 p p p可以认为是事件的概率 y y y可以认为是事件的几率 y l n ( p 1 − p ) yln(\frac{p}{1-p}) yln(1−pp)。在数学上 p 1 − p \frac{p}{1-p} 1−pp被称为概率 p p p的几率 l n ( p 1 − p ) ln(\frac{p}{1-p}) ln(1−pp)就是概率 p p p的logit变换
LightGBM采用哪些方法解决数据量大和特征维度较高的问题
通过基于梯度的单边采样算法减少样本数量即根据样本梯度对梯度小的样本进行采样保留梯度大的样本通过互斥特征捆绑算法减少特征维度将稀疏特征看作是互斥的对某些特征的值重新编码将多个互斥的特征捆绑为新的特征通过直方图算法优化计算速度把连续的浮点特征离散化成k个整数构造宽度为k的直方图根据特征在模型中的贡献度进行排序筛选出重要特征进行训练减少计算量利用并行计算加速数据预处理速度支持分布式计算将数据集划分为多个子集分配到不同的计算节点上进行训练提高训练速度采用自适应学习率算法动态调整每个样本的学习率提高模型的训练速度和精度
在建立TVDM模型的过程中应用到了哪些领域的知识简要地进行说明
依据运动学、动力学和时变系统与信号变换理论对社交网络上的信息传播过程进行分析
运动学借鉴了简谐运动的相关概念从带阻尼的简谐运动视角进行信息传播运动分析动力学借鉴了力学中的相关概念例如牛顿第二定律从内外力系合力作用的视角对信息传播进行受力分析热力学借鉴了能量守恒定律来分析信息传播演化的过程将信息传播扩散的实质描述为信息能量在不同节点的传递与转换结合时变系统与信号变换理论分析网络信息传播的传播过程
ILDR模型与传统的SEIR模型有哪些不同
使用场景不同ILDR模型用于描述网络垃圾信息的传播SEIR模型用于描述普通网络信息的传播。与普通的网络信息相比网络垃圾信息具有鲜明的特征普通网络信息的传播模型不能用于刻画网络垃圾信息的传播行为状态类别不同ILDR模型将个体无知者I、潜伏者L、传播者D和移除者RSEIR模型将个体分类为易感者S、暴露者E、感染者E和移除者RILDR模型考虑了系统的输入率和移除率SEIR模型没有考虑这一点
结合社交网络不实信息传播分析的研究现状分析一下ILDR模型的主要创新点体现在什么地方
建立了垃圾信息传播的微分动力学模型揭示了垃圾信息的内在传播特性和传播机制针对垃圾信息病毒式推广、诱骗转发等特点提出了区别于普通网络信息专门适用于网络垃圾信息的传播模型将输入率、移出率和潜伏性引入传播模型更加真实地反映了网络垃圾信息的传播
ILDR模型中包含许多超参数根据你的理解和分析模型建立者是如何确定这些参数的
首先我认为ILDR模型中的参数不能被称为是超参数超参数是指机器学习中控制学习过程的参数ILDR模型并不是机器学习模型其中的参数称不上超参数。
其次模型建立者并没有给这些参数一个固定的值而是调整这些参数以进行数值仿真分析观察在不同的参数下各类人群随时间推移的演变。 ILDR模型只是一个网络垃圾信息的传播模型通过调整模型参数来模拟不同条件下网络垃圾信息的传播过程。我们可以根据真实世界的情况确定模型的参数来模拟真实世界中网络垃圾信息的传播过程。
李雅普诺夫稳定性 平衡点若存在某一状态点 x e x_e xe对于任意时间 t t t x ( t ) x(t) x(t)都不随时间变化则称 x e x_e xe为系统的平衡点 稳定给定 ε \varepsilon ε和系统起始时间 t 0 t_0 t0以平衡点 x e x_e xe为圆心划定半径为 δ ( δ ε ) \delta(\delta\varepsilon) δ(δε)的范围 S ( δ ) S(\delta) S(δ)若从 S ( δ ) S(\delta) S(δ)内出发的任意一点 x 0 x_0 x0的系统状态均在 S ( ε ) S(\varepsilon) S(ε)内运行在平衡点附近振荡则平衡状态是李雅普诺夫稳定简称稳定 一致稳定在稳定的前提下如果只根据 ε \varepsilon ε就可以划定 S ( δ ) S(\delta) S(δ)则称为一致李雅普诺夫稳定简称一致稳定 渐进稳定系统不仅稳定且系统状态趋于平衡点即 lim t → ∞ x ( t ) x e \lim\limits_{t \to \infty}x(t)x_e t→∞limx(t)xe则称平衡状态是渐进稳定 一致渐进稳定在渐进稳定的前提下如果只根据 ε \varepsilon ε就可以划定 S ( δ ) S(\delta) S(δ)则称为一致渐进稳定 局部渐进稳定对于任意处于平衡点 x e x_e xe附近的初始状态 x 0 x_0 x0都有 lim t → ∞ x ( t ) x e \lim\limits_{t \to \infty}x(t)x_e t→∞limx(t)xe则平衡状态是局部渐进稳定 全局渐进稳定对于任意初始状态 x 0 x_0 x0不要求其处于平衡点 x e x_e xe附近都有 lim t → ∞ x ( t ) x e \lim\limits_{t \to \infty}x(t)x_e t→∞limx(t)xe则平衡状态是全局渐进稳定