当前位置：首页 > news >正文

0基础学做网站电器企业网站建设方案书

news 2025/12/28 13:33:40

0基础学做网站,电器企业网站建设方案书,商品数据包网站开发,wordpress管理员页面404一.文章概述本文提出了一种自监督属性图生成任务来预训练GNN#xff0c;使得其能捕图的结构和语义属性。作者将图的生成分为两个部分#xff1a;属性生成和边生成#xff0c;即给定观测到的边#xff0c;生成节点属性#xff1b;给定观测到的边和生成的节点属性#xf…一.文章概述本文提出了一种自监督属性图生成任务来预训练GNN使得其能捕图的结构和语义属性。作者将图的生成分为两个部分属性生成和边生成即给定观测到的边生成节点属性给定观测到的边和生成的节点属性生成剩余的边。通过这种方式使得模型能捕获每个节点属性和结构之间的依赖关系。对于每个节点GPT-GNN可以同时计算其属性生成和边生成损失。另外为了使得GPT-GNN可以处理大图作者采用了子图采样技术并提出自适应嵌入队列来缓解负采样带来的不准确损失。二.预备知识之前关于图上预训练的工作可以分为两类 network/graph embedding直接参数化节点嵌入向量并通过保留一些相似度量来参数化的优化节点嵌入。但该种方式学到的嵌入不能用于初始化其他模型以便对其他任务进行微调。transfer learning setting预训练一个可用于处理不同任务的通用GNN。三.GNN的生成式预训练 3.1 GNN预训练问题为什么需要预训练获取足够的标注数据通常具有挑战性尤其是对于大图这阻碍了通用GNN的训练。为此有必要探索GNN的预训练它能用很少的标签进行泛化。 GNN预训练的正式定义GNN预训练的目标是完全基于单个大规模图 G ( V , E , X ) G(\mathcal{V}, \mathcal{E}, \mathcal{X}) G(V,E,X) 学习一个通用的GNN模型 f θ f_\theta fθ而不需要标注数据这使得 f θ f_\theta fθ对于同一个图或同一领域的图上的各种下游任务是一个良好的初始化。 3.2 生成式预训练框架作者提出GPT-GNN它通过重建/生成输入图的结构或属性来预训练GNN。给定输入图 G ( V , E , X ) G(\mathcal{V}, \mathcal{E}, \mathcal{X}) G(V,E,X)GNN模型 f θ f_\theta fθ作者用GNN f θ f_\theta fθ建模图上的似然likelihood为 p ( G ; θ ) p(G;\theta) p(G;θ)其表示图 G G G中的节点是如何归属attributed和连接connected的。GPT-GNN旨在预训练GNN来最大化图似然即 θ ∗ max θ p ( G ; θ ) \theta^{*} \text{max}_{\theta}\ p(G;\theta) θ∗maxθ p(G;θ)。 3.2.1 如何建模 p ( G ; θ ) p(G;\theta) p(G;θ) 现有的大多数图生成方式采用自回归的方式对概率目标进行因式分解即按图中的节点顺序来通过将每个新到达的节点连接到现有节点来生成边。类似地作者用排列permutation向量 π \pi π来确定节点顺序其中 i π i^{\pi} iπ表示排列 π \pi π中第 i i i个位置的节点id。因此图分布 p ( G , θ ) p(G,\theta) p(G,θ)等价于所有可能排列的期望的可能性即 p ( G ; θ ) E π [ p θ ( X π , E π ) ] , p(G ; \theta)\mathbb{E}_\pi\left[p_\theta\left(X^\pi, E^\pi\right)\right], p(G;θ)Eπ[pθ(Xπ,Eπ)], 其中 X π ∈ R ∣ V ∣ × d X^\pi \in \mathbb{R}|\mathcal{V}| \times d Xπ∈R∣V∣×d表示排列的节点属性 E E E是边集 E i π E_i^\pi Eiπ表示与 i π i^{\pi} iπ相连的所有边。为了简化作者假设观察任何节点排列 π \pi π的概率相同。给定一个排列顺序可以自回归分解log四让每次迭代生成一个节点 log ⁡ p θ ( X , E ) ∑ i 1 ∣ V ∣ log ⁡ p θ ( X i , E i ∣ X i , E i ) \log p_\theta(X, E)\sum_{i1}^{|\mathcal{V}|} \log p_\theta\left(X_i, E_i \mid X_{i}, E_{i}\right) logpθ(X,E)i1∑∣V∣logpθ(Xi,Ei∣Xi,Ei) 在每一步 i i i作者使用 i i i之前的所有生成的节点以及其对应的属性 X i X_{i} Xi、节点间的结构 E i E_{i} Ei来生成新的节点 i i i包括 i i i的属性 X i X_i Xi和与已有节点的连接 E i E_i Ei。 3.3 分解属性图生成对于条件概率 p θ ( X i , E i ∣ X i , E i ) p_\theta\left(X_i, E_i \mid X_{i}, E_{i}\right) pθ(Xi,Ei∣Xi,Ei) 的建模一个简单的解决方案是假设 X i X_i Xi和 E i E_i Ei是独立的即 p θ ( X i , E i ∣ X i , E i ) p θ ( X i ∣ X i , E i ) ⋅ p θ ( E i ∣ X i , E i ) p_\theta\left(X_i, E_i \mid X_{i}, E_{i}\right)p_\theta\left(X_i \mid X_{i}, E_{i}\right) \cdot p_\theta\left(E_i \mid X_{i}, E_{i}\right) pθ(Xi,Ei∣Xi,Ei)pθ(Xi∣Xi,Ei)⋅pθ(Ei∣Xi,Ei) 采用该种方式时对每个节点其属性和连接之间的依赖关系被完全忽略了但这种忽略的依赖性确是属性图的核心属性也是GNN中卷积聚合的基础因此这种朴素的分解不能为预训练GNN提供指导。为了解决这一问题作者提出了依赖感知dependency-aware分解机制来进行属性图的生成。具体来说在估计一个新节点的属性时其结构信息会被给定反之亦然即属性图的生成可以分为两步给定观测到的边生成节点属性给定观察到的边和生成的节点属性生成剩余的边。通过这种方式模型可以捕获每个节点的属性和结构之间的依赖关系。令 o o o表示 E i E_i Ei中所有观察到的边的索引向量则 E i , o E_{i,o} Ei,o表示观测到的边。 ¬ o \neg o ¬o表示所有掩去边的索引即待生成的边。基于此条件概率可以重写为所有观察到的边的期望可能性 p θ ( X i , E i ∣ X i , E i ) ∑ o p θ ( X i , E i , ¬ o ∣ E i , o , X i , E i ) ⋅ p θ ( E i , o ∣ X i , E i ) E o [ p θ ( X i , E i , ¬ o ∣ E i , o , X i , E i ) ] E o [ p θ ( X i ∣ E i , o , X i , E i ) ⏟ 1) generate attributes ⋅ p θ ( E i , ¬ o ∣ E i , o , X ≤ i , E i ) ⏟ 2) generate edges ] . \begin{aligned} p_\theta\left(X_i, E_i \mid X_{i}, E_{i}\right) \\ \sum_o p_\theta\left(X_i, E_{i, \neg o} \mid E_{i, o}, X_{i}, E_{i}\right) \cdot p_\theta\left(E_{i, o} \mid X_{i}, E_{i}\right) \\ \mathbb{E}_o\left[p_\theta\left(X_i, E_{i, \neg o} \mid E_{i, o}, X_{i}, E_{i}\right)\right] \\ \mathbb{E}_o[\underbrace{p_\theta\left(X_i \mid E_{i, o}, X_{i}, E_{i}\right)}_{\text {1) generate attributes }} \cdot \underbrace{p_\theta\left(E_{i, \neg o} \mid E_{i, o}, X_{\leq i}, E_{i}\right)}_{\text {2) generate edges }}] . \end{aligned} pθ(Xi,Ei∣Xi,Ei)o∑pθ(Xi,Ei,¬o∣Ei,o,Xi,Ei)⋅pθ(Ei,o∣Xi,Ei)Eo[pθ(Xi,Ei,¬o∣Ei,o,Xi,Ei)]Eo[1) generate attributes pθ(Xi∣Ei,o,Xi,Ei)⋅2) generate edges pθ(Ei,¬o∣Ei,o,X≤i,Ei)]. 其中 p θ ( X i ∣ E i , o , X i , E i ) p_\theta\left(X_i \mid E_{i, o}, X_{i}, E_{i}\right) pθ(Xi∣Ei,o,Xi,Ei)表示节点 i i i的属性生成基于观测到的边 E i , o E_{i, o} Ei,o可以聚集目标节点 i i i的邻域信息来生成属性 X i X_i Xi。 p θ ( E i , ¬ o ∣ E i , o , X ≤ i , E i ) p_\theta\left(E_{i, \neg o} \mid E_{i, o}, X_{\leq i}, E_{i}\right) pθ(Ei,¬o∣Ei,o,X≤i,Ei)表示生成掩去的边基于观测到的边 E i , o E_{i, o} Ei,o和生成的属性 X i X_i Xi可以生成目标节点 i i i的表示然后预测 E i , ¬ o E_{i, \neg o} Ei,¬o内的每条边是否存在。 3.4 高效的属性和边生成作者希望同时进行属性生成和边生成但边的生成需要节点属性作为输入可以泄露给属性生成。为了避免信息泄露作者将每个节点设计为两种类型 Attribute Generation Nodes作者将这些节点的属性掩去并使用dummy token代替它们的属性并学得一个共享的向量 X i n i t X^{init} Xinit来表示它。Edge Generation Nodes对这些节点保持其属性并将其作为GNN的输入。作者使用 h A t t r h^{A t t r} hAttr和 h E d g e h^{E d g e} hEdge来分别表示Attribute Generation和Edge Generation节点由于Attribute Generation Nodes被掩去 h Attr h^{\text {Attr }} hAttr 比 h E d g e h^{E d g e} hEdge包含更少的信息。因此在进行GNN的消息传递的时候仅使用Edge Generation Nodes的输出 h E d g e h^{E d g e} hEdge作为对外信息。然后使用这两组节点的表示来生成具有不同解码器的属性和边。对于属性生成将其对应解码器表示为 Dec A t t r ( ⋅ ) \text{Dec}^{Attr}(\cdot) DecAttr(⋅)它以 h Attr h^{\text {Attr }} hAttr 作为输入生成被掩去的属性。建模的选择取决于属性的类型。例如如果一个节点的输入属性是文本则使用文本生成器模型(例如LSTM)来生成它。此外作者定义距离函数来作为生成属性和真实值间的度量即属性生成损失定义为 L i Attr Distance ( Dec Attr ( h i Attr ) , X i ) . \mathcal{L}_i^{\text {Attr }}\text { Distance }\left(\text { Dec }^{\text {Attr }}\left(h_i^{\text {Attr }}\right), X_i\right) . LiAttr Distance ( Dec Attr (hiAttr ),Xi). 对于边的生成作者假设每条边的生成都是独立的然后可以隐式分解似然 p θ ( E i , ¬ o ∣ E i , o , X ≤ i , E i ) ∏ j ∈ E i , ¬ o p θ ( j ∣ E i , o , X ≤ i , E i ) . p_\theta\left(E_{i, \neg o} \mid E_{i, o}, X_{\leq i}, E_{i}\right)\prod_{j^{} \in E_{i, \neg o}} p_\theta\left(j^{} \mid E_{i, o}, X_{\leq i}, E_{i}\right) . pθ(Ei,¬o∣Ei,o,X≤i,Ei)j∈Ei,¬o∏pθ(j∣Ei,o,X≤i,Ei). 在获取到Edge Generation node表示 h E d g e h^{E d g e} hEdge后可以通过 Dec ⁡ E d g e ( h i E d g e , h j E d g e ) \operatorname{Dec}^{E d g e}\left(h_i^{E d g e}, h_j^{E d g e}\right) DecEdge(hiEdge,hjEdge)来建模节点 i i i与节点 j j j连接的可能性其中 D e c E d g e Dec^{E d g e} DecEdge表示成对pairwise得分函数。最后采用负对比估计negative contrastive estimation来计算每个链接节点 j j^{} j的似然。作者将为连接的节点表示为 S i − S_i^{-} Si−对比损失计算公式如下 L i E d g e − ∑ j ∈ E i , ¬ o log ⁡ exp ⁡ ( Dec ⁡ E d g e ( h i E d g e , h j E d g e ) ) ∑ j ∈ S i − ∪ { j } exp ⁡ ( Dec ⁡ E d g e ( h i E d g e , h j E d g e ) ) \mathcal{L}_i^{E d g e}-\sum_{j^{} \in E_{i, \neg o}} \log \frac{\exp \left(\operatorname{Dec}^{E d g e}\left(h_i^{E d g e}, h_{j^{}}^{E d g e}\right)\right)}{\sum_{j \in S_i^{-} \cup\left\{j^{}\right\}} \exp \left(\operatorname{Dec}^{E d g e}\left(h_i^{E d g e}, h_j^{E d g e}\right)\right)} LiEdge−j∈Ei,¬o∑log∑j∈Si−∪{j}exp(DecEdge(hiEdge,hjEdge))exp(DecEdge(hiEdge,hjEdge)) 下图便展示了属性图生成的过程确定输入图的节点排列顺序随机选取目标节点边的一部分作为观测边 E i , o E_{i,o} Ei,o剩下的边掩去作为 E i , ¬ o E_{i, \neg o} Ei,¬o需要将被掩去的边从图中删除。将节点划分为Attribute Generation和Edge Generation节点。使用修改的邻接矩阵来计算节点3、4和5的表示包括它们的Attribute和Edge Generation节点。通过每个节点的属性预测和掩去边预测任务并行训练GNN模型。 3.5 扩展到异配和大图本节主要介绍如何在大图和异配图上应用GPT-GNN进行预训练。异配图对于异配图所提出的GPT-GNN框架可以直接应用于预训练异构GNN。唯一的区别是每种类型的节点和边都可以有自己的解码器这是由异构gnn指定的而不是预训练框架。所有其他组件保持完全相同。大图对于大图则需要使用子图采样进行训练。为了估计GPT-GNN提出的对比损失需要遍历输入图的所有节点。然而只能访问子图中的采样节点来估计这个损失使得(自)监督只关注局部信号。为了缓解这个问题作者提出了自适应队列Adaptive Queue它将之前采样的子图中的节点表示存储为负样本。每次处理一个新的子图可以通过添加最新的节点表示并删除最旧的节点表示来逐步更新这个队列。自适应队列可以使用更大的负样本池 S i − S_i^{-} Si−此外不同采样子图上的节点可以为对比学习带来全局结构指导。

查看全文

http://www.w-s-a.com/news/895174/