网站开发的主要流程,宿迁宿豫网站建设,新媒体营销论文选题方向,武夷山建设局网站第一章
1.1
的原理
给定一批训练数据X#xff0c;假设其服从某种复杂的真实 分布p(x)#xff0c;则给定的训练数据可视为从该分布中采样的观测样本x。
生成模型就是估计训练数据的真实分布#xff0c;使得估计的分布q(x)和真实分布p(x)差距尽可能能的小。
使得所有训练…第一章
1.1
的原理
给定一批训练数据X假设其服从某种复杂的真实 分布p(x)则给定的训练数据可视为从该分布中采样的观测样本x。
生成模型就是估计训练数据的真实分布使得估计的分布q(x)和真实分布p(x)差距尽可能能的小。
使得所有训练数据样本采样自q(x)的概率最大。
DDPM假设扩散过程是马尔可夫过程即每一个时间步状态的概率分布仅由上一个时间步状态的概率分布加上当前时间步的高斯噪声得到以及假设扩散过程的逆过程是高斯分布等
DDPM推导见DDPM推导.pdf
1.2 扩散模型的发展
论 文 “Score-Based Generative Modeling through Stochastic Differential Equations”证明了DDPM的采样过程是更普遍的随机微分方程因此只要能够更离散化地求解该随机微分方程就可以将1000步的采样过程缩减至50步、20步甚至更少的步数。 很多基于现有的扩散模型进行“再学习”的技术自然而然地涌现这也使得个人在消费级显卡上训练自己的扩散模型成为可能。
DreamBooth可以实现使用现有模型再学习到指定主体图像的功 能只要通过少量训练将主体绑定到唯一的文本标识符后就可以通过输入文本提示语来控制自己的主体以生成不同的图像。 LoRA可以实现使用现有模型再学习到自己指定数据集风格或人物 的功能并且还能够将其融入现有的图像生成中。
ControlNet可以再学习到更多模态的信息并利用分割图、边缘 图等功能更精细地控制图像的生成。
1.3 扩散模型的应用
1.3.1 计算机视觉
图像分割与目标检测 Meta AI 的SegDiff分割扩散模型可以生成分割Mask图如图1-14所示检测扩散模型DiffusionDet同样可以端到端地从随机矩形框逐步生成检测框如图1-15所示。 不过扩散模型仍然存在生成速度慢的问题在应用于一些需要实时检测的场景时还需继续优化。 图像超分辨率 图像超分辨率是一项能够将低分辨率图像重建 为高分辨率图像同时保证图像布局连贯的技术。 CDMCascaded Diffusion Model级联扩散模型通过采用串联多个扩散模型的方 式分级式地逐步放大分辨率实现了图像超分辨率。 图像修复、图像翻译和图像编辑
图像修复、图像翻译和图像编辑是对图像的部分或全部区域执行的操作包括缺失部分修补、风 格迁移、内容替换等。Palette是一个集成了图像修复、图像翻译和图像编辑等功能的扩散模型它可以在一个模型中完成不同的图像级任务。 1.3.2 时序数据预测
时序数据预测旨在根据历史观测数据预测未来可能出现的数据。 TimeGrad是首个在多元概率时序数据预测任务中加入扩散思想 的自回归模型。 为了将扩散过程添加到历史数据中TimeGrad首先 使用RNNRecurrent Neural Network循环神经网络处理历史 数据并保存到隐空间中然后对历史数据添加噪声以实现扩散过程 由此处理数千维度的多元数据并完成预测任务。 1.3.3 自然语言
只要将自然语言类的句子分词并转换为词向量之后就可以通过扩散的方法来学 习自然语言的语句生成进而完成自然语言领域一些更复杂的任务 如语言翻译、问答对话、搜索补全、情感分析、文章续写等。 Diffusion-LM是首个将扩散模型应用到自然语言领域的扩散语言模型。该模型旨在解决如何将连续的扩散过程应用到离散的非连续化文本的问题由此实现语言类的高细粒度可控生成。
1.3.4 基于文本的多模态
文本生成图像 文本生成图像是扩散模型最流行、最成熟的应 用输入文本提示语或仅仅输入几个词扩散模型就能根据文字描述 生成对应的图片。 DALLE-2、Imagen以及完全开源的Stable Diffusion文本生成视频 文本生成视频扩散模型能够将输入的文本提示语转换为相应的视频流。 不同的是视频的前 后帧需要保持极佳的连贯性。 Meta AI的Make-A-Video以及能够精细控制视频 生成的ControlNet Video。文本生成3D 3D物体的表征有多种方式如 点云、网格、NeRF等。 DiffRF提出了通过扩散的方法实现从文本生成3D辐射场的扩散模型3DFuse实现了基于二维图像生成对应的3D点云。
1.3.5 AI基础科学
SMCDiff创建了一种扩散模型该扩散模型可以根据给定的模体结构生成多样化的支架蛋白质。 CDVAE则提出了一种扩散晶体变分自编码器模 型旨在生成和优化具有固定周期性原子结构的材料。
第二章
Gradio是一个开源的Python库由Hugging Face推出用于构建机器学习和数据科学演示以及Web应用。 借助Gradio你可以快速 为机器学习模型或数据科学工作流创建美观的用户界面让用户能够 通过浏览器拖放自己的图片、粘贴文本、录制自己的声音并与你的演 示互动。交互式应用。 使用pip安装Gradio 以经典的“Hello World!”程序为例输入代码。 使用gradio命令运行Gradio应用脚本
“Hello World!”程序代码可以看出我们 调用了gr.Interface接口。 fn目标函数的名称我们将要为该目标函数创建用户界 面。 inputs用于输入的组件如text “image或audio”。 outputs用于输出的组件如text “image或label”。