当前位置：首页 > news >正文

中文网站建设计划书做美食教程的网站有哪些

news 2025/12/27 4:42:46

中文网站建设计划书,做美食教程的网站有哪些,wordpress高亮代码,seo工具包括Movie Gen#xff1a;A Cast of Media Foundation Models 简介 Movie Gen是Meta公司提出的一系列内容生成模型#xff0c;包含了 3.2.1 预训练数据 Movie Gen采用大约 100M 的视频-文本对和 1B 的图片-文本对进行预训练。图片-文本对的预训练流程与Meta提出的 Emu: Enh…Movie GenA Cast of Media Foundation Models 简介 Movie Gen是Meta公司提出的一系列内容生成模型包含了 3.2.1 预训练数据 Movie Gen采用大约 100M 的视频-文本对和 1B 的图片-文本对进行预训练。图片-文本对的预训练流程与Meta提出的 Emu: Enhancing image generation models using photogenic needles in a haystack 流程相同。[2309.15807] Emu: Enhancing Image Generation Models Using Photogenic Needles in a HaystacktAbstract page for arXiv paper 2309.15807: Emu: Enhancing Image Generation Models Using Photogenic Needles in a Haystackhttps://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807https://arxiv.org/abs/2309.15807 原始视频数据由4秒至两分钟长度的数据组成视频内容涵盖人文、自然、动物等多个领域。数据经过预处理后得到一系列的clip-prompts pairs视频片段-提示词对。每个clip视频片段大约4-16秒长视频内容由单镜头拍摄且不包含复杂的动作。视频数据预处理流程如下 Visual Filtering 1. 过滤掉分辨率小于720px的视频 2. 数据集中60%的视频为横屏视频40%为竖屏视频 3. 删去文字特别多的视频 4. 从长视频中抽取出单场景的4-16s的片段 5. 保证视频美学品质 6. 保证视频没有边框 Motion Filtering 删去运动幅度较小的视频通过Meta内部的静态视频检测模型移除所有没有运动的视频随后选出具有“合理”运动幅度的视频。 Content Filtering 删除重复的视频片段、对不同类型的数据进行重新采样保证内容的均匀性。 Captioning 对每个视频片段使用llama3-Video创建准确、具体的prompts。70%的数据使用8B模型30%的数据使用70B。为了保证模型能够生成电影质感的运镜训练了一个运镜分类器来对16类运镜进行分类如变焦、平移。如果运镜分类结果置信度很高则将这个运镜分类结果添加至提示词中。 Multi-stage data curation Movie Gen将上述数据预处理流程分了三个阶段每个阶段对于数据的筛选逐渐严格使得模型可以由易到难逐步进行学习。 3.2.2 预训练 1. 首先使用text-to-image的数据对模型进行warm up热身训练随后使用text-to-image和text-tovideo的数据进行联合训练。 2. 视频数据分辨率首先由256px提升至768px 3. 不断用更好的数据集和优化后的超参数对模型进行训练。训练阶段256 px T2I TP张量并行度: 1 指训练过程中使用的张量并行度。在这个阶段没有应用张量并行。 CP检查点并行度: 1 可能指的是检查点并行度。在这个阶段没有应用检查点并行。 bs/GPU每个GPU的批量大小: 6 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理6个样本。 GPUsGPU数量: 1536 用于训练的GPU总数。这个阶段使用了1536个GPU。 global bs全局批量大小: 9216 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs 6 * 1536 9216。 learning rate学习率: 1e-4 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.0001。 iters迭代次数: 210k 训练过程中执行的总迭代次数。这个阶段运行210,000次迭代。 seen samples已见样本数: 1.94B 表示模型在训练过程中暴露的总样本数。模型看到了大约19.4亿个样本。训练阶段256 px T2I/V TP张量并行度: 4 指训练过程中使用的张量并行度。张量并行度设置为4。 CP检查点并行度: 1 可能指的是检查点并行度。在这个阶段没有应用检查点并行。 bs/GPU每个GPU的批量大小: 2 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理2个样本。 #GPUsGPU数量: 3072 用于训练的GPU总数。这个阶段使用了3072个GPU。 global bs全局批量大小: 1536 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs 2 * 3072 1536。 learning rate学习率: 6e-5 确定每次迭代时向损失函数最小值移动的步长。学习率设置为0.00006。 #iters迭代次数: 123k 训练过程中执行的总迭代次数。这个阶段运行123,000次迭代。 #seen samples已见样本数: 173.6M 表示模型在训练过程中暴露的总样本数。模型看到了大约1.736亿个样本。训练阶段768 px T2I/V TP张量并行度: 4 指训练过程中使用的张量并行度。张量并行度设置为4。 CP检查点并行度: 1 或 2 可能指的是检查点并行度。在这个阶段检查点并行度根据配置为1或2。 bs/GPU每个GPU的批量大小: 1 指每个GPU在一次前向/后向传递中处理的样本数量。每个GPU处理1个样本。 #GPUsGPU数量: 6144 或 4096 用于训练的GPU总数。这个阶段使用了6144或4096个GPU取决于配置。 global bs全局批量大小: 1536、768 或 512 跨所有GPU的总批量大小。计算公式为 bs/GPU * #GPUs。根据配置它可以是1536、768或512。 learning rate学习率: 6e-5、3e-5、2e-5 或 1e-5 确定每次迭代时向损失函数最小值移动的步长。学习率在0.00006、0.00003、0.00002和0.00001之间变化。 #iters迭代次数: 19.6k、11k、15.9k 或 28k 训练过程中执行的总迭代次数。这个阶段运行19,600、11,000、15,900或28,000次迭代取决于配置。 #seen samples已见样本数: 30.1M、16.9M、12.2M 或 14.6M 表示模型在训练过程中暴露的总样本数。模型看到了大约3.01亿、1.69亿、1.22亿或1.46亿个样本取决于配置。 Note联合训练时文本-图片对数据和文本视频对的数据保持在1:10左右的比例。 3.3 Fine Tuning 为了保证生成结果的质量finetuning的数据集规模可以较小但是数据质量一定要有保障。因此finetuning的数据均由人为标注。高质量的定义良好的运镜、真实性、美学性、内容丰富、文本描述详细。为了筛选高质量的数据集Movie Gen使用连续的四个阶段对数据进行筛选 1. 创建一个候选子集对每个质量标准进行严格的限制使用目标检测模型移除了只有小物体的视频。 2. 与Content Filtering一样对第一阶段筛选后的视频进行重新采样保证各个类别的视频均匀分布。 3. 人为找出具有电影质感的视频。 4. 人为对模型生成的提示词进行润色修改同时加入详细的原数据运镜、人物表情、物体和背景信息、具体的运动描述和光线信息。模型架构与预训练阶段保持一致初始化使用预训练后的checkpoint文件节点数 64 GPU数量 512 H100 GPUs (每个节点 8 个GPUs). Batch Size 相对较小没有具体说明动态学习率余弦学习率调度器 (Loshchilov and Hutter, 2017). 视频帧率 16秒长度的视频16FPS0.6–16秒长的视频24FPS. 生成视频长度支持生成10-16秒的视频 5. Model Averaging不同数据子集、不同超参数训练出来的模型各有所长为了利用不同checkpoint模型的优势、提升模型泛化性Movie Gen对SFT阶段不同的模型参数进行了平均操作类似于Llama 3。 HunyuanVideo: A Systematic Framework For Large Video Generative Models 3. Data Pre-porcessing 与Movie Gen一致Hunyuan Viedoe使用了图像-视频联合训练的策略将视频分为五类、图像分为两类以满足不同训练需求。原始数据涵盖人物、动物、风景等多个领域筛选时设定了最低时长、画质、构图、色彩等严格标准优先选用高质量数据显著提升了模型性能。 3.1 Data Filtering 1. 使用PySceneDetect把原始视频分割为单镜头拍摄的视频片段。 2. 使用OpenCV中的拉普拉斯算子找出视频中最“干净”的一帧作为视频开头。 3. 使用内部的VideoCLIP模型计算每个视频的embeddings使用embeddings计算余弦距离删去重复数据。使用K-Means算法对数据进行重新采样以保持各种类型数据的多样性。 4. 使用Dover模型筛选更为美观的视频片段。单独训练了一个用于筛选清晰度的视频。 5. 删去了完全禁止和动作幅度较小的视频。estimated optical flow 6. 使用PySceneDetect和Transnet v2获得场景边界信息 7. 使用OCR模型移除文字过多的视频片段 8. 使用目标检测模型移除敏感信息 SFT阶段约有100万条数据同样采用人为标注的数据进行微调。 3.2 Data Annotation 结构化说明文本HunYuanVideo使用JSON来对图片信息进行说明。JSON数据包括Short Description描述场景的主要内容、Dense Description详细、完整的描述、Background描述物体所在的背景、Style描述视频的风格、Shot Type描述视频的具体视角、Lighting描述视频的光线情况、Atmosphere描述视频氛围如Cozy、Tense等。此外HunYuanVideo扩展了JSON结构以包含额外的元数据派生元素包括源标签、质量标签以及来自图像和视频元信息的其他相关标签。为了防止过拟合HunYuanVideo通过精心设计的Dropout及排列和组合策略根据这些多维度的描述信息来合成长度和模式各异的字幕旨在提高生成模型的泛化能力。 HunYuanVideo训练了一个运镜分类器来预测14个不同的运镜类型包括变焦放大、变焦缩小、向上平移、向下平移等。高置信度的分类结果将被添加至数据的JSON说明文本中。通过上述两项工作的数据预处理过程可以看出数据质量对模型的重要性。

查看全文

http://www.w-s-a.com/news/487888/