当前位置: 首页 > news >正文

江门网站建设总部电话做移动端网站软件开发

江门网站建设总部电话,做移动端网站软件开发,免费建立网站步骤,泉州制作网站开发疾病、经济危机、失业、灾害……人类世界长期以来被各种各样的问题「侵扰」#xff0c;了解人口动态对于解决这类复杂的社会问题至关重要。 政府相关人员可以通过人口动态数据来模拟疾病的传播#xff0c;预测房价和失业率#xff0c;甚至预测经济危机。然而#xff0c;在过…疾病、经济危机、失业、灾害……人类世界长期以来被各种各样的问题「侵扰」了解人口动态对于解决这类复杂的社会问题至关重要。 政府相关人员可以通过人口动态数据来模拟疾病的传播预测房价和失业率甚至预测经济危机。然而在过去几十年间如何准确预测人口动态对研究人员和政策制定者来说一直是一项挑战。 传统了解人口动态的方法往往依赖于人口普查、调查或卫星图像数据。这些数据固然很有价值但它们各自都有自己的缺点。比如人口普查虽然全面但无法频繁进行且成本高昂调查可以提供局部见解但往往缺乏规模和普遍性卫星图像提供了广泛的概览但缺乏有关人类活动的详细信息。为了弥补这些缺点多年来谷歌构建了大量数据集希望了解人口行为特征。 近日谷歌提出了一种新颖的人口动态基础模型 (Population Dynamics Foundation Model, PDFM)利用机器学习整合了全球范围内可用的丰富地理空间数据大大扩展了传统地理空间模型的能力。 在涵盖健康、社会经济与环境的 27 项任务中研究人员对 PDFM 进行了插值、外推和超分辨率问题的基准测试。研究发现在所有 27 项任务的插值中PDFM 均实现了最先进性能在外推和超分辨率任务中有 25 项取得了最佳表现。研究人员还展示了 PDFM 可以与最先进的预测基础模型 (TimesFM) 结合成功预测失业率和贫困率性能优于完全监督的预测方法。 相关研究以「General Geospatial Inference with a Population Dynamics Foundation Model」为题发表于 arXiv。同时研究人员在 GitHub 上发布了所有 PDFM 嵌入和示例代码便于研究社区将其应用于新的用例进一步赋能学术研究与实践。 PDFM 项目开源地址 https://github.com/google-research/population-dynamic PDFM 地理索引数据集 https://hyper.ai/cn/datasets/35936 研究亮点 研究人员引入了一种解耦嵌入架构将嵌入维度按数据来源进行分区确保模型能够关注所有输入并保留每种数据的相关信息同时为下游任务提供数据源级的可解释性 研究人员展示了如何使用 PDFM 增强最先进的预测基础模型 TimesFM从而改善县级失业率和邮政编码级贫困率的预测。类似方法也可用于利用 PDFM 嵌入增强其他现有地理空间分类和回归模型 通过在插值、外推、超分辨率和预测任务中的强劲表现研究人员证明 PDFM 可以轻松扩展到需要地理空间建模的多种应用场景包括科研、公益事业、公共与环境健康以及商业领域 论文地址 https://arxiv.org/abs/2411.07207 开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读并提供海量数据集与工具 https://github.com/hyperai/awesome-ai4s 数据集五大通用数据集 为了开发 PDFM研究人员收集并整理了 5 大数据集覆盖邮政编码和县级的地理区域具体如下 ① 聚合搜索趋势数据集 (Aggregated Search Trends) 研究人员计算了 2022 年 7 月前 500 个查询的聚合计数 (aggregate counts要求其在每个邮政编码区域内搜索次数至少为 20 从而形成了超过 100 万条独特查询。然后其按这些查询的全国范围流行度进行排名以每个查询出现的邮政编码总数为指标从中选取了最常见的前 1,000 条查询作为全国邮政编码级别聚合搜索趋势活动的代表。 ② 地图数据集 (Maps) 研究人员选取了 2024 年 5 月 Google Maps 中最常见的 1,192 种兴趣点类别这些类别至少出现在 5% 的邮政编码中。每个类别覆盖了广泛的兴趣点位置例如「医疗设施」类别包括儿童医院和大学医院。然后其计算了每个地理边界内可用设施的总数并在邮政编码和县级生成了一个归一化的 1,192 维特征向量。 ③ 繁忙度数据集 (Busyness) 对于地图数据中的每个兴趣点类别研究人员计算了这些类别在一个月内相关地点的访问量总和以概括这些类别的繁忙度。 ④ 天气与空气质量 (Weather Air Quality) 研究人员收集了天气和空气质量数据并对 2022 年 7 月的逐小时数据进行了汇总使用均值、最小值和最大值进行描述。完整的变量列表包括平均海平面气压、总云量、10 米高度 U 风分量、10 米高度 V 风分量、2 米高度温度、2 米高度露点温度、太阳辐射、总降水率、空气质量指数、一氧化碳浓度、二氧化氮浓度、臭氧浓度、二氧化硫浓度、可吸入颗粒物 (10μm) 浓度、细颗粒物 (2.5μm) 浓度。 ⑤ 遥感数据 (Remote Sensing) 研究人员结合了从 SatCLIP 的 ViT16-L40 版本模型生成的卫星图像嵌入数据以每个邮政编码的质心为索引获取嵌入。SatCLIP 模型旨在成为一个全球通用的地理位置编码器汇总了从 2021 年 1 月 1 日至 2023 年 5 月 17 日期间的 Sentinel-2 卫星影像中的 10 万个图块。 研究人员结合数据集与图神经网络 (GNN) 架构训练了一个生成嵌入的基础模型这些嵌入具有普适性而非针对某一特定任务。 模型架构使用 GNN 高效直观地解决地理空间问题 PDFM 模型的构建如下图所示在第 1 阶段 (Phase 1) 研究人员结合数据集与图神经网络 (GNN) 架构训练一个生成嵌入 (Embeddings) 的基础模型这些嵌入具有普适性而非针对某一特定任务在第 2 阶段 (Phase 2) 利用这些嵌入 (Embeddings) 和现有任务的特定真实数据 (Groundtruth Data)学习一个下游模型 (如线性回归、简单的多层感知器或梯度增强决策树)从而将其应用于多种任务包括插值 (interpolation)、外推 (extrapolation)、超分辨率 (super-resolution)和预测 (forecasting)。 插值任务是指根据已知数据点的值通过推断和填补未知数据点的值 外推任务是指通过已有的数据或经验推断超出当前已知范围的情境、趋势或结果 超分辨率任务是指通过算法将低分辨率图像或数据提升为高分辨率 图人口动态基础模型 PDFM 的训练与应用 具体而言PDFM 模型的核心是图神经网络 (GNN)它将位置嵌入编码为信息丰富的低维数值向量主要有以下 5 个部分 图的构建 研究人员使用县级和邮政编码作为节点通过近邻关系建立边构建了一个异质的地理空间图。构建的地理空间图具有同质的节点集将邮政编码和县级节点视为相同类型的节点集并且具有异质的边集边的类型不同连接着节点。 子图采样 进行子图采样以便为大规模 GNN 的训练创建子图并为模型添加随机性。其从种子节点开始按照广度优先方式遍历每个边集以加权的方式采样固定数量的节点并在到达四跳距离 (four hops) 时终止。 具体而言研究人员从种子节点开始按照广度优先方式遍历每个边集以加权的方式采样固定数量的节点并在到达四跳距离时终止。这种方法导致的子图数量等于邮政编码和县级节点的总数。 预处理 对所有特征应用按列标准化并通过裁剪压缩特征值范围的极端端点。 建模与训练细节 采用 GraphSAGE (一种归纳方法) 来通过利用节点特征信息学习节点嵌入。GraphSAGE 可从局部邻域聚合信息中学习生成嵌入的函数。对于聚合架构使用 GraphSAGE 中提出的池化架构其中来自邻域节点的节点状态通过一个带有 ReLU 转换的全连接层进行传递转化后的旧状态和邻域节点状态通过逐元素加和的方式进一步聚合。研究人员使用 GraphSAGE 架构来促进一次消息传递经过 GNN 层后添加一个大小为 330 的线性层将节点级表示编码成压缩的嵌入。 超参数调优 从 20% 的种子节点 (包括县和邮政编码) 中均匀采样组成验证集进行调优调优的超参数包括丢弃率、节点嵌入的大小、GraphSAGE 隐藏单元和层的数量、嵌入大小、正则化和学习率。 研究结果在插值、外推、超分辨率和预测任务中表现强劲 PDFM 是一种灵活的基础模型框架能够应对美国大陆范围内的多种地理空间挑战。通过整合多样化的数据集PDFM 嵌入在 27 项健康、社会经济和环境任务中超越了现有的最先进 (SoTA) 位置编码方法 (如 SatCLIP 和 GeoCLIP)。 在插值任务中PDFM 在所有 27 项任务上表现出色在外推和超分辨率任务中则在 25 项任务中领先。此外研究人员展示了 PDFM 嵌入如何增强预测模型 (如TimesFM) 的性能从而改进对县级失业率和邮政编码级贫困率等重要社会经济指标的预测。 这都凸显了其在研究、社会公益、公共与环境健康以及商业领域中的广泛应用潜力。 具体实验结果如下 ① 插值实验 下图展示了在健康 (Health)、社会经济 (Socioeconomic category) 和环境 (Environmental) 三个类别的 27 项任务上的完整插值实验结果使用 ² 指标评估不同模型性能较高值表示模型更好地解释了目标变量标签的方差。如图PDFM 在社会经济和健康任务类别中显著优于 SatCLIP 和 GeoCLIP。 图插值 ² 结果 (值越高越好) 下表显示了 PDFM 在 27 个健康、社会经济和环境任务比如收入 (Income)、房屋价值 (HomeValue)、夜间灯光 (NightLights)、人口密度 (PopulationDensity)、树木覆盖率 (TreeCover)、海拔高度 (Elevation)、健康状况平均值 (Health (mean) 中的插值效果。PDFM 始终表现优异在所有 27 个任务上的平均 ² 为 0.83其中 21 项健康相关任务的平均 ² 为 0.73。 表插值 ² 结果 (值越高越好)。这些实验比较了基于逆距离加权 (IDW) 插值、SatCLIP 嵌入、GeoCLIP 嵌入、PDFM 嵌入及其子组件天气与空气质量、聚合搜索趋势、地图和繁忙度的表现使用 GBDT 作为下游模型。 ② 外推实验 下图展示了在健康 (Health)、社会经济 (Socioeconomic category) 和环境 (Environmental) 三个类别的 27 项任务上的完整外推实验结果依然使用 ² 指标评估模型性能。如图尽管 GeoCLIP 在处理环境任务时稍占优势PDFM 在预测健康和社会经济变量方面明显优于其他所有基线模型。 图外推 ² 结果 (值越高越好) 由于标注数据存在显著缺失外推任务是一项具有挑战性的任务。在这种情况下PDFM 展示了优异的性能如下表所示在所有指标上的平均 ² 为 0.70健康相关指标的 ² 为 0.58。利用地理标记图像GeoCLIP 在树木覆盖率 (TreeCover) 预测中表现出色达到 ² 0.69超越了 PDFM 和任何单一模态。然而整体上PDFM 在 27 项任务中的 25 项上超越了基线模型突显其在外推场景中的有效性。 表外推 ² 结果 (值越高越好) ③ 超分辨率实验 下图展示了 27 个任务的超分辨率实验完整结果任务按健康 (Health)、社会经济 (Socioeconomic category) 和环境 (Environmental) 分组使用县内平均皮尔逊相关系数 ® 作为指标较高值表示模型的预测值与邮政编码级别的真实标签更相关。 图平均皮尔逊相关系数结果 (值越高越好) 超分辨率任务难度较大结果总结见下表IDW 在预测海拔任务 (Elevation task) 中表现最佳而 GeoCLIP 在树木覆盖率任务中表现最佳。总体而言PDFM 在 27 项任务中的 25 项上表现优异平均皮尔逊相关系数为 0.48。 表平均皮尔逊相关系数结果 (值越高越好) ④ 预测任务 研究人员还评估了使用 PDFM 嵌入来修正 TimesFM (一种通用单变量预测基础模型) 预测误差的效果其主要目标是评估这些嵌入在未来时段 6 个月的失业率预测和两年的贫困率预测中的改进效果。下表中的结果显示结合 PDFM 嵌入的模型在 MAPE 指标上超越了 TimesFM 的基线性能也优于 ARIMA——这表明 PDFM 嵌入能显著增强 TimesFM 的预测效果。 表预测实验结果 研究人员基于美国县级失业率和邮政编码级贫困率对性能进行了评估并在表中呈现了平均绝对百分比误差 (MAPE值越低表示性能越优) 地理空间人工智能 (GeoAI) 蓬勃发展 PDFM 模型的诞生可以说是对地理空间数据的又一次深入挖掘和利用。所谓地理空间数据通常涉及从许多不同来源以不同格式收集的大量时空数据可以包括普查数据、卫星图像、天气数据、手机数据、绘制图像和社交媒介数据等信息。通过科学的方式共享、分析和使用地理空间数据能够为人类社会发展提供许多有益的洞察比如预测失业率、房价模拟某种药物的影响或是灾后人口的迁移等等。 不过海量的地理空间数据如何有效处理是一项挑战随着人工神经网络模型的出现地理空间人工智能GeoAI的概念应运而生业界也在此方面做出了许多探索。 比如2024 年 4 月为了提升成矿预测模型的可解释性以及成矿过程中因地质因素导致的空间非平稳性浙江大学的研究团队提出了一种新的地理空间人工智能方法——地理神经网络加权逻辑回归 (geographically neural network-weighted logistic regression, GNNWLR) 。该模型集成了空间模式 (spatial patterns) 和神经网络结合 Shapley 加性解释理论不但能够大幅提升预测的准确性并且能够在复杂的空间场景中提升矿物预测的可解释性。 点击查看详细报道优于五大先进模型浙江大学杜震洪团队提出 GNNWLR 模型提升成矿预测准确性 2024 年 6 月浙江大学 GIS 实验室的研究人员在地理信息科学领域知名期刊 International Journal of Geographical Information Science 上发表了题为「A neural network model to optimize the measure of spatial proximity in geographically weighted regression approach: a case study on house price in Wuhan」的研究论文创新性地引入神经网络方法对观测点间的多种空间邻近性度量 (如欧式距离、旅行时间等) 进行非线性耦合得到优化的空间邻近性度量 (OSP)从而提升模型对房价预测的准确性。通过模拟数据集和武汉市房价实证案例的研究论文提出的模型被证明具有更好的全局性能能更准确地描述复杂的空间过程和地理现象。 点击查看详细报道精准预测武汉房价浙大GIS实验室提出osp-GNNWR模型准确描述复杂空间过程和地理现象 未来随着 AI 技术的持续发展地理信息产业将拥有更坚实的技术底座、更便捷的开发工具从而推动人类步入地理空间智能时代。 参考资料 1.https://arxiv.org/abs/2411.07207 2.https://research.google/blog/insights-into-population-dynamics-a-foundation-model-for-geospatial-inference/ 3.https://www.ibm.com/cn-zh/topics/geospatial-data 4.https://mp.weixin.qq.com/s/eQz5N-cFTtGIkDk7IqMZxA 5.https://www.xinhuanet.com/science/2
http://www.w-s-a.com/news/692635/

相关文章:

  • 建设公司网站大概需要多少钱建站平台和网站开发的区别
  • 淄川区住房和城乡建设局网站门户网站模板源码下载
  • 室内设计公司 网站建设建站塔山双喜
  • 网站建设属于什么经营范围销售网站开发业务
  • 企业建站系统平台优秀网站作品截图
  • 杭州品牌网站制作wordpress多域名移动主题
  • 北京网站网站建设icp备案 网站备案
  • 长春网站公司哪家好电子商务网站建设作文
  • 网站开发php程序员网上店铺怎么运营
  • mip网站怎么做匹配h5婚纱摄影网站模板
  • 怎么注册建设公司网站域名历史价格查询
  • 爱站网seo工具包互联网软件开发工程师
  • 百度站长工具平台登录郑州seo规则
  • 财税公司做网站精品建站教程
  • 建设区块链网站区块链开发平台有哪些
  • 青年人爱看的网站ie显示wordpress网页不完整
  • 优惠券推广网站怎么做青岛正规网站建设哪家便宜
  • 怎么搞一个服务器建设网站wordpress页眉编辑
  • 计算机企业网站建设论文流量平台是什么意思
  • 成都建设网站公司哪家好上海有名的广告公司
  • 收录优美图片找不到了整站seo优化一般多少钱
  • 大型网站建设哪家好汉川网页设计
  • 深圳品牌策划公司推荐南昌网站怎么做seo
  • 滨州做微商城网站备案时暂时关闭网站
  • 手机网站样式代码网站是怎样制作的
  • 任务发布网站建设苏州园区房价
  • 网站的认识知识付费做的最好的平台
  • 企业电子商务网站设计的原则深圳的网站建设公司怎么样
  • 个人网站趋向wordpress图片搬家
  • 做空压机网站的公司有哪些wordpress 外部链接