当前位置: 首页 > news >正文

优化网站找哪家做网站什么主题比较好

优化网站找哪家,做网站什么主题比较好,百度引擎搜索,遂宁网站建设公司说明 这部分应该是Multi-Armed Bandit的最后一部分了。 内容 1 On Line Ads 这个实验#xff0c;最初的目的就是为了选出最佳的广告。首先#xff0c;通过伯努利分布#xff0c;模拟了某个广告的有效率。在真实场景里#xff0c;我们是无法知道那个广告更好的。可能在t…说明 这部分应该是Multi-Armed Bandit的最后一部分了。 内容 1 On Line Ads 这个实验最初的目的就是为了选出最佳的广告。首先通过伯努利分布模拟了某个广告的有效率。在真实场景里我们是无法知道那个广告更好的。可能在train阶段可以获得一些模糊的参考但是使用强化学习的目的就是让其随着现实返回进行自发调整。 可以把一个模型或者一个版本视为一个bandit。强化框架的意义在于最大化的利用已有的一套bandit在过程中最优的bandit会自动浮现从而解开最初建模阶段的一些迷惑。 class BernoulliBandit(object):def __init__(self, p):self.p pdef display_ad(self):reward np.random.binomial(n1, pself.p)return rewardadA BernoulliBandit(0.004) adB BernoulliBandit(0.016) adC BernoulliBandit(0.02) adD BernoulliBandit(0.028) adE BernoulliBandit(0.031)ads [adA, adB, adC, adD, adE]2 强化学习 在之前的样例中我们已经尝试了A/B/n test 、eps greedy、UCB等三个方法现在是最后一种方法Thompson Sampling 初始化过程 这段代码看起来像是为Multi-Armed Bandit Proble 中的 Thompson Sampling 算法做准备。Thompson Sampling 是一种用于解决探索-利用困境的随机化算法它基于贝叶斯方法在每个时间步骤根据先验分布和观察到的奖励来更新每个臂的概率分布。 在 Thompson Sampling 中每个臂都有一个 Beta 分布其中 α 参数表示已经获得的奖励次数β 参数表示已经尝试的次数减去获得奖励的次数。在每个时间步骤根据每个臂的 Beta 分布随机抽样选择具有最大样本值的臂作为当前时间步的动作。 n_prod 100000 n_ads len(ads) alphas np.ones(n_ads) betas np.ones(n_ads) total_reward 0 avg_rewards []for i in range(n_prod):theta_samples [np.random.beta(alphas[k], betas[k]) for k in range(n_ads)]ad_chosen np.argmax(theta_samples)R ads[ad_chosen].display_ad()alphas[ad_chosen] Rbetas[ad_chosen] 1 - Rtotal_reward Ravg_reward_so_far total_reward / (i 1)avg_rewards.append(avg_reward_so_far) df_reward_comparison[Thompson Sampling] avg_rewards这段代码做了以下几件事情 对于每个时间步骤 i从每个臂的 Beta 分布中采样一个值 theta_samples。 选择具有最大 theta_samples 的臂作为当前时间步骤的动作 ad_chosen。 显示所选择广告并获取奖励 R。 根据获得的奖励更新所选臂的 Alpha 和 Beta 参数。 计算当前总奖励 total_reward 和平均奖励 avg_reward_so_far。 将平均奖励添加到 avg_rewards 列表中。 将 avg_rewards 列表添加到 DataFrame 中命名为 ‘Thompson Sampling’。 3 UCB 这个漏掉了补一下 分别使用3个参数分别跑 # c 0.1 # c 1 c 10 n_prod 100000 n_ads len(ads) ad_indices np.array(range(n_ads)) Q np.zeros(n_ads) N np.zeros(n_ads) total_reward 0 avg_rewards []for t in range(1, n_prod 1):if any(N0):ad_chosen np.random.choice(ad_indices[N0])else:uncertainty np.sqrt(np.log(t) / N)ad_chosen np.argmax(Q c * uncertainty)R ads[ad_chosen].display_ad()N[ad_chosen] 1Q[ad_chosen] (1 / N[ad_chosen]) * (R - Q[ad_chosen])total_reward Ravg_reward_so_far total_reward / tavg_rewards.append(avg_reward_so_far)df_reward_comparison[UCB, c{}.format(c)] avg_rewards这段代码实现了上限置信区间Upper Confidence Bound, UCB算法。UCB算法通过平衡探索Exploration和利用Exploitation来选择动作。其中参数c用于调整探索与利用之间的权衡。 这段代码中c 参数用于控制探索的程度。较大的 c 值将会更加强调探索而较小的 c 值则更加强调利用。 这段代码的逻辑如下 如果有至少一个广告的点击次数为零则在这些广告中随机选择一个。 否则计算每个广告的置信区间上界并选择置信区间上界最大的广告。 显示所选择的广告并获取奖励。 更新所选广告的点击次数和平均奖励。 计算当前总奖励和平均奖励将平均奖励添加到列表中。 将平均奖励列表添加到 DataFrame 中命名为 ‘UCB, c{}’。 4 Next Review一下这一章然后找一个具体的实用样例来进行实测最后发布为前后端微服务。
http://www.w-s-a.com/news/295860/

相关文章:

  • 创建网站的英语石家庄微信网站建设
  • 分享几个x站好用的关键词微信商城小程序开发一般需要多少钱
  • 做韩国外贸网站wordpress手机版中文
  • 建站群赚钱有前途吗蚌埠北京网站建设
  • 北京网站建设求职简历十堰seo优化教程
  • 网站顶部可关闭广告微信小程序多少钱
  • 网站背景怎么弄斜杠青年seo工作室
  • ps个人网站首页怎么制作如何做网站的版块规划
  • 做网站的市场开源建站工具
  • 邹平做网站哪家好自动点击器app
  • 南阳seo网站排名优化wordpress文章对游客不显示
  • 网站301什么意思湛江市seo网站设计报价
  • 免费建造网站化妆品网络营销方案
  • 建公司网站wordpress the content
  • 网站的站点的管理系统建设银行网站注册企业
  • 长春火车站是哪个站做微商哪个网站有客源
  • 亚马逊培训费用一般多少seo专业培训课程
  • 做推文封面图网站南宁高端网站建设
  • 天津网站搜索排名做电影免费ppt模板下载网站
  • 襄樊最好网站建设价格网站建设与设计 毕业设计
  • 网站推广广告词大全集网站建设相对路径
  • 甘肃省铁路投资建设集团有限公司网站域名怎么实名认证
  • 企业网站建设的层次返利网站建设
  • 竞价单页网站制作中小企业网站建设问题
  • 响应式网站源码学校网站制作多少钱
  • 营销型网站建设需要懂什么网站建站四件套是什么
  • 廊坊哪里有制作手机网站的区块链开发语言
  • 找建设项目的网站装企工长网站开发
  • 戴尔网站建设成功方正网站制作
  • 怎么买网站域名wordpress 视频站模版