当前位置: 首页 > news >正文

护肤品网站建设策划书沈阳开发网站公司

护肤品网站建设策划书,沈阳开发网站公司,垂直行业门户网站有哪些,代刷网站推广快速说明 这部分应该是Multi-Armed Bandit的最后一部分了。 内容 1 On Line Ads 这个实验#xff0c;最初的目的就是为了选出最佳的广告。首先#xff0c;通过伯努利分布#xff0c;模拟了某个广告的有效率。在真实场景里#xff0c;我们是无法知道那个广告更好的。可能在t…说明 这部分应该是Multi-Armed Bandit的最后一部分了。 内容 1 On Line Ads 这个实验最初的目的就是为了选出最佳的广告。首先通过伯努利分布模拟了某个广告的有效率。在真实场景里我们是无法知道那个广告更好的。可能在train阶段可以获得一些模糊的参考但是使用强化学习的目的就是让其随着现实返回进行自发调整。 可以把一个模型或者一个版本视为一个bandit。强化框架的意义在于最大化的利用已有的一套bandit在过程中最优的bandit会自动浮现从而解开最初建模阶段的一些迷惑。 class BernoulliBandit(object):def __init__(self, p):self.p pdef display_ad(self):reward np.random.binomial(n1, pself.p)return rewardadA BernoulliBandit(0.004) adB BernoulliBandit(0.016) adC BernoulliBandit(0.02) adD BernoulliBandit(0.028) adE BernoulliBandit(0.031)ads [adA, adB, adC, adD, adE]2 强化学习 在之前的样例中我们已经尝试了A/B/n test 、eps greedy、UCB等三个方法现在是最后一种方法Thompson Sampling 初始化过程 这段代码看起来像是为Multi-Armed Bandit Proble 中的 Thompson Sampling 算法做准备。Thompson Sampling 是一种用于解决探索-利用困境的随机化算法它基于贝叶斯方法在每个时间步骤根据先验分布和观察到的奖励来更新每个臂的概率分布。 在 Thompson Sampling 中每个臂都有一个 Beta 分布其中 α 参数表示已经获得的奖励次数β 参数表示已经尝试的次数减去获得奖励的次数。在每个时间步骤根据每个臂的 Beta 分布随机抽样选择具有最大样本值的臂作为当前时间步的动作。 n_prod 100000 n_ads len(ads) alphas np.ones(n_ads) betas np.ones(n_ads) total_reward 0 avg_rewards []for i in range(n_prod):theta_samples [np.random.beta(alphas[k], betas[k]) for k in range(n_ads)]ad_chosen np.argmax(theta_samples)R ads[ad_chosen].display_ad()alphas[ad_chosen] Rbetas[ad_chosen] 1 - Rtotal_reward Ravg_reward_so_far total_reward / (i 1)avg_rewards.append(avg_reward_so_far) df_reward_comparison[Thompson Sampling] avg_rewards这段代码做了以下几件事情 对于每个时间步骤 i从每个臂的 Beta 分布中采样一个值 theta_samples。 选择具有最大 theta_samples 的臂作为当前时间步骤的动作 ad_chosen。 显示所选择广告并获取奖励 R。 根据获得的奖励更新所选臂的 Alpha 和 Beta 参数。 计算当前总奖励 total_reward 和平均奖励 avg_reward_so_far。 将平均奖励添加到 avg_rewards 列表中。 将 avg_rewards 列表添加到 DataFrame 中命名为 ‘Thompson Sampling’。 3 UCB 这个漏掉了补一下 分别使用3个参数分别跑 # c 0.1 # c 1 c 10 n_prod 100000 n_ads len(ads) ad_indices np.array(range(n_ads)) Q np.zeros(n_ads) N np.zeros(n_ads) total_reward 0 avg_rewards []for t in range(1, n_prod 1):if any(N0):ad_chosen np.random.choice(ad_indices[N0])else:uncertainty np.sqrt(np.log(t) / N)ad_chosen np.argmax(Q c * uncertainty)R ads[ad_chosen].display_ad()N[ad_chosen] 1Q[ad_chosen] (1 / N[ad_chosen]) * (R - Q[ad_chosen])total_reward Ravg_reward_so_far total_reward / tavg_rewards.append(avg_reward_so_far)df_reward_comparison[UCB, c{}.format(c)] avg_rewards这段代码实现了上限置信区间Upper Confidence Bound, UCB算法。UCB算法通过平衡探索Exploration和利用Exploitation来选择动作。其中参数c用于调整探索与利用之间的权衡。 这段代码中c 参数用于控制探索的程度。较大的 c 值将会更加强调探索而较小的 c 值则更加强调利用。 这段代码的逻辑如下 如果有至少一个广告的点击次数为零则在这些广告中随机选择一个。 否则计算每个广告的置信区间上界并选择置信区间上界最大的广告。 显示所选择的广告并获取奖励。 更新所选广告的点击次数和平均奖励。 计算当前总奖励和平均奖励将平均奖励添加到列表中。 将平均奖励列表添加到 DataFrame 中命名为 ‘UCB, c{}’。 4 Next Review一下这一章然后找一个具体的实用样例来进行实测最后发布为前后端微服务。
http://www.w-s-a.com/news/629127/

相关文章:

  • 网站建站什么目录桂林网站建设内容
  • 光明新区城市建设局网站长沙营销型网站制作费用
  • 网站建设制度制定wordpress主题哥
  • 门户网站的种类php网站开发实训心得
  • 流程图制作网页网络优化seo
  • 个人公益网站怎么制作wordpress flat theme
  • 做营销型网站的公司篇高端网站愿建设
  • 五莲网站建设维护推广凡科做网站的方法
  • 山东省住房建设厅网站首页网站文章更新怎么通知搜索引擎
  • 商务网站的可行性分析包括大流量网站 优化
  • 推广网站有效的方法网站数据统计
  • 自建视频网站WordPress数据库添加管理员
  • 新民电商网站建设价格咨询网站建设高效解决之道
  • 做网站需要哪些步骤网站设计介绍
  • 物流网站制作目的国外中文网站排行榜单
  • 苏州网站建设招标网站ftp的所有权归谁
  • 未央免费做网站河间网站建设
  • 酒庄企业网站app制作多少钱一个
  • 西安模板建网站网站如何做直播轮播
  • 网站功能需求表百度怎么投放自己的广告
  • 如何免费制作网站网站icp备案费用
  • 网站建设最新教程wordpress表白墙
  • android电影网站开发网站建设与设计实习报告
  • 公司汇报网站建设方案烟台seo网站推广
  • 文章网站哪里建设好找素材的网站
  • 怎么做自己的彩票网站公司建设网站价格
  • 国外比较好的设计网站网站后台无法上传图片
  • 帮别人做网站的公司是外包吗用户登录
  • 关于我们网站模板小莉帮忙郑州阳光男科医院
  • 上海门户网站怎么登录永州网站制作