当前位置：首页 > news >正文

护肤品网站建设策划书沈阳开发网站公司

news 2025/12/19 16:23:20

护肤品网站建设策划书,沈阳开发网站公司,垂直行业门户网站有哪些,代刷网站推广快速说明这部分应该是Multi-Armed Bandit的最后一部分了。内容 1 On Line Ads 这个实验#xff0c;最初的目的就是为了选出最佳的广告。首先#xff0c;通过伯努利分布#xff0c;模拟了某个广告的有效率。在真实场景里#xff0c;我们是无法知道那个广告更好的。可能在t…说明这部分应该是Multi-Armed Bandit的最后一部分了。内容 1 On Line Ads 这个实验最初的目的就是为了选出最佳的广告。首先通过伯努利分布模拟了某个广告的有效率。在真实场景里我们是无法知道那个广告更好的。可能在train阶段可以获得一些模糊的参考但是使用强化学习的目的就是让其随着现实返回进行自发调整。可以把一个模型或者一个版本视为一个bandit。强化框架的意义在于最大化的利用已有的一套bandit在过程中最优的bandit会自动浮现从而解开最初建模阶段的一些迷惑。 class BernoulliBandit(object):def __init__(self, p):self.p pdef display_ad(self):reward np.random.binomial(n1, pself.p)return rewardadA BernoulliBandit(0.004) adB BernoulliBandit(0.016) adC BernoulliBandit(0.02) adD BernoulliBandit(0.028) adE BernoulliBandit(0.031)ads [adA, adB, adC, adD, adE]2 强化学习在之前的样例中我们已经尝试了A/B/n test 、eps greedy、UCB等三个方法现在是最后一种方法Thompson Sampling 初始化过程这段代码看起来像是为Multi-Armed Bandit Proble 中的 Thompson Sampling 算法做准备。Thompson Sampling 是一种用于解决探索-利用困境的随机化算法它基于贝叶斯方法在每个时间步骤根据先验分布和观察到的奖励来更新每个臂的概率分布。在 Thompson Sampling 中每个臂都有一个 Beta 分布其中 α 参数表示已经获得的奖励次数β 参数表示已经尝试的次数减去获得奖励的次数。在每个时间步骤根据每个臂的 Beta 分布随机抽样选择具有最大样本值的臂作为当前时间步的动作。 n_prod 100000 n_ads len(ads) alphas np.ones(n_ads) betas np.ones(n_ads) total_reward 0 avg_rewards []for i in range(n_prod):theta_samples [np.random.beta(alphas[k], betas[k]) for k in range(n_ads)]ad_chosen np.argmax(theta_samples)R ads[ad_chosen].display_ad()alphas[ad_chosen] Rbetas[ad_chosen] 1 - Rtotal_reward Ravg_reward_so_far total_reward / (i 1)avg_rewards.append(avg_reward_so_far) df_reward_comparison[Thompson Sampling] avg_rewards这段代码做了以下几件事情对于每个时间步骤 i从每个臂的 Beta 分布中采样一个值 theta_samples。选择具有最大 theta_samples 的臂作为当前时间步骤的动作 ad_chosen。显示所选择广告并获取奖励 R。根据获得的奖励更新所选臂的 Alpha 和 Beta 参数。计算当前总奖励 total_reward 和平均奖励 avg_reward_so_far。将平均奖励添加到 avg_rewards 列表中。将 avg_rewards 列表添加到 DataFrame 中命名为 ‘Thompson Sampling’。 3 UCB 这个漏掉了补一下分别使用3个参数分别跑 # c 0.1 # c 1 c 10 n_prod 100000 n_ads len(ads) ad_indices np.array(range(n_ads)) Q np.zeros(n_ads) N np.zeros(n_ads) total_reward 0 avg_rewards []for t in range(1, n_prod 1):if any(N0):ad_chosen np.random.choice(ad_indices[N0])else:uncertainty np.sqrt(np.log(t) / N)ad_chosen np.argmax(Q c * uncertainty)R ads[ad_chosen].display_ad()N[ad_chosen] 1Q[ad_chosen] (1 / N[ad_chosen]) * (R - Q[ad_chosen])total_reward Ravg_reward_so_far total_reward / tavg_rewards.append(avg_reward_so_far)df_reward_comparison[UCB, c{}.format(c)] avg_rewards这段代码实现了上限置信区间Upper Confidence Bound, UCB算法。UCB算法通过平衡探索Exploration和利用Exploitation来选择动作。其中参数c用于调整探索与利用之间的权衡。这段代码中c 参数用于控制探索的程度。较大的 c 值将会更加强调探索而较小的 c 值则更加强调利用。这段代码的逻辑如下如果有至少一个广告的点击次数为零则在这些广告中随机选择一个。否则计算每个广告的置信区间上界并选择置信区间上界最大的广告。显示所选择的广告并获取奖励。更新所选广告的点击次数和平均奖励。计算当前总奖励和平均奖励将平均奖励添加到列表中。将平均奖励列表添加到 DataFrame 中命名为 ‘UCB, c{}’。 4 Next Review一下这一章然后找一个具体的实用样例来进行实测最后发布为前后端微服务。

查看全文

http://www.w-s-a.com/news/629127/