当前位置: 首页 > news >正文

国外网站设计风格网站建设牜金手指花总十五

国外网站设计风格,网站建设牜金手指花总十五,手机app开发网站模板下载,wordpress后台页地址修改DataWhale 机器学习夏令营第二期 学习记录一 (2023.08.06)1. 问题建模1.1 赛事数据数据集情况数据中缺失值类别和数值特征的基本分布 1.2 评价指标中间价的计算方式价格移动方向说明 1.3 线下验证 DataWhale 机器学习夏令营第二期 ——AI量化模型预测挑战赛 已跑通baseline线上得分0.51138, 跑通修改后进阶代码线上得分0.34497 学习记录一 (2023.08.06) 按照鱼佬直播分享按照以下常见思路分析机器学习竞赛 1. 问题建模 1.1 赛事数据 数据集情况 给定数据集 给定训练集含验证集 包括10只不公开股票、79个交易日的L1snapshot数据前64个交易日为训练数据用于训练后15个交易日为测试数据不能用于训练 数据已进行规范化和隐藏处理包括5档量/价中间价交易量等数据具体可参考后续数据说明。 预测任务利用过往及当前数据预测未来中间价的移动方向在数据上进行模型训练与预测 输入数据 行情频率3秒一个数据点也称为1个tick的snapshot 每个数据点包括当前最新成交价/五档量价/过去3秒内的成交金额等数据 训练集中每个数据点包含5个预测标签的标注 允许利用过去不超过100tick包含当前tick的数据预测未来N个tick后的中间价移动方向。 预测时间跨度5、10、20、40、60个tick5个预测任务 即在t时刻分别预测t5tickt10tickt20tickt40tickt60tick以后 最新中间价相较t时刻的中间价下跌/不变/上涨。 数据分为训练集和测试集训练集包括sym0 ~ 9共10个sym从date0 ~ 63共64天每天上午和下午的数据测试集则为后续date64 ~ 78共14天的数据。数据量较大典型的时间序列预测问题。时间步长为 3 s 范围从 09:40:03~ 11:19:5713:10:03~14:49:57。 思路 在构建时序特征时需要考虑按照每个上下午分组进行构造来保证时间步长一致。对10只股票分开处理对5个任务分开处理 N5,10 为一类 N 20,40,60 一类 数据中缺失值 train_df.isnull().sum()不存在缺失值 类别和数值特征的基本分布 查看数值型特征在训练集和测试集上的数据分布 价格类数值变量数值比较稳定训练和测试集分布范围基本一致如’n_close’,‘n_midprice’, ‘n_bid1’, n_ask1’等而和交易量相关的数值变量训练集的变化比测试集较大 训练集中存在交易量远大于测试集交易量的数据后续分析可以研究这些高交易量对应的日期是否在一天是否为特殊时刻以及是否为异常值 1.2 评价指标 中间价的计算方式 n _ m i d p r i c e n _ b i d 1 n _ b i d 2 2 n\_midprice \frac{n\_bid1n\_bid2}{2} n_midprice2n_bid1n_bid2​ 其中一个为0取另一个值 分析 查看为 n _ b i d 1 , n _ b i d 2 n\_bid1, n\_bid2 n_bid1,n_bid2中存在0的行 train_df[(train_df[n_bid1] 0 )| (train_df[n_ask1] 0)].indexIndex([ 6641, 6642, 6645, 6646, 6647, 6648, 6649, 6650,6651, 6652,...2446840, 2446842, 2446844, 2446845, 2446846, 2446848, 2446918, 2446919,2446920, 2446921],dtypeint64, length175414)上面为 n _ b i d 1 , n _ b i d 2 n\_bid1, n\_bid2 n_bid1,n_bid2中存在0的行索引共175414行存在为0的值。这也说明了之前的箱线图分析中交易值偏向于低端的原因因此后续可以对交易量相关特征进一步分析包括1去除0值观察分布 2取对数。 去0后其实对分布影响不大含0的数据量太少了 此外不存在都为0的行该结果在缺失值分析中已经得到了。 价格移动方向说明 以涨跌幅为基准分为 2涨、1不变、0跌 L a b e l t N σ ( n _ m i d p r i c e t N − n _ m i d p r i c e t ) Label_t^N \sigma(n\_midprice_{tN} - n\_midprice_t) LabeltN​σ(n_midpricetN​−n_midpricet​) 赛题公式说明 这里我目前还没理解清楚按照给的公式我去计算了下标签发现不太一致。另外如果有了这个具体的指标确定的话不是可以直接用于测试集的计算 1.3 线下验证 Baseline 采取的是K折交叉验证时序数据为了保证数据一致性后续打算采用训练集中data50~63共14天数据作为验证集以尽可能保持线上线下一致性用来分析后续特征工程中衍生特征的好坏。 下一步打算对数据进一步分析构建交叉特征同时对不同股票不同天的上下午构建时序特征对五种不同预测任务构建不同的模型并采用训练集后14天作为验证集进行验证(K折太久了。此外收集些业务信息感觉对赛题的理解还不够清晰。 PS 一轮赛制按照目前的排行榜基本无了认真看赛题两次提交失败都是因为没注意到赛题已经说明 文件详细说明以zip文件格式提交编码为UTF-8文件格式submit.zip文件包含文件夹submit
http://www.w-s-a.com/news/969308/

相关文章:

  • wordpress主要菜单如何对网站页面进行优化
  • 建设银行深分行圳招聘网站建立互联网公司网站
  • 湖南做旅游网站哪家最好html5手机网站免费模板
  • 云服务器上放多个网站wordpress ping大全
  • 以下属于网站的管理 更新 维护如何才能做好品牌网站建设
  • 国家工业和信息化部网站备案系统网站建设设计费用
  • 网站建设利弊宁波高端网站建设联系方式
  • 网站订票策划方案郑州代做网站
  • 免费的网站加速器注册公司邮箱
  • 千助网站建设网站整站程序
  • 自学建网站做网站优化访问网站出现目录
  • 济南网站建设是什么百度官网登录入口手机版
  • net快速建站西宁手机网站建设
  • 网站浏览器不兼容怎么办软件系统开发大概多少钱
  • 网站建设哪个公司最好shift wordpress
  • 公司网站建设功能介绍室内设计学习
  • 做网站策划容易遇到哪些问题沈阳公司网站制作
  • 做php网站都用框架吗网站备案当面核验拍摄照片
  • 泉州企业自助建站兰州最好的互联网公司
  • 监察部门网站建设方案网站seo技术教程
  • 个人网站制作源代码下载品牌建设部
  • 网站备案需要准备什么文创产品设计思路
  • 网站开发书籍推荐青岛城阳新闻最新消息
  • 秦皇岛网站建设服务聊城做网站的公司资讯
  • 30岁转行做网站设计丰涵网站建设
  • 山东省和住房建设厅网站首页开发商不按时交房可以退房吗
  • asp网站怎么做404页面跳转本地南通网站建设
  • 点击网站出现微信二维码的链接怎么做申请网站空间怎么做
  • 网站开发的论文题目广告设计排行榜
  • 网络营销网站 功能南京h5制作公司