<ins id='5DS8j'></ins><dl id='LWv'></dl>

<acronym id='KS'><em id='6VE'></em><td id='V0Cu'><div id='LUDn'></div></td></acronym><address id='tC6'><big id='MkKK1'><big id='OpX'></big><legend id='1D'></legend></big></address>

<acronym id='XY5'><em id='VC6E'></em><td id='wsnU'><div id='hD'></div></td></acronym><address id='iWu'><big id='Bo6L6'><big id='Hmq'></big><legend id='2tb'></legend></big></address>

          <code id='J0Hkt'><strong id='8gA'></strong></code>

            <code id='S56vQ'><strong id='t2L'></strong></code>
              首页 >> 健康问答

            Li Li,为AI竞争辩护:收入的预计偏差也很有用。

            新浪财经讯8月29日,中国证券投资基金业协会金融技术委员会与电子基金,华夏基金,阿里云,通联数据等一起,新浪财经独家媒体支持“ FDDC2018全球金融数据探索与发现大赛”答辩会地点在北京金融街威斯汀大运河上。

            该竞赛有两个主要竞赛,分别是“预测上市公司的经营业绩”和“提取信息以宣布上市公司”。在半决赛中排名第五的“ KingoWind”团队的李莉在争夺收入预测的竞争中表示,财务数据对于模型的构建至关重要,逻辑关联性很强,并且使用的优先级也很高。在实用性方面,李力认为,该模型具有高效,可扩展的特点,可以及时预测相关数据,并灵活支持特征的组合和变换。此外,还将添加股票价格和价值相关性分析,并将模型与定量策略相结合。

            李丽还表示,如果公司的销售预测存在偏差,这本身也是有用的信息,可用于识别交易清单以及分析交易信息与未来趋势之间的相关性。假定“ KingoWind”团队由李莉组成。李莉在武汉大学学习计算机科学与技术,现在是该公司的员工。以下是实时文本记录:KingofWind Li Li:大家早上好!我很高兴与大家分享并分享我对这个话题的想法,也感谢这里的领导人,导师以及所有参与者和组织者。

            接下来,我参加了我的会议以分享辩护。

            首先,今天的部分分为四个部分。第一部分是简单的团队介绍。在第二部分中,我将谈谈我对游戏的理解以及获得冠军后对问题的初步解决方案。

            第三部分介绍了整个算法的细节和最重要的信息。最后一部分将总结该程序的实用性。一,团队介绍我们的团队是我的一个同学,我是个人。这就是为什么我要自我介绍的原因:我叫Li Li,我在各种Internet公司工作了很长时间,主要在系统架构和产品开发领域。

            当然,我个人的兴趣是机器学习和定量投资。这就是为什么我今天在这里。就个人而言,也许我对AI有一个愿景。这也是我们团队的声誉,被称为“让AI成为合作伙伴,AIasaPartner”,可以为特定专业提供独特帮助的合作伙伴。实际上,我们的某些AI系统可以为我们提供大多数人从发现我们的数据,挖掘数据和获取最有效的信息中无法获得的帮助。

            因此,如果我们能够很好地构建我们的AI系统,并向我们发出对我们的业务有用的信号,那么它可以成为我们提高业务效率和质量的合作伙伴。接下来让我谈谈我的个人爱好。首先,我是一个定量投资。在价值投资的方向上也要坚持投资者。因此,我通常会去一些公司的财务数据,宏数据和经营数据。实际上,这个游戏提供了一些这样的数据。

            因此,我对游戏提供的数据以及数据中的逻辑非常感兴趣。同时,在大数据的帮助下,我更加重视价值投资。例如,在许多有关财务报告和价值分析的报告中,我们将使用PBband之类的数据来帮助我们在买卖点上做出决策。如果我们随后使用大数据,则可以获取更多的数据,并从这些数据中更准确,更准确地判断我们的结论,而不是依靠人类的主观经验得出结论。最终,我个人会密切关注量化投资策略:用于量化资产的数据包括我们的市场数据,通常引用的技术数据以及许多价值数据。

            该游戏基于提供的数据,解决方案的思想和解决问题的目标。这很符合我的兴趣,所以我参加了比赛。拿到标题后,我就读了游戏的标题。游戏的目标非常明确,可以预测上市公司的运营结果。实际上,整个解决问题的想法是,我们需要了解可以使用哪种数据以及可以在该数据中进行哪种特征提取。应用此模型,最后尝试预测非常准确的运行结果。因此,解决问题的关键是分析游戏提供给我们的数据以及可以使用的数据。因此,我对游戏的分析主要是对可获得的数据进行更详细的分析。我的数据度量的维度主要涵盖这些方面,尤其是数据量,因为数据覆盖范围越广,我们可以收集的信息越多,并且我们的结果可以得到广泛推广和应用。其次,我担心数据的逻辑相关性。例如,如果我们知道某航空公司运营的航班或国内航班的数量,实际上,根据外国航班的起降次数,我们可以很容易地看出该航空公司的未来表现。但是,如果我们只知道股票的价格,则可以判断未来的表现。数据与目标之间的逻辑相关性决定了数据可以产生多少价值。在第三方面,我更加仔细地研究了数据的及时性。

            这是一个更极端的示例:我们要预测运行结果。

            实际上,我们已经在Q之前获得了营业收入。

            如果我们能在一个月前完成交易。收入,实际上,这件事会容易得多。因此,数据本身的及时性意味着它们具有很高的实用价值。从这些评论的角度,我比较了通过比较获得的一些数据。第一个是财务数据,包括资产负债表,损益表和现金流量表,这些数据中的数据量(我可能会写得少一些)应该超过100,000,因为所有公司都是该季度。这样一个数量级这是一个相对较大的幅度。财务数据与我们预测的运营结果紧密相关,因为营业利润本身是财务数据中非常重要的一部分。财务数据的及时性不是很及时,我们只能检索到以前数据的四分之一。但是总的来说财务数据在这场竞争中非常有价值,因此我认为其优先级较高。第二个数据是代表股票市场价格的市场数据,该数据的数据量也可能更低,至少大约为500,000,游戏提供的数据每个月都会显示。只有股票价格是这样的数据,它应该在30到500,000之间。如果需要,我们甚至可以得到天数或分钟数,数据量非常大,因此数据量不是问题。

            但是,就逻辑相关而言,这些数据的逻辑相关性相对较小,因为除公司的经营状况外,股价还受许多因素影响。除财务数据外,尤其是短期内,与宏观新闻等各个方面都有密切的相关性,并且相关性相对较小。从及时性的角度来看,没有问题:首先,数据已达到月度水平。

            如果我们需要它们,我们可以更快地检索它们。因此,我将在有时间的时候使用市场数据并尝试这种数据。接下来是公司的业务数据,主要是业务数据,直接传递给竞争对手的数据量实际上并不多,正在跟踪的公司和指标更少,因此在这方面的优先级将更低。但是,公司的业务数据在逻辑上是非常相关的,例如我刚才提到的航班和着陆次数。由于其逻辑相关性和营业利润,某些公司的营业状况确实很高。这种及时性也很好,每个月都有。通常,这些数据由于覆盖率低而未被大量覆盖,因此我们预测需要获得1400多家公司的营业收入。也许效果不是很好。行业宏数据,其中一些可能不是非常相关,尤其是宏数据,但是其中一些具有很高的数据相关性。

            这些数据包含的指标相对较少,可以覆盖的公司也不多。因此,我们认为它们的优先级相对较低。提供给参与者的数据主要是这种判断。我将尝试使用高优先级并获得良好的结果。如果有时间,我将优先处理数据。由于我是个人,所以比赛时间有限。我会提到一些我认为与公司业务有关的数据。

            实际上,我们可以使用所有数据来预测运行结果。

            就像我一直在互联网上一样,在这里我想简单地提一提我的想法:我认为位置数据可以很好地用于数据中,因为位置数据可以间接分析与许多行业直接相关的数据。让我举一个例子。例如,我们知道每天可以在此位置到达机场的人数。

            实际上,我们可以推断出有多少个航班和航班,或者我们在特定的离线超市中进行了哪些更改。它还能够了解其条款和条件的发展趋势。我不使用此数据。基于先前的数据分析和对游戏的理解,我将向您介绍整体算法。

            首先,我在算法方案中草绘了我们系统的架构。

            逻辑的所有后续实现和算法模型的实现都必须基于软件。而且软件设置正确,因此我可以实现代码并更快地进行更多实验。该体系结构设计的设计目标基本上如下:首先,我希望能够使用不同的数据。由于游戏本身具有各种财务数据,市场数据以及宏数据,行业数据,实际上,如果可能的话,我们希望也能在此处扩展更多数据。因此,该框架首先需要能够非常灵活,快速地使用大量数据,而不是因为我们添加了数据元素来进行更多开发。其次,我们需要支持灵活的数据转换和组合。因为在实验过程中我们需要不断地尝试如何将这些数据提取到我们的功能中,如何组合不同的功能,以便架构必须支持这种功能。最终,架构的最终目标是帮助我们快速进行实验并获得更好的结果。

            右图从上到下显示了我们系统的体系结构。首先是数据读取和清理,在这里我们读取大量数据,我们读取大量数据。

            在这个级别上,我们只需要读入数据,尝试保留数据中的信息量并进行简单的清理,而不必进行过多的处理。第二级是创建功能和目标的数据级。该层的主要任务是进行数据转换。例如,我们的数据可能代表每个季度的运营结果,实际上,我们不仅使用单一的运营结果,而且还对运营结果进行了某种转换。形式,我稍后再讨论。其次,我们需要支持数据组合,例如,我可以尝试首先计算运算结果。

            我们希望我们获取库存数据并尝试查看效果。该级别的下一个基本工作是划分培训级别和测试级别。我们将在稍后进行模型的训练和评估。下一级别是模型训练和测试评估。在此级别上,重要的是应用我们认为合适的模型并将相关数据包括在评估结果中。最后一级是数据导出。接下来,我将讨论数据的基本处理,数据的基本处理,中间还有一些细节。当我们读取利润表时,不同的水平数据是不同的。

            我们已经设置了添加每种股票的时间。例如,我可以通过阅读收入来获取正确的数据。

            其次,如果我们有一些财务报告更新了以前的报告,例如,2015年3月的数据已在2016年3月更新。第一个数据应该被更新。

            其次,我们坚持不使用任何未来数据的原则。换句话说,当我在2014年2月时,我不会使用2015年3月的数据。

            尽管数据更准确,但是由于我正在使用未来,因此在使用时结果在实践中不起作用。数据。接下来,我们将丢弃重复的数据。这次提供的数据有很多重复的数据。重复数据量相同。数据可能略有不同。通常,我们使用第一个数据并丢弃该数据,稍后将重复进行。 ,最后,使用键字段将数据丢弃。基本数据完成后,我们需要做的就是提取特征。

            我们使用时间片方法,我们按时间对数据进行排序,假设当前时间为t,然后将其作为特征在t之前取出,然后将其在时间t之后取出,然后制定目标。举一个小例子来说明例如,在2015年3月,我们将发布2015年3月,9月和2014年10月的数据,并以2015年6月的收入为目标。在这里,我们仅使用连续数据。如果中间数据不正确,我们将丢弃相关数据。缺陷可能导致逻辑偏差。提取所有数据,我们的样本量大约是时间乘以公司数量。关于在损益表中选择的特定特征,我实际上使用了返回母亲的经营业绩,经营成本和净收入。简要谈论股票市场,由于股票市场受到的影响更大,股票的涨跌与经营业绩没有直接关系。因此,我们使用特定公司上个月,三个月或N个月相对于整个市场的股价。增加排名的百分比使用此类数据。

            最终,所有实验都使用训练集进行了标准化,该训练集截至2015年3月31日小于或等于这次。所有后续数据均为测试集。接下来,我将向您介绍中间一个更重要的数据转换。首先,我们有两个规则:公司的营业收入通常每季度保持稳定,这意味着我的公司正在扩张。当我的量化宽松率达到50%Q2通常可以达到50%。

            第二个是周期性。更广泛的周期性是一个季节性周期。

            例如,不管年份如何,一家销售空调的公司都可以拥有相对较多的Q3,而Q4则可以。根据这条法律,实际上,我们可以轻松想象我们要预测的四分之一的数据。它们通常可以表示为比率除以上一个季度,再乘以特定数字。

            这实际上是一个比例关系,但是在这里我们会小心。

            比例关系不是线性关系,因此我们需要一个协议由于对数是在转换为线性关系时进行转换的,因此我们有一个更简单的模型来支持其预测。由于我们的财务报告显示了上一季度的两阶段收入,因此第一季度也是第二季度和第一季度的累积。在创建日志之前,我们先对数据进行计数,并且不要将其混入日志区域。完成单季度转换和日志转换后,此步骤通常可将效果误差提高30%。最后,让我们介绍一个事实,在转换为线性之后,我们主要使用RidgeRegression进行预测。这是我们的多切片策略。

            多切片主要考虑我们可以预测的股票没有连续的多头数据。例如,该股票仅上市一年,且不得超过利润的四分之四。基于这种考虑,我们实际上训练了各种模型:我们训练了不同长度的模型,例如四分之一,两个季度,十个季度和二十个季度,知道将数据用于预测的时间更加有效和准确。因此,这里有一个ModelSet,其中包含上一季度的数据以及之前25季度的培训和预测。我们将在分数中选择最佳的优先级。对于需要预测的每只股票,其优先级将根据其拥有的长度找到最佳的。

            实际上,在这场竞争中,数据的质量非常高:超过1,400家公司拥有超过十个或二十个季度的数据。最后,有一个数据元素显示切片的长度和实际获得的样本数之间的关系。如果划分10个数据段的长度,请不要超过此数字。实际上,总数据量是可以接受的,因此不容易掉入河中。结果是可概括的。右图显示了切割长度和得分之间的比率,因此得分实际上低于20,但是如果数据太小,得分会稍差。最后,结合测试结果和样本量管理,我们选择了模型优先级策略:我们拥有超过17个季度的数据。我们统一使用17个季度。如果它们小于此数据,则应使用更长的数据要素模型。最后,这张图片比较了我们前面提到的各种功能以及不同策略的测试组合。首先是我们直接在线性模型中使用收入,并且误差相对较大。第二张图是销售和协议转换。

            第三个图像是销售额+日志+单季度。这是我提交的最新数据,也是最好的数据。接下来让我简单地说,合并市场数据时,结果可能更容易出错。但是我认为这个方向值得探索。如果加总运营成本,则误差会稍大。

            最后一个之后,我们加入了母亲的净利润,数据非常好,为什么它没用?因为后来我发现,在母亲净收益之后,我已经剔除了一些负数,如果实际利润为正,则这些公司与该模型非常吻合,因此效果更好。但是我后来尝试了。如果我不将净利润加到母亲身上,那我只是在看获胜率。一些公司实际上选择了最佳模型。实际上,数据更好。回答一条消息,利润仍然为正的公司可能会有一段时间的负收益。

            特点是不同的。此功能可以提高获利能力。最后,对该程序的实用性进行了总结。首先,为了提高效率,我在自己的本地PC上读取数据,包括损益表和库存数据。处理该数据大约需要两分钟。多模型预测:这应该是25个模型预测的时间。训练和测试的总时间为10秒,每个模型约为500兆台。最终的预测花费了大约300毫秒。我个人对效率的估计是首先预测300毫秒是提供在线服务的一个数量级。预测模型的10秒钟如下:首先,我认为我们使数据的提取和转换更加准确,因此几乎没有时间可用。其次,这个地方的可用时间很长。这段时间为我们提供了更多数据,以获得更好的结果,这实际上提供了很多时间和空间。在可伸缩性方面,我想重点介绍上述架构:我们支持非常灵活的组合转换和快速实验。上面提到的某些数据比较可以通过非常简单的更改来使用。在此基础上,我们使用更多。考虑相关主题,我分享两点。

            首先,以上的市场数据这次并没有产生很好的结果,但是我认为我们可以对此做进一步的调查。因为股票价格数据和我们公司的价值数据之间必须存在某种关系,并且这种关系可以用于我们的量化策略中。第二点是我们今天都实施了预测模型,如果预计的产出与实际发布的公司数据之间存在较大差异,我们可以使用提醒信息来表明该公司最近可能已采取了异常措施,我们记得要尽快介入公司并进行更详细的分析。

            同时,该信号还可以用于跟踪公司的股价,包括财务状况,这是一个特征维度。我的回答报告在这里,谢谢!主持人:感谢KingofWind团队的发言:根据前一场比赛的证词,我们有法官想与玩家讨论吗?王纪中:在展览的所有假设下,竞争就是寻找最快,最好的收入增长,包括您的假设。如果今天的问题已经改变,那么您就是卖空基金。您想预测谁将在下一季度损失最多的收入,或者您将在自己的前提下进行哪些改进?因为您全都领先于该战略,所以如果您想错过这一战略,是否想改善现有基础?我能听到您如何获得此应用程序的10分。李莉:王老师提到了这样一个问题。我的理解是,首先,我们的预测实际上可以预测经营成果。首先,我们可以将经营成果转化为期望。

            我们需要知道人们对公司未来收入的期望在市场上是什么,因为我们有期望,而对一家公司的市场期望是另一种算法。和另一个心理或其他方面。

            这些数据可以例如通过轰动性监视或公众的其他方面获得。

            在这个时间点上,如果我们发现我们的预测数据与公开数据有较大的偏差,如果我们偏离较低,我们决定相信我们的预测,可以考虑为该公司做空的机会,这是第一个一方面,我们需要计算预期的偏差差。第二个考虑因素是我们今天预测的数字实际上,这是一个确定的数字,而不是概念数字:一家公司今天是10,明天是11。也许两家公司都是这样,但是会有一些差异。

            我们的预测模型可以替换为非线性模型并订阅一定数量的模型。它可以由分位数或稳定的分布代替。尽管公司的未来平均水平还可以,但下降的可能性相对较高,如果我们捷径并有更多的回旋余地,我们可以考虑是否可以计算这个概念。我的理解主要是这样,谢谢。

            尤海峰:我认为,如果选择此功能,您将主要查看损益表中的一些项目。除损益表外,如果有理由制定现金流量表和资产负债表,则资产负债表和现金流量表中可能存在某些投资行为,或者某些公司可能会收取预付款,因此预测公司的未来收益将有所帮助您为什么不考虑这些因素,负面模型如何影响您?有什么考虑?李莉:谢谢你的提问。

            这种考虑有点尴尬,尤其是因为我没有尝试过时间问题。但是在这里,我只能分享我对某些数据的理解。

            正如尤先生所说,当我第一次查看财务报告时,我更加关注债权人数据。由于债权人的情况,他实际上解释了公司的现金流量和偿付能力。另一方面,他也解释了公司在其行业中进行谈判的权利,这也是好事还是主动。这个倡议也更有用。我没有那样做。一方面,这只是时间问题。

            第二个方面是,我本人了解此财务数据背后的逻辑以及它们在应用后可能产生的影响,我认为我有个人可以回过头来进一步了解财务的地方。将更多精力投入到公司财务报告的分析中,这样我就可以在许多数据中使用我们的数据进行实验,这样效果更高,可以在有限的时间内更好地解决。 VinodChandrashekaran:王铮:他的意思是有些公司将管理其收入。本来它是一个不错的季度销售,但它不是太好,人为地减少了收入。

            您如何期待?李莉:谢谢!我对这个问题的理解是,我对本文结论之间的关系不是很熟悉,因此无法给出合理的答案。但是我可以说我的想法之一。我认为这份报告最终反映在收入中时,会显示一定的余额,然后是一定的现金流量或余额,或者其部分支出或一些购买。必须有一些数据可以反映出来。

            我认为这需要行业背景,例如:例如,正在寻找会计背景以分析此问题的特征的人们。

            我们使用此问题来建模我必须预测的目标是哪种数据。然后,我将分析它对这些最终收入进行了多少调整。也许我可以预测和评价它。

            责任编辑:常富强我想提供有关以下主题的反馈:2018年全球金融AI竞赛备注热门返回顶部建议关闭新浪财经公众号)相关新闻loading单击此处加载更多。

            文章来源:上海文化

            标签:电力建设,官方21点游戏下载官方网站,红包扫雷群

            <ins id='MRTVp'></ins>
            <fieldset id='Dp5'></fieldset>
            <i id='j4'></i>

            <dl id='5Rn'></dl>