提高奥斯卡奖

在这篇关于增强树的六篇博文系列的第三篇博文中,我们将把增强树的力量带到一个具体的例子中。正如我们在报告中看到的那样以前的职位,增强树是一种监督学习形式,它将集合中的每一棵树相加,以回答分类和回归问题。具有beplay2网页登陆BigML简单而漂亮的仪表板可视化,我们将重新讨论谁将获得奥斯卡最佳男主角的答案。

数据

已经为我们最近的奥斯卡预测邮报,我们从许多来源获取数据,特别是包括许多相关奖项,看看我们能否回答好莱坞最大的问题之一:今年谁将赢得奥斯卡奖?我们的随机决策总体上做得很好。在我们尝试的八个类别中,我们有五个是正确的,另外两个是在胜利者和我们的选择之间的刀锋决胜。但我们能用这些树做得更好吗?

图表

增强树不同于随机决策林的一个主要方式是,有更多的参数可以改变。这不仅是强大的,因为我们可以调整树,以确切地说,我们想要的,但也有这么多的旋钮吓人!在未来的博客文章中,我们将展示如何自动选择这些参数。然而,在本例中,我们将使用迭代滑块。

正如我们所看到的,增强树通过使用每次迭代来改进上一次迭代。这看起来好像迭代次数越多越好,然而,情况并非总是如此。在某些情况下,我们可能会慢慢地朝着某个最佳答案迈进,但我们的改进在每次迭代中都是如此之小,以至于不值得为它们投入时间。那么,如何知道何时停止?这就是提前停车对我们的作用。BigML有两种早期停止形式,beplay2网页登陆坚持现成的.坚持保留一些训练数据子集,以评估我们在每次迭代中取得的进展。如果改进程度很小,则集成将停止构建。然后使用所选迭代次数的所有数据重新运行。现成的使用当前未用于构建此迭代的一些培训数据来评估改进。一般来说,它比坚持提前停止要快,但因为它重用了在早期迭代中用于训练的数据,所以它不像测试那样干净。

在本例中,我们只选择了10次迭代,学习率为30%。一般来说,较低的学习率有助于找到最佳解决方案,但需要更多的迭代才能实现。我们的示例还使用了带外提前停止选项。

职位3-01

从合奏总结报告中我们可以看出,这一决定的两个最重要的方面是奥斯卡提名类别的数量以及是否获得最佳男主角提名。

通过领域重要性图表,我们还可以看到其他类别的重要性:评论、英国电影艺术学院奖获得者、电影演员协会奖获得者和洛杉矶电影评论协会提名者。我们已经可以看到这个模型有一个偏差;要获得最佳男演员提名,显然是必须的。所以我们认为这是最重要的领域,而不是第二个。

查看PDP,我们看到它分为四个主要部分。这两个蓝色部分是电影没有获得最佳男主角奖的可能性最大的地方,而红色部分是电影没有获得最佳男主角奖的可能性最大的地方。这里又发生了一些奇怪的事情。右上象限被编码为红色,这意味着模特相信即使没有提名,演员也可以获奖!

让我们创建一个不同的增强树,这次有500次迭代和10%的学习率。和以前一样,我们将采用65%的树抽样,在总训练数据的子集上构建每个迭代。对于分类问题,每次迭代每个类有一棵树,对于回归问题,每个类只有一棵树。

邮政编码3-03

我们已经看到了进步。这部电影是否获得奥斯卡最佳男主角提名现在是最重要的领域。其他最热门的领域包括它是否获得了最佳男演员奖、用户评论以及它的整体评级。这与我们的第一个例子非常不同,它严重依赖于其他奖项。正如我们所料,我们还看到,没有获得提名的电影将不会获得最佳男主角奖。

预言

但是我们的树木究竟预测了什么呢?看看更有希望的第二个模型,我们可以用2016年的电影数据创建一个批量预测。

邮政编码3-04

为了得到每一行的概率,我们将配置,然后输出设置选择百分比符号图标。这将向我们的输出数据集中添加两列,目标字段中的每个类对应一列:电影获得奥斯卡最佳男主角的概率和未获得奥斯卡最佳男主角的概率。通过这种方式,我们不仅可以看到模型是否预测了胜利,还可以看到预测了多少。

邮政3-05

我们的预测…drumroll拜托…四个不同的演员可能会赢得奥斯卡!也就是说,四个不同的演员有很好的获胜机会。让我们看看我们有谁:莱恩·戈斯林在拉兰,丹泽尔·华盛顿在篱笆里,安德鲁·加菲尔德在哈克索里奇,最后凯西·阿弗莱克在海边的曼彻斯特。

以下是标准化概率。这四位候选人的得票率都在几%以内,阿弗莱克可能是最落后的。难怪我们的模特选了四个优胜者!难怪我们在预测随机决策森林的胜负时如此困难。比赛离最后一场比赛太近了,要等到晚上才开始。

下一篇文章,我们将看到如何从bigmlapi创建增强树。beplay2网页登陆

你想了解更多关于树木的知识吗?请访问专用发布页面有关如何创建增强树的更多文档,请通过BigML仪表板和API对它们进行解释和预测;以及本系列的六篇博文、网络研讨会的幻灯片和网络研讨会视频。beplay2网页登陆

2评论

留话

在下面填写详细信息或单击图标登录:

掘墓人
WordPress.com徽标

您正在使用WordPress.com帐户进行评论。(注销/改变)

谷歌照片

您正在使用您的Google帐户进行评论。(注销/改变)

推特图片

您正在使用您的Twitter帐户发表评论。(注销/改变)

Facebook照片

您正在使用您的Facebook帐户发表评论。(注销/改变)

正在连接到%s