建立自己的模型预测2019年奥斯卡

邮寄人

每年的这个时候,全世界的影迷都会聚精会神地看电视,吸吮奥斯卡多年来所代表的一切:提名人还有冷落、名人、设计师装束、即将分手的谣言或新来者掀起波澜,哦,是的,还有一些前一年最好的电影。跟随我们的脚步去年的成功,就我们而言,我们正准备再次预测哪些特别表演或作品值得赢得今年的镀金雕像可能象征着世界上最高的成就131岁快速电影业务。

2019年奥斯卡

今年,为了让我们所有的读者都参与到这个有趣的练习中(以及机器学习的一个很好的介绍用例),我们发布了相应的BigML库中的数据集beplay2网页登陆. 请放心,我们已经完成了收集和验证数据完整性的大部分艰苦工作。它有20个分类字段、56个数字字段、42个项目字段和1个日期时间字段,总共119个字段,为您提供了有关过去提名者和获奖者各个方面的大量详细信息。数据集的组织方式使每个记录都代表由字段标识的唯一电影电影id. 前17个字段与每部电影相关的元数据有关,例如发行日期、类型、概要、持续时间、元分数。以下字段用于记录过去的奥斯卡奖以及金球奖、银幕演员协会、英国电影艺术学院等19个相关奖项的成果。最后,我们有一些基于电影条目的发布日期自动生成的datetime字段。请注意,这个相当简短的数据集具有仅基于电影标题进行预测的限制,这意味着在多人从一部电影中提名的情况下,您必须在这些提名人之间做出判断。

2000-2018年奥斯卡提名
单击上面的图片并将此公共数据集克隆到您的BigML仪表板。beplay2网页登陆

为了做出自己的预测,你需要进行时间分割,创建一个跨越2000-2017年的培训数据集,以及2018年发行的电影的测试数据集——基本上是2019年奥斯卡提名者。数据集的准备方式可以处理多个奖励以节省时间。因此,您不必为每个奖项处理不同的数据集,只需删除不需要的目标字段,然后选择您试图预测的奖项作为您的目标字段。例如,如果你想预测最好的电影,那么你可以选择奥斯卡最佳影片奖作为目标,其他字段共享命名约定奥斯卡奖将被排除在外。

以下是一些给新手的额外线索:

  • 通过构建一些散点图可视化
  • 从更简单的方法开始,比如模型或逻辑回归查看哪些字段似乎与您期望预测的结果关联良好(即使用模型摘要报告)
  • 添加更复杂的技术,如深海网或者稍后的合奏
  • 并肩执行评价比较比较性能最佳的分类模型
  • 试一试OptiML看看自动机器学习与之前的尝试相比表现如何
  • 为了获得更多的安心,用过去几年的预测来验证模型,作为打破僵局的练习
  • 看看你能不能建造一些融合从您的顶级分类器进一步提高预测的稳健性
  • 将你的预测与其他人的预测进行比较人类专家,更好的是,通过使用BigML的便捷预测和解释功能来了解它们是如何偏离的。beplay2网页登陆
  • 奖金:超越我们在此提供的功能,添加您自己的功能和数据转换添加到原始电影数据集以获取附加边缘。

你还在等什么呢,加入到乐趣中来,给一些朋友留下深刻的印象,让我们知道你的预测结果如何,并大声呼喊@beplay2网页登陆大公司在推特上!

留话

在下面填写详细信息或单击图标登录:

掘墓人
WordPress.com徽标

您正在使用WordPress.com帐户进行评论。(注销/改变)

谷歌照片

您正在使用您的Google帐户进行评论。(注销/改变)

推特图片

您正在使用您的Twitter帐户发表评论。(注销/改变)

Facebook照片

您正在使用您的Facebook帐户发表评论。(注销/改变)

正在连接到%s