首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

史上最大机器学习数据集,雅虎对外开放了

大数据魔镜最大的数据可视化分析平台

中国最大最流行的大数据可视化分析挖掘平台,已服务一万五千家企业客户,其中包括中移动、中石油、政府等大客户。“大数据魔镜”致力于帮助企业处理海量数据价值,让人人都能数据分析。

【导读】:数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。2016年1月14日,雅虎实验室对外发布了发布史上最大机器学习数据集,达 13.5 TB。

数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。

雅虎实验室的科学家们长期浸淫于面向顾客产品的大规模机器学习问题研究。这使得我们在诸如搜索排名、计算广告、信息检索以及核机器学习等领域进行深入思考。对外部研究团体来说,外部研究团体的兴趣一个关键方面是新算法和方法的应用,对产品买卖和从真实产品收集的大规模数据集。

今天,我们骄傲地宣布向研究团体公开发布史上最大机器学习数据集。该数据集存有海量信息,记录了2015年2月至5月间2千万用户约1100 亿个事件(13.5TB 未压缩)的新闻项目交互数据。

「雅虎新闻种子数据集」是一个基于若干雅虎产品匿名用户交互新闻种子样本,包括雅虎主页、雅虎新闻、雅虎体育、雅虎财经、雅虎电影和雅虎房产。

雅虎主页上的新闻种子

我们的目标是促进大规模机器学习和推荐系统领域的独立研究,为业界和学术研究领域提供帮助平台。数据集作为雅虎 Labs Webscope 数据共享计划的组成部分,该计划是由非商用匿名用户数据组成的科学实用数据集的引用库。

除了交互数据,我们还提供匿名用户的分类人口统计信息(年龄段、性别和泛地理数据)子集。在项目方面,我们发布标题、评论和相关新闻文章的关键词组。交互数据标记当地时间信息,并且包含用户访问新闻种子设备的部分信息,新闻种子容许上下文推荐和文本数据挖掘等吸睛业务。

雅虎实验室的个性化科学团队在全维度雅虎新闻种子数据集有许多有趣的作为,这点化了在行为模型、推荐系统、大尺度和分布式机器学习、排名、在线算法、内容建模以及时序挖掘等领域的一些引人注目的思想(例如《鸟类、应用程序和用户:可变尺度因式分解机和科学驱动产品和个性化:超越点击》)。

我们希望发布这个数据能启迪研究者、数据科学家以及机器学习界的发烧友,并用扩展的“真实世界”数据集帮助他们验证模型。我们坚信该数据集能成为大尺度机器学习和推荐系统的标杆,期盼来自我们数据应用团体的佳音。

(来源:CSDN大数据)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190211B0PAVJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com