首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第二届AI challenge正式开赛,搜狗、美图、美团点评开放数据集

今日,由创新工场、搜狗、美团点评和美图四家国内人工智能企业共同发起“AI challenger全球AI挑战赛”正式开赛,大赛前后将持续四个月,获胜团队将分享300余万元奖金,观点型问题阅读理解、细粒度用户评论情感分析等竞赛数据集今日也同步上线。

据了解,“AI Challenger全球AI挑战赛”由创新工场、搜狗、美团点评、美图联合主办,面向人工智能领域人才,带来十余个的数据集及竞赛,今年的大赛主题是“用AI挑战真实世界的问题”。

创新工场李开复:人工智能的进步都是比赛比出来的

数据有多重要?创新工场董事长兼CEO李开复开场就爆料,自己准备博士论文时,当时4000G的数据,存储就需要花费10万美元,而当时世界巨头都宣称自己的AI能力是最强的,却没有一个共同的开放数据平台能予以验证。李开复称,“今天人工智能的结果都是比赛出来的,AI challenge大赛也一定要公开、可复制。本次的比赛,更关注‘顶尖的人才、足够的数据、能落地的成果’三大要素。”

比赛的主办方之一,搜狗的CEO王小川也表示,目前从输入到搜索都是通过语言,因而搜狗积累了大量的语言数据。在今年的大赛上,搜狗新添加了问答语料,并强化了翻译数据,提供了1300万对翻译数据和300万对带有上下文场景的语料。

美团点评CTO罗道锋认为,AI已经进入到了一个实用的阶段,但还处于开花的早期,处于弱人工智能阶段,需要有长期的耐心。美团点评具有大量评论数据,并具有大规模的AI实时调度系统,几万名外卖员在约半小时,每人能送达最多10单外卖。因而,美团点评为本次的AI challenge的细密度情感分析赛道提供支撑,提供15万条细密度情感数据,包括1.2亿张图片和10万张标注的图片;以及和Berkeley合作,提供无人驾驶数据。

美图公司创始人兼CEO吴欣鸿也表示,美团在拍摄过程中,常常需要理解使用者使用摄像头拍摄外部世界时的意图,基于这一优势,美图为大赛提供了大量短视频实时分类数据。该数据集共包含20万条短视频,涵盖舞蹈、健身、唱歌等63类流行元素;并采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息几乎包含视频中展现的所有元素。

AI challenge大赛五大主赛道,关注NLP领域

四家主办公司的大佬,在对AI challenge进行介绍后,也引出了本次大赛的五大主赛道:观点型问题阅读理解竞赛、细粒度用户评论情感分析竞赛、英中文本机器翻译竞赛、短视频实时分类竞赛、无人驾驶视觉感知竞赛。主赛道关注NLP (Natural Language Processing)领域,瞄准人工智能还需要突破的领域。

观点型问题阅读理解竞赛。机器阅读理解是让机器读懂人类语言、和人类更好交流互动的重要领域。该技术可广泛应用于智能搜索、智能问答、智能客服、智能音箱、语音控制等场景,用AI实现基于文字、语音的人机智能互动,数据集包含30万问题、篇章与候选答案。

细粒度用户评论情感分析竞赛。在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有重要价值,在互联网行业可以用于个性化推荐、智能搜索、产品反馈、业务安全等。数据集包含15万条餐饮用户评论、6大类20个细粒度要素标签。

英中文本机器翻译竞赛。机器翻译正越来越成为人们跨越语言障碍的重要工具,应用于各种领域。数据集在2017年数据集的基础上,总量达到1300万句对;且其中具有上下文情景的中英双语数据达到300万句对。

短视频实时分类竞赛。近几年发展极快的短视频行业具有明显的娱乐性和流行性,基于短视频机器分类的技术可用于视频内容分析、编辑与生产,监控、安防等领域。数据集包含20万条短视频、涵盖63类流行元素。

无人驾驶视觉感知竞赛。本次大赛的自动驾驶竞赛采用了UC Berkeley DeepDrive(BDD)2018年最新发布的BDD 100K数据集,包含原始图片1.2亿张、标注图片10万张,涵盖多样天气和昼夜光照条件。

本次AI challenge大赛除五大主赛道外,还包括天气预报竞赛、农作物病害检测竞赛、眼底水肿病变区域自动分割竞赛、商品实例分割迁移学习竞赛、零样本学习竞赛五大实验赛道。

AI进入产业化时期,AI Challenger对标李飞飞发起的ImageNet

对于今年比赛的主题“用AI挑战真实世界的问题”,李开复认为,今年的比赛更多关注产业,如果比赛中遇到好的、适于行产业落地的项目,创新工场也会积极关注具有投资价值的种子选手。去年有很多参赛者进入了BAT、美团、创新工场等互联网科技公司,有两位已在进行创业。

另外,AI Challenger理事会代表王咏刚也表示,今年更关注产业化,一方面由于,人工智能的商业化与产业化进入了一个关键时期,在大数据积累还不完善的领域,如零售、制造、物流、农业、医疗、教育等,严重依赖于相关场景的数字化程度。

如一个线下零售卖场,若没有大数据积累,没有摄像头等信息采集设备收集的商品信息、行为信息、场景信息等,就无法针对零售卖场的供应链和销售渠道进行优化、无法提供定制化的服务、与拥有大数据的电子商务网站或应用竞争。

此外,AI科研领域与产业界的实际问题距离较远,科研成果到产业界的实际解决方案之间,转化率较低。AI Challenger希望在数据集建设和竞赛设置上,针对性地突出产业界的需要,如无人驾驶中的车道线识别问题,短视频的实时分类问题,细粒度的用户情感分析问题等,都从产业实际需要出发。

另外,AI Challenger宣称已成为“目前国内规模最大的科研数据集平台、以及最大的非商业化竞赛平台”。李开复称,相对于BAT“大而杂”的数据,细分领域的数据更“小而精”。

李开复也将AI Challenger对标李飞飞发起的ImageNet竞赛,认为两者的相同点在于用公益的方法让更多人参与人工智能,区别在于AI Challenger的数据量和赛道比ImageNet更丰富。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180830A02ZSA00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com