首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

入坑AI却不知道该读什么?这15篇最新论文给你答案

这是 PaperDaily 的第69篇文章

An Anchor-Free Region Proposal Network for Faster R-CNN based Text Detection Approaches

@FrederickLI 推荐

#Object Detection

本文来自微软亚洲研究院。对于尺度变化比较大的数据集来说,Faster RCNN 的 RPN 阶段 anchor 的设计就会比较复杂,同时 anchor 只能预测水平的检测框,而不能预测带旋转角度的检测框。

因此本文作者放弃了在 RPN 阶段使用 anchor,在 RPN 阶段直接使用一个点(同样也是用 3 x 3 的滑动窗在 conv4 特征图上滑动得到)回归出 bounding box 的四个角点坐标,backbone 是 FPN 版本的 RPN 网络,在 coco 和 icdar 上都取得了比 FPN 版 Faster RCNN 更好的效果。

论文链接

https://www.paperweekly.site/papers/1891

Phrase-Based & Neural Unsupervised Machine Translation

@Ttssxuan 推荐

#Neural Machine Translation

本文来自 Facebook AI Research,论文提出了 Phrase-based 和 Neural 两种方法。Phrase-based 处理两种语料关联少(如字母表不同),以及数据量少的情况;Neural 处理正常的情况。文章从三个角度分析设计模型:Initialization、Language Modeling、Iterative Back-Translation。

本文模型在 WMT14 English-French 和 WMT16 German-English 分别取得 27.1 和 23.6 (BLEU score),相对以前的结果 (Unsupervised Neural Machine Translation, Unsupervised Machine Translation Using Monolingual Corpora Only) 提升了 11 分 (BLUE score)。

论文链接

https://www.paperweekly.site/papers/1863

QANet - Combining Local Convolution with Global Self-Attention for Reading Comprehension

@IndexFziQ 推荐

#Machine Reading Comprehension

本文是 CMU 和 Google Brain 发表于 ICLR 2018 的工作,SQuAD 目前并列第一,本文贡献如下:

1. 借鉴了 Attention is All You Need 里的想法,完全用 attention 加前馈来代替原先的结构,减少了计算量,加快了运算速度;

2. 用了机器翻译预处理阅读理解的语料,增加了文本多样性,提高了实验效果。

论文链接

https://www.paperweekly.site/papers/1901

Pelee: A Real-Time Object Detection System on Mobile Devices

@paperweekly 推荐

#Object Detection

本文将作者自身提出的结构 PeleeNet 与 Single Shot MultiBox Detector(SSD)相结合提出了一个实时目标检测系统,并对其进行了速度优化。

这个名为 Pelee 的检测系统在 PASCAL VOC2007 和 MS COCO 数据集上分别达到了 76.4% mAP 和 22.4 mAP,速度分别为 17.1 FPS(iPhone 6s)和 23.6 FPS(iPhone 8)。

论文链接

https://www.paperweekly.site/papers/1886

代码链接

https://github.com/Robert-JunWang/Pelee

Pix3D: Dataset and Methods for Single-Image 3D Shape Modeling

@paperweekly 推荐

#3D Reconstruction

本文是 MIT CSAIL 实验室发表于 CVPR 2018 的工作,论文研究的问题是单图像三维重建。作者构建了一个名为 Pix3D 的大规模图像数据集,并且通过行为研究来校准三维重建的评估标准,使用它们客观系统地对 Pix3D 上的各种重建算法进行基准测试。此外,本文还设计了一个能同时进行三维重建和姿态估计的新模型

论文链接

https://www.paperweekly.site/papers/1854

代码链接

https://github.com/xingyuansun/pix3d

Learned Deformation Stability in Convolutional Neural Networks

@chlr1995 推荐

#Convolutional Neural Network

传统观点认为,CNN 中的池化层导致了对微小平移和变形的稳定性。DeepMind 的研究者提出了一个反直觉的结果:CNN 的变形稳定性仅在初始化时和池化相关,在训练完成后则无关;并指出,滤波器的平滑度才是决定变形稳定性的关键因素。

本文展示了没有池化的网络在初始化时对变形敏感,但经过训练学习表征的过程之后对变形是稳定的;

池化和非池化训练网络的层间变形稳定性模式最终会收敛到相似的结构;

无论池化还是非池化网络,都可通过滤波器的平滑性实现和调节变形稳定性。

论文链接

https://www.paperweekly.site/papers/1895

Effective Neural Solution for Multi-Criteria Word Segmentation

@IndexFziQ 推荐

#Chinese Word Segmentation

本文提出了一种简洁优雅的多标准中文分词方案,可联合多个不同标准的语料库训练单个模型,同时输出多标准的分词结果。论文加了工程思想,用标签标识不同标准的数据集,这样就可以识别出自哪个标准的数据集。

通过不同语料库之间的迁移学习提升模型的性能,在 10 个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享,复杂度不随语料库种类增长。

论文链接

https://www.paperweekly.site/papers/1903

代码链接

https://github.com/hankcs/multi-criteria-cws

End-to-End Dense Video Captioning with Masked Transformer

@Aidon 推荐

#Video Captioning

之前针对 dense video captioning 的文章都是构建两个模型:event proposal + captioning model,分别训练或者交替训练。本文提出一个 end-to-end 的模型,在 encoder 部分利用 self-attention,decoder 部分包括基于 ProcNets 进行改进的 Proposal Decoder 和 Captioning Decoder。

文章的亮点在于将 Attention is all you need 中的 self-attention 和 multi-head attention 用到 captioning 任务中,并且采用相似的策略设计了 differential proposal mask 模块,使得 captioning decoder 可以只注意到当前要描述的 event,以及模型可以做 end-to-end 训练。

论文链接

https://www.paperweekly.site/papers/1858

Universal Sentence Encoder

@mev 推荐

#Sentence Embedding

本文来自 Google,论文将之前的"Attention Is All You Need"的 transformer 应用到 sentence embedding 上,和 DAN (Deep Averaging Network) 在计算复杂度和功耗上做了比较。

并且在此基础上研究了两种方式在不同数据量的 transfer learning 上的表现,试验结果表明 transformer 在数据量较少的迁移学习上表现的比较好。文章还对比了不同的 transfer 的方式(sentence embedding 和 word embedding 的迁移)。

论文链接

https://www.paperweekly.site/papers/1857

代码链接

https://tfhub.dev/google/universal-sentence-encoder/1

Deep Cross-media Knowledge Transfer

@trainsporting 推荐

#Transfer Learning

本文是北京大学发表于 CVPR 2018 的工作,论文提出了一个新的 baseline:跨媒体数据集的知识迁移, progressive learning 机制(有点类似 distant transfer learning 中的 side information)也值得借鉴, 整个结构复杂牵扯多方面知识,具有很多改进空间。

论文链接

https://www.paperweekly.site/papers/1889

Attention on Attention: Architectures for Visual Question Answering (VQA)

@shanone 推荐

#Visual Question Answering

本文来自斯坦福大学。深度学习自从大火之后,整个领域一片繁华盛景,却唯独自然语言处理依旧暗淡无光。所谓的连接式自主调参基础上的深度学习,面对人类智慧结晶——语言,显得苍白无力。

不管是 CNN 还是 RNN,都只能在语义语境面前折腰。我们还需要不断尝试不断思考,才有可能有一丝突破,作者也算是积极的提出了自己的想法,供大家借鉴思考。

论文链接

https://www.paperweekly.site/papers/1862

代码链接

https://github.com/SinghJasdeep/Attention-on-Attention-for-VQA

TieNet: Text-Image Embedding Network for Common Thorax Disease Classification and Reporting in Chest X-rays

@paperweekly 推荐

#Text-Image Embedding Network

本文入选 CVPR 2018 Spotlight 论文。目前已知的一个大问题是如何获取图像标注,尤其大规模医学图像的标注是个公认难题,作者团队在 CVPR 2017 上提出用 NLP 技术根据医生的文字诊断报告来获取 labels,但这样做的问题在于获取 label 并没有结合图像来验证。

本文是对上述工作的延续,文章提出了一个新的网络结构:

1. 能够在同时输入 chest x-ray 图像 + 文本 report 时,产生更准确疾病 labels;跟 CVPR 2017 文章比,取得了显著的定量效果提升。这意味着可以把医院里的 unstructured information 转化成可以用来训练机器的 structured labels;

2. 网络结构在只有图像输入的时候 也可以产生疾病诊断文字报告。

论文链接

https://www.paperweekly.site/papers/1861

Improving the Improved Training of Wasserstein GANs: A Consistency Term and Its Dual Effect

@ladadidadi 推荐

#GAN

本文是中佛罗里达大学和腾讯 AI Lab 发表于 ICLR 2018 的工作,论文将 WGAN 的 weight clipping 修改为 gradient penalty

论文链接

https://www.paperweekly.site/papers/1894

代码链接

https://github.com/Randl/improved-improved-wgan-pytorch

ShuffleSeg: Real-time Semantic Segmentation Network

@qingfengcai 推荐

#Semantic Segmentation

本文是开罗大学和阿尔伯塔大学发表于 CVPR 2018 的工作,当前图像语义分割性能最好的模型,精度同 ENet 相当,flops 只有其一半左右。

论文链接

https://www.paperweekly.site/papers/1884

代码链接

https://github.com/MSiam/TFSegmentation

Accelerating Neural Architecture Search using Performance Prediction

@velconia 推荐

#Neural Network Architecture

本文来自 MIT 和哈佛,论文针对 NN 的 AutoML 中遇到的 Early Stopping 问题,提出了一种新方法:用线性模型预测模型的最终训练结果。AutoML中,Hyperparameters 的搜索过程是一个 CPU Super Expensive 的过程,这个方法能够降低大约 50% 的搜索时间。

这是一个新思路,并且我对这个方法做了一些实验(主要在 CNN 上),效果确实还不错,说明这是可行的,我认为在不论是手工调优还是自动调优,这个方法都是以后的训练框架可以借鉴的。

论文链接

https://www.paperweekly.site/papers/1897

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180507G0QA7C00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
http://www.vxiaotou.com