当前位置：主页 > 查看内容

如何用PyTorch进行语义分割？一文搞定

发布时间：2021-09-25 00:00| 有位朋友查看

简介：很久没给大家带来教程资源啦。正值PyTorch 1.7更新，那么我们这次便给大家带来一个PyTorch简单实用的教程资源：用PyTorch进行语义分割。图源：stanford 该教程是基于2020年ECCV Vipriors Chalange Start Code实现了语义分割，并且添加了一些技巧。友情提……

很久没给大家带来教程资源啦。

正值PyTorch 1.7更新，那么我们这次便给大家带来一个PyTorch简单实用的教程资源：用PyTorch进行语义分割。

图源：stanford

该教程是基于2020年ECCV Vipriors Chalange Start Code实现了语义分割，并且添加了一些技巧。

友情提示：教程中的所有文件均可以在文末的开源地址获取。

预设置

在开始训练之前，得首先设置一下库、数据集等。

库准备

pip install -r requirements.txt

下载数据集

教程使用的是来自Cityscapes的数据集MiniCity Dataset。

数据集的简单数据分析

将各基准类别进行输入：

之后，便从0-18计数，对各类别进行像素标记：

使用deeplab v3进行基线测试，结果发现次要类别的IoU特别低，这样会导致难以跟背景进行区分。

如下图中所示的墙、栅栏、公共汽车、火车等。

分析结论：数据集存在严重的类别不平衡问题。

训练基准模型

使用来自torchvision的DeepLabV3进行训练。

硬件为4个RTX 2080 Ti GPU (11GB x 4)，如果只有1个GPU或较小的GPU内存，请使用较小的批处理大小（< = 8）。

python baseline.py --save_path baseline_run_deeplabv3_resnet50 --crop_size 576 1152 --batch_size 8;  
python baseline.py --save_path baseline_run_deeplabv3_resnet101 --model DeepLabv3_resnet101 --train_size 512 1024 --test_size 512 1024 --crop_size 384 768 --batch_size 8;

损失函数

有3种损失函数可供选择，分别是：交叉熵损失函数（Cross-Entropy Loss）、类别加权交叉熵损失函数（Class-Weighted Cross Entropy Loss）和焦点损失函数（Focal Loss）。

交叉熵损失函数，常用在大多数语义分割场景，但它有一个明显的缺点，那就是对于只用分割前景和背景的时候，当前景像素的数量远远小于背景像素的数量时，模型严重偏向背景，导致效果不好。

# Cross Entropy Loss  
python baseline.py --save_path baseline_run_deeplabv3_resnet50 --crop_size 576 1152 --batch_size 8;

类别加权交叉熵损失函数是在交叉熵损失函数的基础上为每一个类别添加了一个权重参数，使其在样本数量不均衡的情况下可以获得更好的效果。

# Weighted Cross Entropy Loss  
python baseline.py --save_path baseline_run_deeplabv3_resnet50_wce --crop_size 576 1152 --batch_size 8 --loss weighted_ce;

焦点损失函数则更进一步，用来解决难易样本数量不平衡。

# Focal Loss  
python baseline.py --save_path baseline_run_deeplabv3_resnet50_focal --crop_size 576 1152 --batch_size 8 --loss focal --focal_gamma 2.0;

归一化层

有4种归一化方法：BN（Batch Normalization）、IN（Instance Normalization）、GN（Group Normalization）和EvoNorm（Evolving Normalization）。

BN是在batch上，对N、H、W做归一化，而保留通道 C 的维度。BN对较小的batch size效果不好。

# Batch Normalization  
python baseline.py --save_path baseline_run_deeplabv3_resnet50 --crop_size 576 1152 --batch_size 8;

IN在图像像素上，对H、W做归一化，用在风格化迁移。

# Instance Normalization  
python baseline.py --save_path baseline_run_deeplabv3_resnet50_instancenorm --crop_size 576 1152 --batch_size 8 --norm instance;

GN将通道分组，然后再做归一化。

# Group Normalization  
python baseline.py --save_path baseline_run_deeplabv3_resnet50_groupnorm --crop_size 576 1152 --batch_size 8 --norm group;

EvoNorm则是4月份由谷歌和DeepMind 联合发布的一项新技术。实验证明，EvoNorms 在多个图像分类模型上效果显著，而且还能很好地迁移到 Mask R-CNN 模型和 BigGAN。

# Evolving Normalization  
python baseline.py --save_path baseline_run_deeplabv3_resnet50_evonorm --crop_size 576 1152 --batch_size 8 --norm evo;

数据增强

2种数据增强技术：CutMix、Copy Blob。

CutMix

将一部分区域cut掉但不填充0像素，而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配。

而在这里，则是在原有CutMix的基础上，引入了语义分割。

# CutMix Augmentation  
python baseline.py --save_path baseline_run_deeplabv3_resnet50_cutmix --crop_size 576 1152 --batch_size 8 --cutmix;

Copy Blob

在 Blob 存储的基础上构建，并通过Copy的方式增强了性能。

另外，如果要解决前面所提到的类别不平衡问题，则可以使用视觉归纳优先的CopyBlob进行增强。

# CopyBlob Augmentation  
python baseline.py --save_path baseline_run_deeplabv3_resnet50_copyblob --crop_size 576 1152 --batch_size 8 --copyblob;

推理

训练结束后，对训练完成的模型进行评估。

python baseline.py --save_path baseline_run_deeplabv3_resnet50 --batch_size 4 --predict;

多尺度推断

使用[0.5，0.75，1.0，1.25，1.5，1.75，2.0，2.2]进行多尺度推理。另外，使用H-Flip，同时必须使用单一批次。

# Multi-Scale Inference  
python baseline.py --save_path baseline_run_deeplabv3_resnet50 --batch_size 1 --predict --mst;

使用验证集计算度量

计算指标并将结果保存到results.txt中。

python evaluate.py --results baseline_run_deeplabv3_resnet50/results_val --batch_size 1 --predict --mst;

最终结果

最后的单一模型结果是0.6069831962012341，

如果使用了更大的模型或者更大的网络结构，性能可能会有所提高。

另外，如果使用了各种集成模型，性能也会有所提高。

【责任编辑：庞桂玉 TEL：（010）68476606】
本文转载自网络，原文链接：https://mp.weixin.qq.com/s/lj5-lC2jRJ23Fwmn5DSg_w
本站部分内容转载于网络，版权归原作者所有，转载之目的在于传播更多优秀技术内容，如有侵权请联系QQ/微信：153890879删除，谢谢！

上一篇：通过构建一个简单的掷骰子游戏去学习怎么用Python编程 下一篇：没有了

随机推荐

如何检查终端节点服务所在后端弹性云服务

确认弹性云服务器使用的网卡安全组是否正确。在弹性云服务器详情页面查看网卡使...
央行发布金融数据安全规范，阿里云参与编

近日，阿里云参与编写的《JR/T 0223-2021 金融数据安全数据安全生命周期规范》...
MOSN 子项目 Layotto：开启服务网格+应用

作者 | 马振军来源 | 金融级分布式架构公众号作者简介：马振军，花名古今，在...
最好用的香港虚拟主机

最好用的香港虚拟主机是哪种？ TOP云提供的香港虚拟主机特别适合外贸公司及...
买了个域名怎么备案

买了个域名怎么备案？如果域名要使用境内的空间服务器搭建网站的话，是需要...
注册域名怎么开通邮箱

注册域名怎么开通邮箱？开通邮箱，需要先注册域名。开通企业邮箱，不仅能...
2020年，四步突破数据科学

这没什么问题，但你很可能列出一张事无巨细、耗时费力、近乎难以实现的目标清单...
升降配方式概述 - 云服务器 ECS

创建实例后，如果当前实例配置无法满足您的业务需求，您可以修改实例规格（vCPU...
投入1.5亿元上云津贴，华为云专属月加速

CNNIC发布的第45次《中国互联网络发展状况统计报告》显示,截至2020年3月,我国网...
最有价值的数据策略培训指南：你从未听说

本文转载自公众号读芯术(ID：AI_Discovery)。八年前，数据科学被誉为21世纪最性...

如何用PyTorch进行语义分割？一文搞定

推荐图文

容器服务集群扩缩容 - 用户指南

NVIDIA GPU Operator分析一：NVIDIA驱动安装

Java高级特性-注解：注解实现Excel导出功能

是怎么不实名购买一个域名的

如何购买云服务器

嫌浏览器标签太多？这个出色的插件是我的最爱

随机推荐

如何检查终端节点服务所在后端弹性云服务

央行发布金融数据安全规范，阿里云参与编

MOSN 子项目 Layotto：开启服务网格+应用

最好用的香港虚拟主机

买了个域名怎么备案

注册域名怎么开通邮箱

2020年，四步突破数据科学

升降配方式概述 - 云服务器 ECS

投入1.5亿元上云津贴，华为云专属月加速

最有价值的数据策略培训指南：你从未听说

关于我们