登峰造极，师出造化，Pytorch人工智能AI图像增强框架ControlNet绘画实践，基于Python3.10

文章来源：企鹅号 - 刘悦的技术博客

人工智能太疯狂，传统劳动力和内容创作平台被AI枪毙，弃尸尘埃。并非空穴来风，也不是危言耸听，人工智能AI图像增强框架ControlNet正在疯狂地改写绘画艺术的发展进程，你问我绘画行业未来的样子？我只好指着ControlNet的方向。本次我们在M1/M2芯片的Mac系统下，体验人工智能登峰造极的绘画艺术。

本地安装和配置ControlNet

ControlNet在HuggingFace训练平台上也有体验版，请参见： https://huggingface.co/spaces/hysts/ControlNet，但由于公共平台算力有限，同时输入参数也受到平台的限制，一次只能训练一张图片，不能让人开怀畅饮。

为了能和史上最伟大的图像增强框架ControlNet一亲芳泽，我们选择本地搭建ControlNet环境，首先运行Git命令拉取官方的线上代码：

拉取成功后，进入项目目录：

由于Github对文件大小有限制，所以ControlNet的训练模型只能单独下载，模型都放在HuggingFace平台上：https://huggingface.co/lllyasviel/ControlNet/tree/main/models，需要注意的是，每个模型的体积都非常巨大，达到了5.71G，令人乍舌。

下载好模型后，需要将其放到ControlNet的models目录中：

这里笔者下载了control_sd15_canny.pth模型，即放入models目录中，其他模型也是一样。

随后安装运行环境，官方推荐使用conda虚拟环境，安装好conda后，运行命令激活虚拟环境即可：

但笔者查看了官方的environment.yaml配置文件：

一望而知，Python版本是老旧的3.8，Torch版本1.12并不支持Mac独有的Mps训练模式。

同时，Conda环境也有一些缺点：

环境隔离可能会导致一些问题。虽然虚拟环境允许您管理软件包的版本和依赖关系，但有时也可能导致环境冲突和奇怪的错误。

Conda环境可以占用大量磁盘空间。每个环境都需要独立的软件包副本和依赖项。如果需要创建多个环境，这可能会导致磁盘空间不足的问题。

软件包可用性和兼容性也可能是一个问题。Conda环境可能不包含某些软件包或库，或者可能不支持特定操作系统或硬件架构。

在某些情况下，Conda环境的创建和管理可能会变得复杂和耗时。如果需要管理多个环境，并且需要在这些环境之间频繁切换，这可能会变得困难。

所以我们也可以用最新版的Python3.10来构建ControlNet训练环境，编写requirements.txt文件：

随后，运行命令：

至此，基于Python3.10来构建ControlNet训练环境就完成了，关于Python3.10的安装，请移玉步至：一网成擒全端涵盖，在不同架构(Intel x86/Apple m1 silicon)不同开发平台(Win10/Win11/Mac/Ubuntu)上安装配置Python3.10开发环境[1]，这里不再赘述。

修改训练模式(Cuda/Cpu/Mps)

ControlNet的代码中将训练模式写死为Cuda，CUDA是NVIDIA开发的一个并行计算平台和编程模型，因此不支持NVIDIA GPU的系统将无法运行CUDA训练模式。

除此之外，其他不支持CUDA训练模式的系统可能包括：

没有安装NVIDIA GPU驱动程序的系统

没有安装CUDA工具包的系统

使用的NVIDIA GPU不支持CUDA（较旧的GPU型号可能不支持CUDA）

没有足够的GPU显存来运行CUDA训练模式（尤其是在训练大型深度神经网络时需要大量显存）

需要注意的是，即使系统支持CUDA，也需要确保所使用的机器学习框架支持CUDA，否则无法使用CUDA进行训练。

我们可以修改代码将训练模式改为Mac支持的Mps，请参见：闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10)[2]，这里不再赘述。

如果代码运行过程中，报下面的错误：

说明当前系统不支持cuda模型，需要修改几个地方，以项目中的gradio_canny2image.py为例子，需要将gradio_canny2image.py文件中的cuda替换为cpu，同时修改/ControlNet/ldm/modules/encoders/modules.py文件，将cuda替换为cpu，修改/ControlNet/cldm/ddim_hacked.py文件，将cuda替换为cpu。至此，训练模式就改成cpu了。

开始训练

修改完代码后，直接在终端运行gradio_canny2image.py文件：

程序返回：

此时，在本地系统的7860端口上会运行ControlNet的Web客户端服务。

访问 http://localhost:7860，就可以直接上传图片进行训练了。

这里以本站的Logo图片为例子：

通过输入引导词和其他训练参数，就可以对现有图片进行扩散模型的增强处理，这里的引导词的意思是：红宝石、黄金、油画。训练结果可谓是言有尽而意无穷了。

除了主引导词，系统默认会添加一些辅助引导词，比如要求图像品质的best quality, extremely detailed等等，完整代码：

其他的模型，比如gradio_hed2image.py，它可以保留输入图像中的许多细节，适合图像的重新着色和样式化的场景：

还记得AnimeGANv2模型吗：神工鬼斧惟肖惟妙，M1 mac系统深度学习框架Pytorch的二次元动漫动画风格迁移滤镜AnimeGANv2+Ffmpeg(图片+视频)快速实践[3]，之前还只能通过统一模型滤镜进行转化，现在只要修改引导词，我们就可以肆意地变化出不同的滤镜，人工智能技术的发展，就像发情的海，汹涌澎湃。

结语

“人类嘛时候会被人工智能替代呀？”

“就是现在！就在今天！”

就算是达芬奇还魂，齐白石再生，他们也会被现今的人工智能AI技术所震撼，纵横恣肆的笔墨，抑扬变化的形态，左右跌宕的心气，焕然飞动的神采！历史长河中这一刻，大千世界里这一处，让我们变得疯狂！

最后奉上修改后的基于Python3.10的Cpu训练版本的ControlNet，与众亲同飨：https://github.com/zcxey2911/ControlNet\_py3.10\_cpu\_NoConda

引用链接

一网成擒全端涵盖，在不同架构(Intel x86/Apple m1 silicon)不同开发平台(Win10/Win11/Mac/Ubuntu)上安装配置Python3.10开发环境:https://v3u.cn/a_id_200

闻其声而知雅意,M1 Mac基于PyTorch(mps/cpu/cuda)的人工智能AI本地语音识别库Whisper(Python3.10):https://v3u.cn/a_id_272

神工鬼斧惟肖惟妙，M1 mac系统深度学习框架Pytorch的二次元动漫动画风格迁移滤镜AnimeGANv2+Ffmpeg(图片+视频)快速实践:https://v3u.cn/a_id_201

发表于: 2023-02-272023-02-27 08:00:00
原文链接：https://kuaibao.qq.com/s/20230227A00UNO00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

登峰造极，师出造化，Pytorch人工智能AI图像增强框架ControlNet绘画实践，基于Python3.10

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐