还记得阿里5.2kStar给Sora配音的EMO音视频项目吗?开源了,但是没完全开源,因为只开源了PPT,和readme,再看看咱们腾讯这才叫真开源
AniPortrait是腾讯公司推出的一个开源项目,它是一个基于深度学习的动漫风格肖像生成模型。这个项目的目标是利用人工智能技术,将真实人物的肖像照片转换成具有动漫风格的图像。AniPortrait通过深度神经网络学习大量的动漫图像和真实肖像照片之间的映射关系,从而实现风格转换。
GIT地址
https://github.com/Zejun-Yang/AniPortrait
所有砝码都应放在指示下方。您可以按如下方式手动下载砝码:./pretrained_weights
denoising_unet.pthreference_unet.pthpose_guider.pthmotion_module.pthaudio2mesh.pt
- [稳定扩散 V1.5](https://huggingface.co/runwayml/stable-diffusion-v1-5)
- [SD-VAE-FT-MSE 标准](https://huggingface.co/stabilityai/sd-vae-ft-mse)
- [image\_encoder](https://huggingface.co/lambdalabs/sd-image-variations-diffusers/tree/main/image_encoder)
- [wav2vec2-base-960H](https://huggingface.co/facebook/wav2vec2-base-960h)最后,这些权重应按如下方式组织:./pretrained_weights/
|-- image_encoder
| |-- config.json
| `-- pytorch_model.bin
|-- sd-vae-ft-mse
| |-- config.json
| |-- diffusion_pytorch_model.bin
| `-- diffusion_pytorch_model.safetensors
|-- stable-diffusion-v1-5
| |-- feature_extractor
| | `-- preprocessor_config.json
| |-- model_index.json
| |-- unet
| | |-- config.json
| | `-- diffusion_pytorch_model.bin
| `-- v1-inference.yaml
|-- wav2vec2-base-960h
| |-- config.json
| |-- feature_extractor_config.json
| |-- preprocessor_config.json
| |-- pytorch_model.bin
| |-- README.md
| |-- special_tokens_map.json
| |-- tokenizer_config.json
| `-- vocab.json
|-- audio2mesh.pt
|-- denoising_unet.pth
|-- motion_module.pth
|-- pose_guider.pth
`-- reference_unet.pth
注意:如果您已经安装了一些预训练模型,例如 ,您可以在配置文件中指定它们的路径(例如 )。StableDiffusion V1.5./config/prompts/animation.yaml
以下是用于运行推理脚本的 cli 命令:
请注意,您可以在命令中将 -L 设置为所需的生成帧数,例如 -L 300。
python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512
您可以参考 animation.yaml 的格式来添加自己的参考图像或姿势视频。要将原始视频转换为姿势视频(关键点序列),您可以使用以下命令运行:
python -m scripts.vid2pose --video_path pose_video_path.mp4
python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512
在 animation_facereenac.yaml 中添加源人脸视频和参考图像。
python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512
在 animation_audio.yaml 中添加音频和参考图片。
您可以使用此命令生成用于头部姿势控制的 pose_temp.npy:
python -m scripts.generate_ref_pose --ref_video ./configs/inference/head_pose_temp/pose_ref_video.mp4 --save_path ./configs/inference/head_pose_temp/pose.npy
从原始视频中提取关键点并编写训练 json 文件(以下是处理 VFHQ 的示例):
python -m scripts.preprocess_dataset --input_dir VFHQ_PATH --output_dir SAVE_PATH --training_json JSON_PATH
更新训练配置文件中的行:
data:
json_path: JSON_PATH
运行命令:
accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml
将预训练的运动模块权重(下载链接)放在 下。mm_sd_v15_v2.ckpt./pretrained_weights
在配置文件中指定 stage1 训练权重,例如:stage2.yaml
stage1_ckpt_dir: './exp_output/stage1'
stage1_ckpt_step: 30000
运行命令:
accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。