『GitHub项目圈选12』推荐5款本周深受追捧的AI开源项目

Python兴趣圈

发布于 2024-01-21 14:45:14

1.3K0

发布于 2024-01-21 14:45:14

文章被收录于专栏：翩翩白衣少年翩翩白衣少年

1、GPT-SoVits

GPT-SoVits 是一款强大的支持少量语音转换、文本到语音的音色克隆模型。支持中文、英文、日文的语音推理。

该项目是RVC-Boss 同Rcell （AI音色转换技术Sovits开发者）共同研究，历时半年开发出来的一款全新的低成本的易用的音色克隆工具。

据开发者及各大博主测验，仅需提供 5 秒语音样本即可体验达到 80%~95% 像的声音克隆。若提供 1 分钟语音样本可以逼近真人的效果，且训练出高质量的 TTS 模型！

Star：2.7k

项目地址：https://github.com/RVC-Boss/GPT-SoVITS

特征：

? 零样本 TTS：输入 5 秒语音样本并体验即时文本到语音转换。
? Few-shot TTS：仅用 1 分钟的训练数据即可微调模型，以提高语音相似度和真实感。
? 跨语言支持：用与训练数据集不同的语言进行推理，目前支持英语、日语和中文。
? WebUI工具：集成工具包括语音伴奏分离、自动训练集分割、中文ASR和文本标注，帮助初学者创建训练数据集和GPT/SoVITS模型。

小编本周也编写过该工具详细介绍及使用的文章，如想更深入了解，可以点击下面链接阅读文章：

GPT-SoVits：刚上线两天就获得了1.4k star的开源声音克隆项目！效果炸裂的跨语言音色克隆模型！

2、Umi-OCR

Umi-OCR 是一款基于百度自研的 PaddleOCR框架 开源的 OCR 项目源、免费的离线OCR软件。

Star：17.2k

项目地址：https://github.com/hiroi-sora/Umi-OCR

狂揽16.9k star！Umi-OCR文字识别太火了，解决了多少人的痛点！

该工具开源至今，一直再对功能进行更新支持，截屏/粘贴/批量导入图片、段落排版/去除水印、扫描/生成二维码等功能都已支持，不可畏不强大！

最重要的是免费、离线！

功能特点：

? 免费：所有代码开源，完全免费。
? 方便：解压即用，离线运行，无需网络。
? 高效：自带高效率离线OCR引擎。只要电脑性能足够，可以比在线OCR服务更快。
? 灵活：支持命令行、HTTP接口等多种调用方式。
? 功能：截图OCR / 批量OCR / 二维码 / 数学公式识别

该工具很有很多优化的功能，还有体验上的优化，比如：兼容windows7系统、支持多国语言切换、字体/背景更换、系统托盘/快捷键等等诸多优化。

3、AI Gateway

AI Gateway 是一个AI领域的开源工具，是应用程序和托管 LLM 之间的接口，通过统一简单的 API，让用户轻松快速接入 100 多种大语言模型，如 OpenAI、Anthropic、Mistral、LLama2、Google Gemini 等。

Star：2.9k

项目地址：https://github.com/Portkey-AI/gateway

这款 AI 网关项目简直太棒了，轻松接入OpenAI、LLama2、Google Gem)ini等 100 多种大语言模型！

特色功能：

? ? 速度极快（快 9.9 倍），占用空间极小（已安装约 45kb）
? ? 跨多个模型、提供程序和密钥的负载平衡
? ? 回退确保您的应用程序保持弹性
? ? 默认情况下具有指数回退的自动重试
? ? 插件中间件根据需要
? ? 经过超过100B 代币的战斗测试

特征：

? 统一API签名
? 倒退
? 自动重试
? 负载均衡

AI Gateway 适用于各种人工智能应用场景，包括自然语言处理、文本生成、语音识别等。无论是个人开发者还是企业级应用，都可以受益于该工具的便捷性和稳定性。

4、DDColor

DDColor 是一个由 阿里达摩院 研究的基于深度学习技术的 图像上色模型，它能够自动将黑白或灰度图像着色，使图像更加生动逼真。

该模型采用了先进的神经网络架构和训练技术，能够识别图像中的物体和场景，并为其添加逼真的颜色。

Star：402

项目地址：https://github.com/piddnad/DDColor

DDColor：AI图像着色工具，优秀的黑白图像上色模型，支持双解码器！

DDColor 模型 采用双解码器技术，DDColor能够同时考虑色彩分布和像素级详细信息，能实现高度真实的图像上色效果。

其高质量的着色效果和快速的处理速度使其在多个领域都具有广泛的应用前景，为图像处理领域带来了新的可能性。

5、PhotoMaker

PhotoMaker 是腾讯Arc实验室同南开大学合作研发的一款通过 堆叠 ID技术嵌入 定制出逼真的人体照片的开源工具。

Star：5.6k

项目地址：https://github.com/TencentARC/PhotoMaker

一个可以创建任何风格的任何人的照片/绘画/头像的生成器。

能根据描述生成符合描述的人物照片。也能把几个不同人的照片特征混合在一起，创造出一个全新的人物形象。

还能改变照片人物的性别、年龄和生成多种风格的其他照片。快速逼真，效果自然。更加无需训练LoRA即可保持角色一致性。

本文参与?腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2024-01-20，如有侵权请联系?cloudcommunity@tencent.com 删除

语音

本文分享自 Python兴趣圈微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与?腾讯云自媒体分享计划? ，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

『GitHub项目圈选12』推荐5款本周深受追捧的AI开源项目