马斯克开源Grok-1、一键丰胸、视频自动AI配音、动漫图像超分辨率……

文章来源：企鹅号 - 互联网的那点事

?Gatekeep：一个新型的文本转视频 AI，专注于教学

Viggle：通过文字描述让任何静态图动起来

The O-one ：一个创新的开源语言模型计算机

? Suno v3：可以生成2分钟的广播级音乐歌曲

Manga-image-Translator: 一键翻译各类图片内文字

APISR：专注于动漫图像的超分辨率

??Pipio：视频自动AI配音工具

一键丰胸...

马斯克宣布开源其大语言模型Grok-1的权重和架构

01 Gatekeep：新型文本转视频 AI

主要特性

它可以通过文本提示将数学、物理问题转换成视频内容

它会自动生成包括图表、图示、动画原理，还包含讲解内容的2分钟左右的视频。

能非常直观地帮助你了解一些知识和原理。

Gatekeep 特别强调其在数学学习中的应用，通过 AI 生成的视频，可以将复杂的数学问题和概念用更简单、更直观的方式呈现给学习者。

例如：“教我贝叶定理以及它与条件概率的关系”/“如何用二次公式求解二次方程。显示图表。/ “解释为什么勾股定理是正确的”

02 Viggle：通过文字描述让任何静态图动起来

可以直接通过文字描述让任何静态图动起来，而且能做各种动作，他们的模型能能理解真实世界的物理运动原理，所以出来的视频很真实。

不仅如此，它还能直接文字生成视频，进行各种角色混合和动作替换...

其核心技术基于JST-1模型。JST-1是首个具有实际物理理解能力的视频-3D基础模型，能够根据用户的需求，让任何角色按照指定的方式进行运动。

核心功能

1、可控制的视频生成：用户可以通过文字描述指定角色的动作和场景的细节，Viggle将根据这些指示生成视频。

2、基于物理的动画：JST-1模型的一个显著特点是其对物理原理的理解，这意味着生成的视频不仅看起来真实，而且角色的动作和互动符合实际物理规律。这提高了视频的质量和真实感。

3、3D角色和场景创建：Viggle不仅限于传统的2D视频制作，它还能够创建3D角色和场景。

相关资源

??官网：viggle.ai

03 The O-one ：一个创新的开源语言模型计算机

可以让你通过语音交互来和你的计算机进行对话，完成询问、指令下达等任务。

装上它，你可以使用语音说话的方式来操控你的电脑完成各种任务。

它还能通过你的指导，自己学会新的技能，只需一次下次就自己会了..

主要功能特点

1、语音交互：允许用户通过简单的推按操作与设备进行对话，完成询问、指令下达等任务。

2、日程和活动管理：可以远程访问你的电脑设备查询天气、查看日程、添加活动至日历，并自动发送活动相关信息。

3、邮件与文件处理：能够访问你的邮件，管理邮件，例如自动发送包含指定文件的邮件给特定联系人

4、学习新技能：通过用户指导，O1可以学会新的操作技能，如发送Slack消息等。

5、自动化工作流：监控邮件，自动处理和转发信息，如发票详情等。

最牛皮的是，O-one是开源的，他们公布了代码、CAD图纸、以及其他信息，你完全可以自己做一个。

项目资源

??开发团队：OpenInterpreter

?链接：https://github.com/OpenInterpreter/01

04 Suno v3：可以生成2分钟的广播级音乐歌曲

主要特点

完整歌曲制作：根据文字提示几秒钟内生成2分钟歌曲

多语言支持：支持包括中文在内的所有主要语言

高音质：提供接近广播级别的高音质输出

丰富风格：增加了更多的音乐风格和流派选择

指令响应改进：改进了对用户指令的响应度，减少幻觉现象和实现更自然的歌曲结尾。

专有水印技术：v3使用了专有的、不可听见的水印技术，能够检测出歌曲是否由Suno创作，保护原创作品。防止滥用。

项目资源

详细介绍：https://suno.ai/blog/v3

05 Manga-image-Translator: 一键翻译各类图片内文字

一个开源工具，专门用于翻译漫画或图片中的文字。

利用高效的OCR和AI翻译技术，它能够自动识别和翻译任何图片中的文字，并支持多种语言。

不仅翻译文字，还可以对去除文字后的区域进行修复和上色，以及重新渲染翻译后的文本。

主要功能特点

1、自动翻译图片中的文本：使用先进的OCR技术自动识别图片或漫画中的文字，并将其翻译成用户指定的语言。

2、支持多种语言：虽然最初设计是为了翻译日语文本，项目也支持中文、英文、韩文等多种语言的翻译，满足不同用户的需求。

3、文本修复与上色：在移除原始文本后，能够对相应区域进行修复和上色，保持图片的整体美观。

4、文本渲染：翻译完成的文本不仅仅是以简单文本形式呈现，还会根据原图的风格进行渲染，使翻译后的文本自然融入图片中。

5、支持命令行界面（CLI）和Web界面：用户可以通过命令行界面批量处理图片翻译任务，或者通过Web界面进行单个图片的翻译和预览。

6、一键去除漫画中的所有文字，支持多种翻译服务或模型

资源链接

? 项目地址：https://github.com/zyddnys/manga-image-translator

??在线演示：https://touhou.ai/imgtrans/

06 APISR：专注于动漫图像的超分辨率

APISR可以提升动漫图像、视频的分辨率

同时还能处理各种图像退化问题，如模糊、噪声、压缩伪影等。

APISR还提供了灵活的放大选项，支持2倍、4倍等不同的放大系数。

云上T4,256 视频放大4倍，171帧只需50s...

主要应用

?实时图像快速生成：适用于需要即时反馈的场景。

?文本到图像转换：用于创意设计和内容创作。

?交互式绘图体验：实时交互以获得所需的图像输出。

?多样化图像风格：支持生成不同风格和类型的图像。

性能亮点

1、超分辨率增强：对低质量、低分辨率的动漫图像和视频进行恢复和增强，显著提高其分辨率和图像质量。

2、处理真实世界退化图像：特别设计算法来处理现实世界中遇到的各种图像退化问题，如模糊、噪声、压缩伪影等，有效改善动漫图像在实际应用场景中的表现。

3、支持多种放大因子：项目提供了对不同放大因子（如2倍、4倍等）的支持，允许用户根据需要选择合适的放大级别来优化图像的视觉效果。

4、支持动漫视频：APISR项目不仅支持动漫图片的超分辨率增强，也支持动漫视频。通过提升视频中每一帧的清晰度和质量，整个视频的视觉效果也会相应提升。

资源链接

项目地址：https://github.com/Kiteretsu77/APISR

论文地址：https://arxiv.org/abs/2403.01598

07 Pipio：视频自动AI配音工具

可以把你的视频中的声音翻译成其他语言并克隆视频原声进行自动配音

同时保持翻译配音后的声音和翻译语言口型一致。

和Heygen的配音功能差不多

08 一键丰胸...

不多说了，直接看工作流吧：

09 马斯克宣布开源其大语言模型Grok-1的权重和架构

x.AI宣布开源其大语言模型Grok-1的权重和架构。Grok-1是一个拥有3140亿参数的专家混合模型，由xAI从头开始训练。

模型由8个专家组成，实际激活的参数数量为86B。模型使用了旋转位置嵌入，词汇量达到131,072，与GPT-4相似。

模型包含64个Transformer层，每层包括多头注意力块和密集块。模型的上下文长度为8,192个令牌，采用bf16计算精度，并提到了对权重使用8位量化。

模型未针对任何特定应用程序（如对话）进行微调。

丨模型详情：

? 参数规模：Grok-1拥有3140亿参数，这是一个指示模型复杂度和处理能力的关键指标。参数越多，模型理解和生成文本的能力通常越强。

? 专家混合模型：这意味着Grok-1利用了一种特定的网络架构，其中25%的权重在处理给定令牌时是激活的。这种设计旨在提高模型的效率和效果，通过专门的“专家”处理特定类型的信息。

? 训练过程：Grok-1由xAI从头开始训练，使用的是在JAX和Rust之上构建的自定义训练堆栈。模型的训练完成于2023年10月，表明它采用了最新的技术和数据。

? MoE层实现：模型中的MoE（Mixture of Experts）层实现并不高效，但这种设计选择是为了避免需要自定义内核以验证模型的正确性。这可能意味着在实际应用中，用户可能需要考虑如何优化或适应其硬件环境。

丨技术细节：

? 由8个专家组成，实际激活的参数数量为86亿。

? 使用了旋转位置嵌入（Rotary Embeddings），提高了模型的位置编码能力。

? 拥有131,072的词汇量，词嵌入维度为6,144，64个Transformer层。

? 上下文长度达到8,192个令牌，采用bf16计算精度，并提到了对权重使用8位量化，这一措施有助于优化模型的运行效率和资源消耗。

详细：x.ai/blog/grok-os

下载：github.com/xai-org/grok-1

感? 阅

谢? 读

发表于: 2024-03-242024-03-24 18:00:08
原文链接：https://page.om.qq.com/page/OgccstJ5hyt-eB6U6M9exaaw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

马斯克开源Grok-1、一键丰胸、视频自动AI配音、动漫图像超分辨率……

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐