免费AI“神器”第十三弹:会20种语言的数字人爆火;机器人能提前0.8秒预测人类表情

科技 2024-04-14 08:18 阅读:32

最近,生成式人工智能(AIGC)领域又涌现出多款创意十足的新应用。今天,我们来看看免费AI“神器”系列第十三弹带来的五款产品,让我们对AI的未来充满期待。

首先是会20种语言的克隆数字人——Digen AI。这款全新的数字人工具产品可以创建面向未来的视频,支持多达20种语言、40+种声音,手势、口型和语调全部同步一致,让视频效果更加逼真。用户可以通过官网申请内测,免费进行个性化头像生成,然后进行视频编辑和生成等操作,最终实现数字人视频状态。Digen目前包括免费版、创作者版、专业版三个版本,订阅价格也相对亲民。这款产品的出现,让我们看到了AI在视频领域的巨大潜力。

接着是能模仿人类表情的机器人——EMO。这款机器人可以预测人的表情,并与人类同步做出表情。通过自我监督学习框架,EMO可以在人类微笑前839毫秒预测即将到来的微笑,并通过模型与人类同时表达微笑。虽然目前还不能做出人类的所有表情,但团队表示未来将继续拓宽机器人的表情范围,让EMO能更好地与人类交流。这款产品的推出,让我们看到了AI在情感交流领域的潜力。

另一款产品是Domo AI,能让静态人像动起来。这款AI工具可以将用户上传的照片和视频转绘为动漫风格,最近推出的图像生成视频新功能更是让人眼前一亮。通过深度学习和计算机视觉算法,Domo AI可以将静态照片中的人物“移植”到视频中,实现静态到动态的完美转变。这种创新让我们看到了AI在视觉艺术领域的无限可能。

此外,还有吊打Midjourney、DALL·E 3的AI文生图工具——Ideogram。这款超强文字生成图像工具可以生成包含清晰阅读文本的图像,让用户只需输入提示词就能得到惊人的视觉转换。最新版本的Ideogram在文本显示和图像质量方面有了显著提升,被评估者认为超越了其他同类产品。这种创新让我们看到了AI在图像生成领域的巨大潜力。

最后是文生图框架——LaVi-Bridge,一个无需训练将不同的语言模型和生成视觉模型结合起来的技术框架。这个框架提供了一种灵活且即插即用的方法,无需修改原始模型的权重,能够适应不同的结构。通过整合更高级的模块,LaVi-Bridge可以明显提高文本对齐或图像质量等能力,展现了AI在文本到图像生成领域的巨大潜力。

这五款免费AI“神器”再次让我们看到了AI技术的不断创新和发展。无论是数字人、表情机器人还是文生图工具,都展现了AI在不同领域的巨大潜力。让我们拭目以待,看AI未来会带给我们怎样的惊喜和改变。