软文推广

阿里巴巴EMO官网地址多少阿里的对口型视频工具EMO怎么下载

2024-02-29 14:11 · 稿源：站长之家用户

近日，阿里的对口型视频生成工具 EMO备受关注。据官方介绍，EMO能够通过上传一张图片和一段音频，即可一键生成对口型视频，实现嘴型与声音的匹配。（EMO下载地址见文末）

该技术支持多语言、对话、唱歌以及快速语速的适配，但也引发了一些担忧，因为它有可能被用来制造虚假视频，因此一些知名人士可能需要保持警惕。

EMO的工作原理涉及两个主要阶段。首先是帧编码阶段，利用ReferenceNet从参考图像和动作帧中提取特征;

其次是扩散过程阶段，通过预训练的音频编码器处理声音嵌入，并结合多帧噪声和面部区域掩码来生成头像。在此过程中，采用了两种注意机制（参考注意和音频注意）和时间模块，以保持角色身份并调节运动速度。

不仅如此，EMO还支持多语言歌曲和不同风格的头像生成，能够处理歌唱、对话等不同场景。它能够根据输入音频的长度生成不同长度的视频，并在长时间内保持角色身份特征的稳定性。

此外，EMO还展示了在快节奏音乐中保持与音频同步的能力，确保角色动画的表现力和动态性。

这一研究对于头像视频生成领域具有重要意义，为多语言、多样化场景下的角色表现提供了新的可能性。它不仅可以应用于娱乐产业，还可以在学术研究和教育培训等领域发挥重要作用。

EMO下载地址:https://humanaigc.github.io/emote-portrait-alive/

注意:目前官方只公布了项目演示和代码，试玩地址还未上线，请耐心等待~

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
市值再超阿里巴巴！拼多多董事长：欢迎同行良性竞争

拼多多在2024年第一季度的业绩报告中交出了一份亮眼的成绩单，营收和净利润的大幅增长，助力其市值再次超越了电商巨头阿里巴巴。拼多多第一季度实现营收868亿元，同比增长131%，净利润达到279.978亿元，同比增长246%。拼多多的出发点是为消费者创造价值，将继续深化多实惠和好服务的能力，并丰富平台优质供给，优化消费者体验。

拼多多业绩报告营收增长
拼多多盘前涨超8%：总市值超越阿里巴巴 4倍于京东

今日晚间拼多多公布截至2024年3月31日的第一季度未经审计财务业绩，营收868.121亿元人民币，同比增长131%。归属于拼多多普通股股东的净利润为279.978亿元，同比增长246%；不按美国通用会计准则，归属于拼多多普通股股东的净利润为306.018亿元，同比增长202%。京东跌4.2%，报收33.29美元，总市值509.41亿美元。

拼多多财报营收
比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

对话形象生成模型在实现与音频的逼真准确口型同步方面取得了进展，但在控制和传达形象的细节表情和情感方面仍有不足，使生成的视频缺乏生动性和可控性。北京大学的研究团队提出了一种名为InstructAvatar的新颖方法，通过自然语言界面来控制虚拟形象的情感和面部动作，从提供了对生成的视频进行细粒度控制的能力。InstructAvatar具有细粒度的控制能力，并在领域之外的场�

InstructAvatar 对口型 AI头条
荐AI日报：美图发布AI视频神器MOKI；OpenAI靠ChatGPT半年赚34亿美元；斯坦福开发对口型视频模型PROTEUS

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、美图发布王炸产品MOKI可一键生成AI视频短片美图公司发布了名为MOKI的AI视频制作工具，实现了一键生成AI视频短片的功能，展示了其在AI领域的深入布局和创新能力。市场上已有�

MOKI
荐AI日报：Coze海外版支持GPT-4o；星火大模型今年7月将达GPT-4水平；Domo AI上线对口型视频功能；Animatediff魔法视频外网爆火

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、字节Coze海外版支持GPT-4o字节Coze海外版成功集成了OpenAI推出的最新AI助手GPT-4o，为用户带来更智能、更强大的聊天体验。公司以强大的AI技术赢得了超过10万付费客户，2022年被认�

Coze
iOS 18.4中有望新增多个Emoji表情：熊猫眼、铲子等

苹果公司有望在iOS18.4更新中，为用户带来一系列全新的Emoji表情。根据UnicodeConsortium的最新动态，Unicode16版本的测试评审期已经开启，并将持续至7月2日。上一次苹果引入新表情符号是在2024年3月发布的iOS17.4更新中，当时新增的表情符号包括青柠、可食用棕色蘑菇、凤凰、断裂的链条、垂直点头和水平摇头等。

苹果公司 iOS更新表情符号
luma ai官网地址多少 sora级文生视频模型Dream Machine体验地址

LumaAI公司推出了一款名为DreamMachine的电影级AI视频工具，它能够快速制作出高质量且逼真的视频。这款工具是基于高度可扩展和高效的Transformer模型，直接在视频上进行训练，能够生成物理上准确、一致且丰富的镜头。小编测试了下，通过文字提示生成视频，DreamMachine确实在即时连贯性、视频质量、细节清晰度和电影质感风格都表现不错，可以说是除了sora以外，目前生成质量最好的了。

luma
苹果的WWDC可能包括 AI 生成的emoji和OpenAI合作伙伴关系

苹果将于WWDC2024上首次分享自己的人工智能故事，预计推出包括与OpenAI的合作伙伴关系在内的基本人工智能功能。据彭博社的马克・古尔曼在PowerOn时事通讯中透露，这些功能可能包括AI生成的表情符号和语音备忘录的自动生成转录等。还有传言称iPhone的主屏幕布局也将有所改变，用户可以自由排列应用图标不再受iOS强制的从上到下、从左到右的排列方式限制。

AI生成 OpenAI AI头条
Luma AI文生视频模型官网地址多少 Dream Machine在哪体验

Luma公司推出了一款名为DreamMachine的AI视频生成模型，它迅速在业界引起了轰动。这款产品利用了Luma在AI生成技术上的深厚积累，为用户提供了高效、直观的视频生成体验，具有以下特点与优势:速度与效率:DreamMachine能在短时间内生成高质量视频内容，每120秒完成120帧的制作。小编测试了下，通过文字提示生成视频，DreamMachine确实在即时连贯性、视频质量、细节清晰度和电影质感风格都表现不错，可以说是除了sora以外，目前生成质量最好的了。

Luma
iOS 18将为iPhone带来这些新表情符号包括这个“浮肿的眼睛”Emoji

表情符号爱好者们有福了!Unicode联盟在其官方网站上发布了一些即将到来的表情符号示例，预示着iOS和Android设备上很快将增添更多有趣的表情。其中最引人注目的新表情符号之一，是带有眼袋的眼睛表情。随着技术的不断进步和文化的多元化，表情符号已经成为跨越语言和文化差异的全球通用语言。

表情符号 Unicode联盟 iOS

Nemotron-4-340B-Reward:多维奖励模型，助力构建自定义大型语言模型。

Nemotron-4-340B-Reward是由NVIDIA开发的多维奖励模型，用于合成数据生成管道，帮助研究人员和开发者构建自己的大型语言模型（LLMs）。该模型由Nemotron-4-340B-Base模型和一个线性层组成，能够将响应末尾的标记转换为五个标量值，对应于HelpSteer2属性。它支持最多4096个标记的上下文长度，并能够对每个助手轮次的五个属性进行评分。

AI 大型语言模型合成数据生成

Nemotron-4-340B-Instruct:NVIDIA的高级语言模型，优化于英文对话场景。

Nemotron-4-340B-Instruct是由NVIDIA开发的大型语言模型(LLM)，专为英文单轮和多轮对话场景优化。该模型支持4096个token的上下文长度，经过监督式微调(SFT)、直接偏好优化(DPO)和奖励感知偏好优化(RPO)等额外的对齐步骤。模型在约20K人工标注数据的基础上，通过合成数据生成管道合成了超过98%的用于监督微调和偏好微调的数据。这使得模型在人类对话偏好、数学推理、编码和指令遵循方面表现良好，并且能够为多种用例生成高质量的合成数据。

大型语言模型对话系统编程辅助

BookSlice:让阅读更有趣，用游戏化的方式增加阅读量。

BookSlice是一款面向忙碌人群的游戏化阅读应用，通过心理学原理帮助用户建立阅读习惯，并通过设置每日挑战来维持阅读连续性。它利用实施意图、习惯叠加等心理工具，使阅读变得习惯性和上瘾。此外，BookSlice还提供AI问答功能，帮助用户在阅读过程中获得上下文答案。

阅读游戏化心理学

agentUniverse:基于大型语言模型的多智能体应用开发框架

agentUniverse 是一个基于大型语言模型的多智能体应用开发框架，提供了构建单一智能体和多智能体协作机制的所有必需组件。通过模式工厂，允许开发者构建和自定义多智能体协作模式，轻松构建多智能体应用，并分享不同技术与业务领域的模式实践。

AI 多智能体开发框架

HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

HunyuanDiT Distillation Acceleration 是腾讯 Hunyuan 团队基于 HunyuanDiT 模型开发的蒸馏加速版本。通过渐进式蒸馏方法，在不降低性能的情况下，实现了推理速度的两倍提升。该模型支持多种GPU和推理模式，能够显著减少时间消耗，提高图像生成效率。

图像生成蒸馏技术加速推理

WonderWorld:从单张图片生成交互式3D场景

WonderWorld是一个创新的3D场景扩展框架，允许用户基于单张输入图片和用户指定的文本探索和塑造虚拟环境。它通过快速高斯体素和引导扩散的深度估计方法，显著减少了计算时间，生成几何一致的扩展，使3D场景的生成时间少于10秒，支持实时用户交互和探索。这为虚拟现实、游戏和创意设计等领域提供了快速生成和导航沉浸式虚拟世界的可能性。

3D场景生成虚拟现实创意设计

ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

ChatTTS_Speaker是一个基于ERes2NetV2说话人识别模型的实验性项目，旨在对音色进行稳定性评分和音色打标，帮助用户选择稳定且符合需求的音色。项目已开源，支持在线试听和下载音色样本。

音色评分说话人识别 ERes2NetV2

fastc:轻量级文本分类工具，使用大型语言模型嵌入。

fastc是一个基于大型语言模型嵌入的简单且轻量级的文本分类工具。它专注于CPU执行，使用高效的模型如deepset/tinyroberta-6l-768d生成嵌入。通过余弦相似度分类代替微调，实现文本分类。它还可以在不增加额外开销的情况下，使用相同的模型运行多个分类器。

文本分类余弦相似度大型语言模型

MeshAnything:3D资产的自动生成工具

MeshAnything是一个利用自回归变换器进行艺术家级网格生成的模型，它可以将任何3D表示形式的资产转换为艺术家创建的网格(AMs)，这些网格可以无缝应用于3D行业。它通过较少的面数生成网格，显著提高了存储、渲染和模拟效率，同时实现了与先前方法相当的精度。

3D设计网格生成自回归变换器

HunyuanDiT-v1.1:多分辨率扩散变换器，支持中英文理解

HunyuanDiT-v1.1是由腾讯Hunyuan团队开发的一款多分辨率扩散变换模型，它具备精细的中英文理解能力。该模型通过精心设计的变换器结构、文本编码器和位置编码，结合从头开始构建的完整数据管道，实现数据的迭代优化。HunyuanDiT-v1.1能够执行多轮多模态对话，根据上下文生成和细化图像。经过50多名专业人类评估员的全面评估，HunyuanDiT-v1.1在中文到图像生成方面与其他开源模型相比，达到了新的最先进水平。

AI图像生成多模态对话中英文双语

UniAnimate:高效生成一致性人物视频动画的模型

UniAnimate是一个用于人物图像动画的统一视频扩散模型框架。它通过将参考图像、姿势指导和噪声视频映射到一个共同的特征空间，以减少优化难度并确保时间上的连贯性。UniAnimate能够处理长序列，支持随机噪声输入和首帧条件输入，显著提高了生成长期视频的能力。此外，它还探索了基于状态空间模型的替代时间建模架构，以替代原始的计算密集型时间Transformer。UniAnimate在定量和定性评估中都取得了优于现有最先进技术的合成结果，并且能够通过迭代使用首帧条件策略生成高度一致的一分钟视频。

人物动画视频生成扩散模型

LVBench:长视频理解基准测试

LVBench是一个专门设计用于长视频理解的基准测试，旨在推动多模态大型语言模型在理解数小时长视频方面的能力，这对于长期决策制定、深入电影评论和讨论、现场体育解说等实际应用至关重要。

视频理解基准测试多模态模型

Mo:通过卡片式学习，轻松掌握AI科技知识。

Mo是一款结合超现实主义艺术和堂吉诃德理想主义精神的AI科技学习APP。它通过卡片形式，以图文、动画、视频、语音等多样化内容，使AI和科技知识的学习变得生动有趣。Mo不仅覆盖了AI的基础知识，还包含了元宇宙、大数据、大模型等前沿技术，适合各种背景的学习者，旨在打造一个个性化的学习体验。

AI学习科技教育个性化学习

开搜AI搜索:面向大众的AI问答搜索引擎

开搜AI问答搜索引擎是一款面向大众的、直达答案的AI问答搜索引擎，它能够帮助用户从海量的文献资料中筛选出有用的信息，提供直接、精准的答案，并且能够自动总结重点、生成大纲、思维导图并下载。

AI问答信息筛选知识获取

AI Math Notes:一个交互式绘图应用，用于数学方程的绘制和计算。

AI Math Notes 是一个开源的交互式绘图应用程序，允许用户在画布上绘制数学方程。应用程序利用多模态大型语言模型（LLM）计算并显示结果。该应用程序使用Python开发，利用Tkinter库创建图形用户界面，使用PIL进行图像处理。灵感来源于Apple在2024年全球开发者大会（WWDC）上展示的'Math Notes'。

数学教育工具开源

VideoTetris:文本到视频生成的创新框架

VideoTetris是一个新颖的框架，它实现了文本到视频的生成，特别适用于处理包含多个对象或对象数量动态变化的复杂视频生成场景。该框架通过空间时间组合扩散技术，精确地遵循复杂的文本语义，并通过操作和组合去噪网络的空间和时间注意力图来实现。此外，它还引入了一种新的参考帧注意力机制，以提高自回归视频生成的一致性。VideoTetris在组合文本到视频生成方面取得了令人印象深刻的定性和定量结果。

文本到视频视频生成人工智能

Visual Sketchpad:多模态语言模型的视觉推理工具

Visual Sketchpad 是一种为多模态大型语言模型（LLMs）提供视觉草图板和绘图工具的框架。它允许模型在进行规划和推理时，根据自己绘制的视觉工件进行操作。与以往使用文本作为推理步骤的方法不同，Visual Sketchpad 使模型能够使用线条、框、标记等更接近人类绘图方式的元素进行绘图，从而更好地促进推理。此外，它还可以在绘图过程中使用专家视觉模型，例如使用目标检测模型绘制边界框，或使用分割模型绘制掩码，以进一步提高视觉感知和推理能力。

多模态视觉推理教育辅助

GoMate:基于RAG框架的可靠输入和可信输出系统

GoMate是一个基于Retrieval-Augmented Generation (RAG)框架的模型，专注于提供可靠输入和可信输出。它通过结合检索和生成技术，提高信息检索和文本生成的准确性和可靠性。GoMate适用于需要高效、准确信息处理的领域，如自然语言处理、知识问答等。

RAG 自然语言处理文本生成

SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

SD3-Controlnet-Canny 是一种基于深度学习的图像生成模型，它能够根据用户提供的文本提示生成具有特定风格的图像。该模型利用控制网络技术，可以更精确地控制生成图像的细节和风格，从而提高图像生成的质量和多样性。

图像生成深度学习控制网络

Tencent EMMA:多模态文本到图像生成模型

EMMA是一个基于最前沿的文本到图像扩散模型ELLA构建的新型图像生成模型，能够接受多模态提示，通过创新的多模态特征连接器设计，有效整合文本和补充模态信息。该模型通过冻结原始T2I扩散模型的所有参数，并仅调整一些额外层，揭示了预训练的T2I扩散模型可以秘密接受多模态提示的有趣特性。EMMA易于适应不同的现有框架，是生成个性化和上下文感知图像甚至视频的灵活有效工具。

图像生成多模态 AI

今日大家都在搜的词：

人生重开模拟器
显卡天梯图
国内云服务器哪家好
高通骁龙处理器排名
手机CPU天梯图
单反相机天梯图
安兔兔手机跑分排行榜
笔记本电脑排行榜
全球耳机品牌排行榜
《艾尔登法环》地图工具

热文

3 天
7天

1

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍
2

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34
3

马斯克最新访谈：在全球核战爆发前必须实现殖民火星
4

专家指出如果 Google 冒险在 AI 功能上加码，就需要明确说明可
5

Win11新Bug致CPU占用率过高！微软承认并表示正在修复
6

阿里蔡崇信：微软与OpenAI的未来可能分道扬镳
7

Chrome在Android上新增朗读网页功能，让用户可听取文字内容
8

科技大厂抢占AI先机！专家担心AI成将财富权力转移至少数人的工
9

台积电3nm供不应求引涨价潮！NVIDIA、AMD、苹果等都要涨价
10

腾讯首款开放世界赛车手游！《极品飞车：集结》上架苹果App St

1

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍
2

《黑神话：悟空》大火：三天预售额超亿元！8月20日正式上线
3

马斯克承诺明年开始限量生产擎天柱Optimus人形机器人
4

1.52万亿！亚马逊创始人贝索斯成为全球首富马斯克第三
5

北京拟禁止直播平台销售保健品不得以全网最低价误导消费者
6

造谣公司用AI一天写谣言7000篇：MCN机构用AI造谣被曝光
7

中专数学天才拿下全球12名的题目有多难：看你能做出几道
8

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34
9

360新品发布会“被盗图人”喊话周鸿祎：要求公开道歉赔偿1元R
10

京东员工达近52万人！阿里的2倍、拼多多的30倍

阿里巴巴EMO官网地址多少 阿里的对口型视频工具EMO怎么下载

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

市值再超阿里巴巴！拼多多董事长：欢迎同行良性竞争

拼多多盘前涨超8%：总市值超越阿里巴巴 4倍于京东

比对口型还牛！InstructAvatar：实现文字生成指定面部的表情和动作

荐AI日报：美图发布AI视频神器MOKI；OpenAI靠ChatGPT半年赚34亿美元；斯坦福开发对口型视频模型PROTEUS

荐AI日报：Coze海外版支持GPT-4o；星火大模型今年7月将达GPT-4水平；Domo AI上线对口型视频功能；Animatediff魔法视频外网爆火

iOS 18.4中有望新增多个Emoji表情：熊猫眼、铲子等

luma ai官网地址多少 sora级文生视频模型Dream Machine体验地址

苹果的WWDC可能包括 AI 生成的emoji和OpenAI合作伙伴关系

Luma AI文生视频模型官网地址多少 Dream Machine在哪体验

iOS 18将为iPhone带来这些新表情符号 包括这个“浮肿的眼睛”Emoji

Nemotron-4-340B-Reward:多维奖励模型，助力构建自定义大型语言模型。

Nemotron-4-340B-Instruct:NVIDIA的高级语言模型，优化于英文对话场景。

BookSlice:让阅读更有趣，用游戏化的方式增加阅读量。

agentUniverse:基于大型语言模型的多智能体应用开发框架

HunyuanDiT Distillation Acceleration:高性能图像生成模型的蒸馏加速版本

WonderWorld:从单张图片生成交互式3D场景

ChatTTS_Speaker:基于ERes2NetV2模型的音色稳定性评分与音色打标。

fastc:轻量级文本分类工具，使用大型语言模型嵌入。

MeshAnything:3D资产的自动生成工具

HunyuanDiT-v1.1:多分辨率扩散变换器，支持中英文理解

UniAnimate:高效生成一致性人物视频动画的模型

LVBench:长视频理解基准测试

Mo:通过卡片式学习，轻松掌握AI科技知识。

开搜AI搜索:面向大众的AI问答搜索引擎

AI Math Notes:一个交互式绘图应用，用于数学方程的绘制和计算。

VideoTetris:文本到视频生成的创新框架

Visual Sketchpad:多模态语言模型的视觉推理工具

GoMate:基于RAG框架的可靠输入和可信输出系统

SD3-Controlnet-Canny:一种用于生成图像的深度学习模型。

Tencent EMMA:多模态文本到图像生成模型

今日大家都在搜的词：

热文

董宇辉在永乐宫拍摄壁画引质疑 官方：经审批可拍

563支AI队伍做了姜萍同一份数学试卷： 结果最高分仅34

马斯克最新访谈：在全球核战爆发前必须实现殖民火星

专家指出如果 Google 冒险在 AI 功能上加码，就需要明确说明可

Win11新Bug致CPU占用率过高！微软承认并表示正在修复

阿里蔡崇信：微软与OpenAI的未来可能分道扬镳

Chrome在Android上新增朗读网页功能，让用户可听取文字内容

科技大厂抢占AI先机！专家担心AI成将财富权力转移至少数人的工

台积电3nm供不应求引涨价潮！NVIDIA、AMD、苹果等都要涨价

腾讯首款开放世界赛车手游！《极品飞车：集结》上架苹果App St

董宇辉在永乐宫拍摄壁画引质疑 官方：经审批可拍

《黑神话：悟空》大火：三天预售额超亿元！8月20日正式上线

马斯克承诺明年开始限量生产擎天柱Optimus人形机器人

1.52万亿！亚马逊创始人贝索斯成为全球首富 马斯克第三

北京拟禁止直播平台销售保健品 不得以全网最低价误导消费者

造谣公司用AI一天写谣言7000篇：MCN机构用AI造谣被曝光

中专数学天才拿下全球12名的题目有多难：看你能做出几道

563支AI队伍做了姜萍同一份数学试卷： 结果最高分仅34

360新品发布会“被盗图人”喊话周鸿祎：要求公开道歉 赔偿1元R

京东员工达近52万人！阿里的2倍、拼多多的30倍

站长商机

阿里巴巴EMO官网地址多少阿里的对口型视频工具EMO怎么下载

iOS 18将为iPhone带来这些新表情符号包括这个“浮肿的眼睛”Emoji

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34

董宇辉在永乐宫拍摄壁画引质疑官方：经审批可拍

1.52万亿！亚马逊创始人贝索斯成为全球首富马斯克第三

北京拟禁止直播平台销售保健品不得以全网最低价误导消费者

563支AI队伍做了姜萍同一份数学试卷：结果最高分仅34

360新品发布会“被盗图人”喊话周鸿祎：要求公开道歉赔偿1元R