腾讯混元推出语音数字人:图片+音频一键生成会说话唱歌的虚拟人

2025-08-13 16:13来源:本站

  腾讯混元近日发布了全新的语音数字人模型HunyuanVideo-Avatar,这项技术突破引起了广泛关注。该模型仅需一张图片和一段音频,就能让图片中的人物自然地说话或唱歌,为视频创作带来了革命性的变化。

  这项技术由腾讯混元视频大模型与腾讯音乐天琴实验室MuseV技术共同研发。HunyuanVideo-Avatar支持多种拍摄景别,包括头肩、半身和全身,还能处理不同风格、不同物种以及双人互动的场景。用户只需上传人物图像和音频,模型就能自动理解内容,生成包含自然表情、精准唇形和全身动作的视频。

  

  该技术特别适合短视频创作、电商推广和广告制作等领域。创作者可以快速生成产品介绍视频或多人互动广告,大幅降低制作成本。目前,HunyuanVideo-Avatar的单主体功能已经开源,并在腾讯混元官网开放使用,支持上传不超过14秒的音频进行视频生成。未来,腾讯还将逐步开放更多功能,为数字内容创作提供更多可能性。

  谷歌搜索新增语音播报功能 一键收听网页精华

  谷歌搜索引擎近期推出了一项名为"音频概览"的新功能,这项创新服务利用谷歌的Gemini模型,为用户提供由人工智能生成的音频总结。用户现在可以通过谷歌搜索直接获取类似播客形式的简短音频内容,而不再需要花费大量时间浏览多个搜索结果页面。这项功能...

  IT之家|2025-06-16 13:24

  腾讯发布混元3D 2.1大模型 全面开放源代码

  腾讯在计算机视觉领域的顶级会议CVPR2025上宣布了一项重要消息,混元3D 2.1大模型正式对外开源。这一举措标志着腾讯在3D视觉技术方面的研究成果开始向全球开发者开放。混元3D模型是腾讯在3D视觉领域的重要研究成果,目前已经在知名开源社...

  界面新闻|2025-06-16 12:12

  "智能玩具新趋势:大模型如何引爆情绪消费"

  近期,AI技术正在快速渗透玩具行业,为传统玩具赋予智能化交互能力。全球玩具巨头和科技企业纷纷布局这一新兴领域,预示着玩具市场即将迎来一场智能化变革。OpenAI与芭比娃娃制造商美泰公司达成战略合作,计划在今年推出首款AI玩具产品。美泰作为全...

  财联社|2025-06-15 16:55

  "豆包大模型1.6高考数学144分创纪录 实力碾压全国考生"

  6月11日,字节跳动旗下火山引擎举办了FORCE原动力大会,正式发布了豆包大模型1.6版本。此次发布的新系列包含三个大模型,分别是Doubao-Seed-1.6-thinking、Doubao-Seed-1.6和Doubao-Seed-1....

  快科技|2025-06-13 21:00

  meta发布LlamaRL框架:异步分布设计让AI训练提速10倍

  meta公司近日推出了名为LlamaRL的全新强化学习框架,这一创新技术在大规模语言模型训练领域取得了突破性进展。根据科技媒体marktechpost的报道,LlamaRL框架采用全异步分布式设计,在4050亿参数模型上的测试结果显示,强化...

  IT之家|2025-06-13 18:10

  小鹏G7首发自研芯片:性能超Orin-X三倍,智能驾驶再升级

  小鹏汽车在6月11日晚正式发布了全新车型G7,这款车被称为全球首款具备L3级算力的AI汽车。该车最大的亮点是搭载了小鹏自主研发的图灵芯片,官方宣称1颗图灵AI芯片的算力相当于3颗Orin-X芯片。G7配备了3颗自研图灵AI芯片,有效算力达到...

  IT之家|2025-06-13 11:00

  小鹏G7首发智能驾驶辅助系统,实现大脑小脑协同控制

  小鹏汽车在6月11日的发布会上正式推出了智能驾驶辅助VLA-OL模型,这一技术将首次应用于全新G7车型。该模型实现了从"小脑式反射"到"大脑+小脑"认知模式的重大升级,标志着小鹏汽车在自动驾驶领域迈出了重要一步。这套系统通过"运动型大脑"和...

  快科技|2025-06-13 10:50

  创投大佬周炜预言:大模型巨头将不超过3家

  创世伙伴创投创始主管合伙人周炜近日接受新浪科技《科创100人》栏目专访,分享了对AI与机器人赛道的深刻见解。作为技术出身、跨越多轮投资周期的资深投资人,周炜对行业趋势的判断具有重要参考价值。周炜指出,大模型行业正经历残酷洗牌,但激烈程度不及...

  新浪科技|2025-06-13 07:00

  元戎启行VLA模型三季度量产 年内覆盖五款新车

  6月11日,界面新闻从相关渠道了解到,自动驾驶企业元戎启行研发的VLA模型计划在今年第三季度正式进入消费市场。根据目前掌握的信息,预计至少有5款不同品牌的车型会搭载这一创新技术。这一进展标志着自动驾驶技术向大规模商业化应用又迈出了重要一步。...

  界面新闻|2025-06-12 18:40

  科技巨头meta发布新一代AI模型V-JEPA 2

  6月11日,meta公司发布了新一代视觉预测模型V-JEPA 2。这款模型在物理世界的视觉理解和预测方面取得了突破性进展,达到了业内领先水平。官方表示,该模型能够显著提升人工智能代理的物理推理能力,为AI理解现实世界提供了新的技术支撑。为了...

  界面新闻|2025-06-12 15:30

  联想发布万全AI一体机 打造大模型一站式调优方案

  6月9日下午,联想在创新科技大会期间举办了"异构智算 本地引擎"分论坛,正式发布了"联想万全AI一体机"这一全新产品。该产品基于联想多年积累的服务器技术和全栈自研能力,旨在为企业提供更便捷的AI基础设施解决方案。随着DeepSeek、Qwe...

  新浪科技|2025-06-12 09:40

  苹果推出Foundation框架:开发者轻松集成端侧AI模型

  在2025年苹果全球开发者大会(WWDC)上,苹果公司以全新的Apple Intelligence作为开场亮点。发布会上,苹果软件工程高级副总裁克雷格?费德里吉详细介绍了这一创新技术,并正式推出Foundation Models框架。该框架...

  IT之家|2025-06-11 19:56

  本信息来自互联网,不代表导读网立场,如若转载,请注明出处:http://www.frfey.com/news/70219/

百读八八声明:未经许可,不得转载。