新利『SPORTS』体育平台-ios/安卓/手机app最新版本下载

出门问问推出新一代照片数字人引擎WetaAvatar 40-Talking Photo新利体育手机
发布时间:2024-05-04 17:33:05

  新利体育官网随着AIGC时代的到来,数字人生成技术正逐渐成为焦点。出门问问自主研发的照片数字人引擎,凭借持续的技术创新,让用户仅需一张照片就能快速生成可以说话、讲故事的动态视频。目前,这一引擎已成功应用于国内产品「奇妙元」以及国际产品「DupDub」。

  自2023年推出WetaAvatar 3.0数字人系统及其照片数字人引擎以来,出门问问凭借其易用性和生动的生成效果,迅速赢得了用户的青睐,进行了形式丰富的内容创作。为了进一步提升用户体验,我们推出了最新一代的照片数字人引擎——WetaAvatar 4.0-Talking Photo。这一版本不仅优化了视频生成的清晰度和真实感,还显著加快了合成过程。同时,我们也在积极开发照片数字人实时对话引擎,不断推动技术创新的边界。

  用户仅需提供文本内容,便可借助出门问问的MeetVoice Pro语音大模型,生成自然流畅的语音输出。之后,结合我们的数字人系统,这些语音将被转化为精确同步的嘴形动作和自然的表情变化,创造出动作流畅、表现力丰富的数字人视频,为用户提供一种全新的互动体验和内容创作方式。

  WetaAvatar 4.0-Talking Photo是一个高效的双模块引擎,专为生成逼真的照片数字人视频而设计,包含两个核心组件:运动预测模块和人脸驱动模块 。运动预测模块:  此模块利用先进的语音分析技术,从输入的语音中提取关键参数,这些参数随后用于精确生成与之匹配的嘴型动画。这个过程涉及到复杂的算法,能够确保嘴型与语音的节奏和强度完美同步,从而创造出自然流畅的说话效果。人脸驱动模块: 此模块则进一步增强了视频的真实感。它结合了预先生成的驱动视频和用户输入的静态图片,通过算法生成一个全面的运动场。这个运动场不仅包含了嘴型变化,还能够模拟出丰富的面部表情和微妙的肌肉运动。随后,这个运动场可以用来驱动输入图片,生成具有高度表现力和动态变化的数字人视频。基于以上两个模块,在新一代Talking Photo引擎中,不论是人物正脸或侧脸驱动,其表现均优于前代,技术指标Sync-C的数值普遍高于WetaAvatar 3.0-Talking Photo引擎。

  Sync-C (SyncNet Confidence):使用预训练的衡量音画同步性的模型 SyncNet 计算的音画同步置信度。相同的驱动音频和驱动视频,数值越高越好。

  目前,「奇妙元」平台已经搭载WetaAvatar 4.0-Talking Photo引擎,用户能够释放创意潜力,将风格各异的人物照片驱动,生成高质量的动态视频,实现人物自然地说话、讲述,甚至唱歌的视频效果。

  如照片中的人物有胡子等面部遮挡物,「奇妙元」依然能够精准捕捉面部特征,保证图像生成的准确性。

  对于年代久远的老照片,「奇妙元」能够进行精准上色和高清渲染处理,进而驱动照片中的人物,让这些珍贵的记忆焕发出新的活力。

  出门问问技术团队致力于推动数字人技术的发展,目前正专注于基于WetaAvatar 4.0-Talking Photo的实时照片对话引擎的研发工作,预计不久将投入使用。我们不仅注重技术的创新,更着眼于提升用户体验,旨在通过生成更真实的表情和丰富的动作,打造出具有高度情感表现力的照片数字人。随着大模型时代的到来,出门问问数字人团队也将持续深入探索基于大模型的数字人生成技术,以Sora模型的问世为里程碑,期待在大模型的加持下,创造出更加生动、真实的数字人,为用户提供更加丰富和深入的交互体验。

  随着AIGC时代的到来,数字人生成技术正逐渐成为焦点。出门问问自主研发的照片数字人引擎,凭借持续的技术创新,让用户仅需一张照片就能快速生成可以说话、讲故事的动态视频。目前,这一引擎已成功应用于国内产品「奇妙元」以及国际产品「DupDub」。

  自2023年推出WetaAvatar 3.0数字人系统及其照片数字人引擎以来,出门问问凭借其易用性和生动的生成效果,迅速赢得了用户的青睐,进行了形式丰富的内容创作。为了进一步提升用户体验新利体育手机,我们推出了最新一代的照片数字人引擎——WetaAvatar 4.0-Talking Photo。这一版本不仅优化了视频生成的清晰度和真实感,还显著加快了合成过程。同时,我们也在积极开发照片数字人实时对话引擎,不断推动技术创新的边界。

  用户仅需提供文本内容,便可借助出门问问的MeetVoice Pro语音大模型,生成自然流畅的语音输出。之后,结合我们的数字人系统,这些语音将被转化为精确同步的嘴形动作和自然的表情变化,创造出动作流畅、表现力丰富的数字人视频,为用户提供一种全新的互动体验和内容创作方式。

  WetaAvatar 4.0-Talking Photo是一个高效的双模块引擎,专为生成逼真的照片数字人视频而设计,包含两个核心组件:运动预测模块和人脸驱动模块 。运动预测模块:  此模块利用先进的语音分析技术,从输入的语音中提取关键参数,这些参数随后用于精确生成与之匹配的嘴型动画。这个过程涉及到复杂的算法,能够确保嘴型与语音的节奏和强度完美同步,从而创造出自然流畅的说话效果。人脸驱动模块: 此模块则进一步增强了视频的真实感。它结合了预先生成的驱动视频和用户输入的静态图片,通过算法生成一个全面的运动场。这个运动场不仅包含了嘴型变化,还能够模拟出丰富的面部表情和微妙的肌肉运动。随后,这个运动场可以用来驱动输入图片,生成具有高度表现力和动态变化的数字人视频。基于以上两个模块,在新一代Talking Photo引擎中,不论是人物正脸或侧脸驱动,其表现均优于前代,技术指标Sync-C的数值普遍高于WetaAvatar 3.0-Talking Photo引擎。

  Sync-C (SyncNet Confidence):使用预训练的衡量音画同步性的模型 SyncNet 计算的音画同步置信度。相同的驱动音频和驱动视频,数值越高越好。

  目前,「奇妙元」平台已经搭载WetaAvatar 4.0-Talking Photo引擎,用户能够释放创意潜力,将风格各异的人物照片驱动新利体育手机,生成高质量的动态视频,实现人物自然地说话、讲述,甚至唱歌的视频效果。

  如照片中的人物有胡子等面部遮挡物,「奇妙元」依然能够精准捕捉面部特征,保证图像生成的准确性。

  对于年代久远的老照片,「奇妙元」能够进行精准上色和高清渲染处理,进而驱动照片中的人物,让这些珍贵的记忆焕发出新的活力。

  出门问问技术团队致力于推动数字人技术的发展,目前正专注于基于WetaAvatar 4.0-Talking Photo的实时照片对话引擎的研发工作,预计不久将投入使用。我们不仅注重技术的创新,更着眼于提升用户体验,旨在通过生成更真实的表情和丰富的动作,打造出具有高度情感表现力的照片数字人。随着大模型时代的到来,出门问问数字人团队也将持续深入探索基于大模型的数字人生成技术,以Sora模型的问世为里程碑,期待在大模型的加持下,创造出更加生动、真实的数字人,为用户提供更加丰富和深入的交互体验。

  2024中关村论坛年会打开新材料的“未来之门”——中外科学家聚焦材料科学“从零到一”

  【2024中关村论坛年会】斯蒂芬·佩里:新质生产力将引领中国在世界上取得更高的影响力

  【2024中关村论坛年会】中外嘉宾热议:以科技创新为主导培育新质生产力

  展湾科技亮相CIBF2024重庆国际电池技术交流会,为电池行业注入数智动力

  中建一局三公司北京分公司唐山市工人医院项目组织开展工人监督员评优暨工人监督员安全生产监督知识问答竞赛活动

TOP
网站地图