新的语音控制功能依托于近期发布的同步视频音频生成模型Kling 2.6。和谷歌的Veo 3、Sora 2相类似,这款模型可以生成与视频内容相匹配的各类音效,其中涵盖了语音以及音乐。
根据Kling AI的说明,这项功能可兼容说话、对话、旁白、唱歌以及说唱等多种人声类型。此外,它具备处理环境噪音和合成场景音效的能力。该模型不仅能够接收纯文本描述作为输入,还支持文本与图像相结合的输入形式。
Kling AI 呈现出丰富多样的应用领域,涵盖产品展示、生活类视频日志、新闻播报、体育赛事解说、纪录片制作、访谈节目形式、戏剧短片创作以及各类音乐演出,其中既包含歌唱表演,甚至还涉及复调合唱艺术。
自定义语音训练使角色更加一致
新的语音控制功能允许用户上传自己的声音来训练模型。他们也可以直接上传音频文件。训练过或上传的语音可以应用到文本转视频的创作中。
这提高了角色的一致性——生成视频中的角色现在可以用明确且易于识别的声音说话。这使得在多个视频片段中创建一致的角色成为可能。
体感控制现在更好地处理复杂动作
第二个核心功能在于体感控制的优化升级。Kling AI方面表示,当前系统能够更细致地捕捉人体全身的动作轨迹,即便是武术、舞蹈这类快速且复杂的动作,也能得到更为精准的识别与处理。
公司特别强调了AI视频在两个通常存在不足的方面有所改进:手部动作现在应显得精准且无模糊,面部表情和口型同步应保持自然。
用户可以上传3到30秒的动作参考,以创建不间断的序列。场景细节也可以通过文本提示进行调整。
社交媒体上已出现不少令人印象深刻的实例,显示出随着平台算法对快速点击的奖励机制,AI创作者纷纷抓住这一唾手可得的机会,AI生成的视频内容势必将持续增长。而在这一过程中,一些极具创意的想法也正不断涌现。
竞争性定价
Kling 除了在自有平台提供服务外,还能通过 Fal.ai、Artlist、Media.io 等第三方平台进行购买。这些合作提供商的 API 定价大约在每秒生成视频 0.07 到 0.14 美元之间,具有很强的市场竞争力。具体价格会依据生成速度、视频时长以及分辨率等因素有所不同。而 KlingAI 自身则采用信用点数的计费系统。
12月初,快手推出了Video O1,该公司将其称作“全球首个融合生成与剪辑功能的统一多模态视频模型”。借助文本指令,Video O1能够对已有的视频进行编辑操作,比如更换主角、调整天气状况或是改变视频的风格。
借助Kling 2.6的这些全新功能,快手得以在竞争白热化的市场里,与谷歌、OpenAI、Runway等西方企业,以及海洛、Seedance、Vidu等中国同行展开角逐。
快手旗下运营着Kwai,作为全球范围内颇具规模的短视频平台之一,它足以与TikTok相抗衡。借助这一平台,公司得以直接获取海量的视频-音频配对素材以及运动相关数据,从而为训练具备声音同步效果与真实动作序列的视频模型提供有力支撑。