刚刚,阿里「欢乐马」正式上线,抢先实测这匹「黑马」
刚刚,阿里「欢乐马」正式上线,抢先实测这匹「黑马」
  • 2026-04-28 03:59:13
    来源:梦断魂劳网

    刚刚,阿里「欢乐马」正式上线,抢先实测这匹「黑马」

    字体:

    编辑|杨文

    神秘的「欢乐马」,终于显露真身。

    4 月 27 日,阿里 ATH 团队正式上线视频生成模型HappyHorse 1.0

    该模型依托原生多模态架构,不仅实现音视频一锅出,还能创作、编辑一个平台全搞定,再也不用来回倒腾。

    它的「战绩」我们之前也报道过,曾在知名 AI 评测分析平台 Artificial Analysis 上屠榜,文字生视频和图像生视频双双拿下第一,把 Seedance 2.0 挤到了第二。

    在 Arena 榜单排名,视频编辑排名第一,图生、文生视频排名第二。

    先来几个 case 尝尝鲜。

    在狭窄小巷里骑行,高速运动动作丝滑流畅,镜头切换也很自然。

    Prompt : A cyclist racing through a narrow alley, handheld camera feel, dynamic motion blur, realistic shadows, intense pacing, cinematic.

    仓鼠开玩具车追奶酪,镜头低机位追逐、快速跳跃、转弯翻滚,连贯且充满张力。

    Prompt : High-speed chase thriller reimagined as a hamster in a toy car pursuing a rolling cheese wheel through a kitchen obstacle course, featuring low-angle ground-level pursuits, quick-cut jumps over utensils, barrel rolls around corners, and a triumphant slow-mo finish line cross with confetti explosions (vibrant cartoonish hues, pulsating electronic score).

    可以这么说,画面质感、镜头运动、人物真实感与内容可控性,逐项拉出来比,HappyHorse 1.0 都很能打。

    价格方面也相当良心。HappyHorse 1.0 主打一个性价比,720P 和 1080P 的视频生成每秒分别仅需 0.9 元和 1.6 元,专业会员包月价格叠加限时折扣后为每秒 0.44 元 和 0.78 元。

    目前,该模型已经开放体验,全球专业创作者和企业级客户可在 HappyHorse 官网和阿里云百炼平台注册使用,大众用户可在千问 App 体验。

    国内版: https://www.happyhorse.cn/海外版: https://www.happyhorse.com/

    接下来,我们就抢先实测下,看看这匹欢乐马是个什么段位。

    视频生成:

    运镜、配乐、音效,一锅全给你出了

    HappyHorse 1.0 主要有两大功能,一是视频生成,一是视频编辑。

    我们先来看下视频生成。它支持传统的文生视频、图生视频,以及多图参考生视频,三种出片方式覆盖了从零起步到素材延展,各有各的玩法。

    比如,我们仅输入一个简单的提示词:a man doing stand up comedy in a small venue tells a joke (include the joke in the dialogue),模型就能自己搭建小型 comedy club 的舞台环境,自己编段子,安排观众反应、表演者语气和肢体动作。

    仔细看成品细节,我们可以发现,观众坐姿各异却不违和,演员的表情也会随段子节奏变化,口型与对白能保持同步。这也说明,HappyHorse 1.0 具备很强的场景理解与内容自编能力。

    如果想生成一支篮球广告片,给个提示词:Make a professional ad for baseketball,不到一分钟,HappyHorse 1.0 直接搞定。

    生成画面中,运动员完成连续的运球、起跳、投篮,动作衔接流畅,一气呵成,同时在关键瞬间自动带入慢动作处理。要是再补上品牌 Logo,观感已经非常接近一支真正的商业广告大片。

    在多人表演、镜头调度和 MV 质感生成上,HappyHorse 1.0 只靠一段提示词,就能同时完成五人女团的统一造型、整齐舞蹈和演唱表演,还准确理解了广角推进、成员近景 wink 等镜头切换,以及最后定格群像的收尾。

    Prompt : K-pop girl group MV. In a futuristic photography studio, five members dressed in pink-and-white stage outfits perform an energetic group dance, singing"Falling petals fill the sky, veiling the moonlight."The shot transitions from a wide-angle dolly to a close-up wink of the central member, ending with the full group freezing in a powerful finale pose amid intense lighting and a rain of silver sequins. The visuals are clean and bright, with a fast pace, brimming with commercial polish.

    多主体场景一直是 AI 视频生成的难点,在下面这个人类和机器人踢足球的测试中,人类球员的带球、过人、推进,再到最后射门得分,动作衔接丝滑,多个主体在同一镜头语言下协同运动,没有各演各的。

    Prompt : Soccer of the future, mixing people and robots. This is a fragment from a 2026 cinematic movie.

    该模型还支持 3 到 15 秒任意时长,我们可以随意滑动模块设定,它会根据不同时长搭配合适的镜头。

    Prompt : The camera glides high above the sun-soaked cliffs of Monaco, nearly at helicopter-level. Below, a red-and-white 1980s Formula 1 car drives its way through the city circuit, a flash of polished paint and screaming power. Revealing a tightly woven tapestry of pastel architecture, narrow switchbacks, and the glittering blue of the Mediterranean beyond. The car is a blur of speed and precision—its silhouette dancing through hairpin turns and tunnel shadows, kissed intermittently by bright shafts of sunlight. The film look is raw and tangible: natural motion blur, gentle film grain, and sun-washed highlights mimicking vintage 35mm racing documentaries.

    这段提示词信息量略显密集,要求直升机视角俯瞰、1980 年代 F1 赛车穿行城市赛道,并呈现 35mm 胶片纪录片的质感,涉及具体的镜头运动、色调风格等。

    模型对镜头语言指令的理解还是比较到位,运镜跟随赛车的节奏衔接顺畅。

    在风格适配方面,HappyHorse 1.0 也能 hold 住,比如下面这个卡通版微型景观风格。

    桌面微缩城市的比例感准确,小汽车穿行其间的景深处理到位,拉镜头的轨迹也很讲究。

    Prompt : tiny city built on a desk, small cars moving, camera fly-through, playful, crisp detail.

    文生视频部分,HappyHorse 1.0 生成效果还是很稳的,不同风格、不同场景、不同复杂度的提示词,它给出的结果没有明显的崩盘情况。

    它也支持图生视频

    我们直接丢给它一张北京旅行的九宫格照片,让它为每一格照片单独生成一小段视频,最后按顺序串联成一支完整的旅行 vlog,并配上轻快的音乐。

    HappyHorse 1.0 生成的视频中,每张原始照片中的人物、构图、服装、表情和地点细节都得到了保留。

    动态效果轻柔自然,带有真实的手持感、细微镜头晃动和轻微的推进或平移,看起来更像是相机拍出来的。

    不过成片中也有些小 bug,比如最后一个镜头中的文字出现了乱码等。

    参考图生视频模式还可以上传最多 9 张图片,设置好每个镜头的提示词,它就能「脑补」一出大戏。

    就比如下面这个骑士大战怪兽的测试,模型能够理解每一张图所对应的情节节点、角色状态和镜头意图,再将它们自动串联成一段起承转合的小动画,只可惜最后的镜头还是有点像动态 PPT。

    视频编辑:

    不用「重拍」,一句话改到位

    再来试试视频编辑功能。

    AI 视频编辑一直难做,因为视频内容复杂,涉及到的不仅是画面本身,还有人物、背景、动作和细节的融合,稍有不慎就会穿帮。

    过去,虽然有一些 AI 视频编辑工具,但往往效果不佳。比如替换人物时,背景和人物的边缘衔接不自然,或者风格转变后画面质量大打折扣,更别说多元素同时改动了。

    但现在,一句话就能让 HappyHorse 1.0 精准替换主体、添加新元素,或者改变风格,同时保证画面其余部分不瞎改。

    比如,我们将原视频中的猫咪替换成金毛犬,二者摇尾巴动作、沙发背景和镜头切换完全一致,连戴墨镜这个细节都原样保留,看不出什么贴片感。

    再比如,原视频是一辆赛车经过便利店门口,我们输入提示词「汽车驶过的同时,一个穿着时髦的金发美女从便利店里推开门走出」。

    这比单纯换主体难度更高,需要凭空添加一个人物,还要让她的出现符合原视频的空间逻辑、镜头角度和光线条件。

    模型完全遵循文本描述,整体与原素材的融合几乎感觉不到拼接的痕迹。

    或者将动漫风格改成写实风格,这个过程中 HappyHorse 1.0 没有出现风格过渡失真或人物、动作形变等毛病。

    结语

    这两年,AI 视频生成卷到冒烟。要想在这个圈子占据一席之地,必须得有两下子。

    HappyHorse 1.0 的两下子,不是靠噱头堆出来的。它老老实实在画面质感、人物真实感、运镜流畅度等基本功上下功夫,偏偏这几件事,内容生产者每天都要跟它们较劲。

    同时,内容生产是反复修改的持续迭代过程,它这次没有把视频生成和视频编辑割裂开来,也是一次较大的突破。

    目前 HappyHorse 1.0 也只是小试牛刀,它仍在不断进化中。不过,开场就有这个成色,后面的表现着实令人期待。

    文中视频链接:https://mp.weixin.qq.com/s/rvs2rfQTgldbhH7AZHAC1A

    【纠错】【责任编辑:三亚顶一冠】