您现在的位置是:首页 > 人工智能人工智能
开源全家桶又添一“元”,腾讯混元大模型公布最新进展
cc博主2024-12-05【人工智能】33人已围观
刚刚,腾讯混元大模型公布最新进展:正式上线视频生成能力,这是继文生文、文生图、3D生成之后的又一新里程碑。与此同时,腾讯开源该视频生成大模型,参数量130亿,是当前最大的视频开源模型。
“用户只需要输入一段描述,即可生成视频,”腾讯混元相关负责人透露,目前的生成视频支持中英文双语输入、多种视频尺寸以及多种视频清晰度。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。企业客户通过腾讯云提供服务接入,目前API同步开放内测申请。
通过腾讯元宝APP-AI应用-AI视频即可使用该功能(前期需申请)
在与国内外多个顶尖模型的评测对比显示,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先,在人物、人造场所等场景下表现尤为出色。
腾讯混元视频生成大模型制作出的视频画质很逼真,内容也与提示词高度一致,确保画面的流畅性,减少形变,甚至在提示词是 emoji 表情的情况下,也可以稳定输出。
例如,在处理冲浪、舞蹈等包含大幅度动作的场景时,该模型能够生成流畅且合理的动作镜头,物体形变现象得到有效控制;在处理光影反射时,它能够基本遵循物理规律,如在镜面或照镜子的场景中,能够实现镜内外动作的一致性。此外,该模型还能在保持画面主角不变的情况下自动切换镜头,这是许多其他模型所不具备的高级功能。
视频由腾讯混元视频生成,提示词:200mm长焦镜头,对准一只停在栏杆上的海鸥。羽毛的纹理清晰可辨,前景的木栏杆温柔虚化。远处的落日和海平面融化成金红色的光影
视频由腾讯混元视频生成,提示词:暴风雪中,一列蒸汽火车在崎岖山间穿行,黑烟从车头直冲云霄,车厢在皑皑白雪中留下深邃轨迹,镜头以侧面追踪,捕捉机械巨兽破开风雪的磅礴气势,白雾与蒸汽交织成壮丽画卷,电影氛围,远景
视频由腾讯混元视频生成,提示词:一个隐藏的瀑布流入清澈的池塘,周围是高大的树木和绿色植物。阳光穿过树叶,在下面的岩石和水面上形成斑点。逼真,茂密森林中的宁静瀑布,宁静、阳光明媚的日子,中景
视频由腾讯混元视频生成,提示词:一位戴着复古飞行护目镜的机械师,半跪在蒸汽朋克风格的工作室里。她棕色卷发挽成发髻,零星的银色发丝闪着金属光泽。深棕色皮质工装背带裤上沾满机油污渍,袖口卷起露出布满齿轮纹身的手臂。特写她正用黄铜工具调试一只机械鸟,齿轮间冒出缕缕蒸汽,工作台上散落着铜管、发条和老式图纸。
它采用了与Sora相似的DiT架构,并在此基础上进行了多项优化。混元的视频生成模型通过引入新一代的文本编码器,显著增强了对语义的理解和遵循能力,这使得它在处理多主体场景时能够更加精确地执行指令并呈现细节;此外,该模型还采用了统一的全注意力机制,这不仅让视频帧之间的过渡更加自然,还实现了在保持主体一致性的前提下进行多视角切换;最后,混元通过采用先进的图像视频混合VAE技术(3D变分编码器),在细节捕捉上取得了显著进步,特别是在处理小尺寸人脸和快速运动镜头等复杂场景时表现尤为突出。
目前,腾讯宣布开源该视频生成大模型已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费使用和开发生态插件。基于腾讯混元的开源模型,开发者及企业无需从头训练,即可直接用于推理,并可基于腾讯混元系列打造专属应用及服务,能够节约大量人力及算力,加速行业创新步伐。
据雷峰网(公众号:雷峰网)了解,从年初以来,腾讯混元系列模型的开源速度不断加快。此前,腾讯混元已经开源了旗下文生文、文生图和3D生成大模型。至此,腾讯混元系列大模型已实现全面开源。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。
Tags:
相关文章
- 2024年V2ray/Clash/SSR/Shadowrocke美国-日本免费节点「12月04日」
- 月之暗面发布首款数学模型 k0-math,对标o1
- 洛杉矶VPS年付8.49英镑起,香港VPS年付12英镑起
- 2024年V2ray/Clash/SSR/Shadowrocke法国-英国免费节点「11月30日」
- 年付55折,€26.33/年起,可选美国/新加坡/荷兰/乌克兰等15机房
- 全场VPS四折,4核/1GB/50GB/3TB@1Gbps,$2/月起,洛杉矶机房
- 2万亿美元的生成式AI市场,为什么需要服务器「标准」?
- 高配独服,AMD EPYC 7702P/512G内存/240G SSD+7.68TB NVMe/10Gbps带宽,$399/月,可选达拉斯/圣何塞机房
- 从灯塔到弃子:波士顿动力为何被追随者反超
- 2024 生成式 AI 市场报告:企业支出增长率超 600%,安全性和 ROI 成关键决策点
热门文章
- 芯片集群「贵」出天际,10年内单个集群价值将达万亿美元
- 美国服务器$12.25限量秒杀 云服务器/VPS低至$0.99 爆款产品首月半价
- SIGGRAPH Asia 2024:传统与创新并存,3D 生成与具身智能热度上升
- 枫清科技高雪峰:从数据到知识,跨越生成式AI与决策智能间的鸿沟
- 赵勇卸任格灵深瞳CEO:创业一瞬间,跌宕十一年
- 独家丨Arm服务器CPU创业公司博瑞晶芯研发副总离职
- 莱卡云:最新双12活动2核4G的云服务器仅15.88元/月续费同价国内服务器特惠活动16核16G仅需1588/年
- 5分钟完成传统超算10²⁵年计算量,谷歌Willow在量子纠错领域实现「关键一跃」
- 2核/6GB/40GB/10M,70元/月,可选日本/美国/香港机房
热评文章
Graviton两年内为AWS提供超过50%的CPU算力,打破英特尔对市场节奏的掌控
赵勇卸任格灵深瞳CEO:创业一瞬间,跌宕十一年
枫清科技高雪峰:从数据到知识,跨越生成式AI与决策智能间的鸿沟
独家丨Arm服务器CPU创业公司博瑞晶芯研发副总离职
芯片集群「贵」出天际,10年内单个集群价值将达万亿美元
美国服务器$12.25限量秒杀 云服务器/VPS低至$0.99 爆款产品首月半价
SIGGRAPH Asia 2024:传统与创新并存,3D 生成与具身智能热度上升
5分钟完成传统超算10²⁵年计算量,谷歌Willow在量子纠错领域实现「关键一跃」
莱卡云:最新双12活动2核4G的云服务器仅15.88元/月续费同价国内服务器特惠活动16核16G仅需1588/年
全球AI顶会 NeurIPS 2024温哥华开幕,中国校企上百篇论文被收录