()4月28日 音讯:在中关村论坛的Sora未来野生智能先锋论坛中 ,生数科技与清华大学携手,清华正式推出了中原首个具有长时长 、团队高一致性及高静态性的国产正规的出国劳务公司视频大模子——“Vidu”。 这款引领时期的火生视频大模子 ,其中心在于团队原创的数科Diffusion与Transformer融会的U-ViT架构
。它不只能一键天生长达16秒
、技宣清晰度抵达1080P的布视高清视频,更能在师法真正物理天下的Sora同时,展现出惊人的清华想象力。多镜头天生、团队出国劳务资质商务部查询时空高度一致,国产这些都是火生Vidu的特殊魅力
。 值得一提的数科是,Vidu自觉布之后,技宣便在全世界领域内赢患有昭著突破
,正规出国劳务中介查询其性能与国内顶尖水准比肩
,并仍在一直迭代优化中
。这一造诣,离不开团队在贝叶斯机械学习和多模态大模子畛域的深挚累积和多项原创性效果。 尤其是团队于2022年9月提出的U-ViT架构 ,作为全世界首个Diffusion与Transformer的日本求人融会架构
,为Vidu的降生奠基了松软前提 。随即
,在2023年3月
,团队再次抢先,开源了鉴于U-ViT融会架构的多模态散布模子UniDiffuser,顺利验证了U-ViT架构的大领域可扩张性
。 鉴于对U-ViT架构的透彻明白和雄厚的工程、数据体味 ,团队在极短的时刻内占领了长视频意味与解决的多项症结手艺难题,进而研收回了Vidu视频大模子。这款模子在提升视频联贯性和静态性方面展现卓越 ,进一步推进了视频解决手艺的生长。 Vidu的问世
,不只再次验证了U-ViT融会架构在大领域视觉恣意中的卓著性能,也展现了生数科技在多模态原生大模子畛域的延续立异威力和行业抢先职位中央 。作为通用视觉模子,Vidu能够天生越发千般化、更长时长的视频实质,其天真的架构也将为未来兼容更普遍的模态、拓展多模态通用威力的界限提供有限能够。 要求所在: https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph