近日,智谱宣布开源其旗下的清影图像转视频模型——CogVideoX-5B-I2V,以及配套的视频内容标注模型cogvlm2-llama3-caption。(用户可以在网上直接体验)
这一举措无疑为视频创作领域带来了新的可能。
其中,CogVideoX-5B-I2V能够根据单张图片与用户提供的提示词生成视频内容,而cogvlm2-llama3-caption则可以将视频中的场景转化为文字描述,为视频内容的后期处理提供了便利。
然而,对于这两款新工具的实际效果,网络上的声音却是众说纷纭。
一方面,不少用户体验后给予了高度评价,称其为“令人惊叹”的技术革新。
另一方面,也有用户在尝试多次后,最终还是回归到了CogVideoX的旧版本,他们认为之前的版本更为稳定可靠,并表达了对旧版模型的偏好。
那么,这款新发布的CogVideoX-5B-I2V究竟表现如何?让我们通过一次简单的测试来寻找答案。
测试准备就绪,我们将尝试输入一段提示:“咖啡店员微笑着用双手迎接顾客,交谈时动作自然。”(这里再次触及了‘手部’表现这一经典难题)
http://www.qbitai.com/wp-content/uploads/2024/09/SaveTwitter.Net_hZfswJ_XwF91qWre_480p.mp4