关于 Sora 持续刷屏,还有哪些你需要知道的信息?一起看看答主们的分享。
Sora 的基本原理是什么?
| 答主:平凡
首先,我们先来分析一下视频到底是什么,拿 Sora 生成的这个猛犸象视频,当我们把它放进剪辑软件里面,可以很清楚的看到视频其实是由一张张图片组成的。
一般最少是 12 张,多的会到 24 帧,甚至会更高,计量单位是 fps,也就是 frame per second (每秒的帧数)。最明显的区别就是流畅度,你可以很明显的看到,同样是起跳到,然后到最高处,高帧数会比低帧数更为流畅,也更丝滑。一般的视频 24FPS 就行,因为人的肉眼是适应这个帧数的,更高的有 144 的,但也有个限度,否则再丝滑也感受不到了。话说回来,视频是由图片构成的,然后图片生成技术在去年发展的飞快,比如 Midjourney,Stable Diffusion,Dalle-3 等等,都可以用来生成各种图片,比如 Dalle-3 画猛犸象,非常的容易。但是 Sora 最大的贡献就是让生成的图片非常的连续,也就是一致。比如我们看一下猛犸象视频的第二秒和第八秒。可以仔细看下图片的背景,包括雪地、后门的树林以及左边的雪山,是不是几乎看不出什么变化来。另外你也可以注意一下第一头象,它头顶上的那撮毛发,是不是过了 6 秒钟还依然很一致?这就是 Sora 牛逼的地方,因为生成图片不难,按照提示词生成图片也不难,难的是如何生成一大堆连续的图片。这个难度是这样的:Sora 可以生成 1 分钟的视频,一分钟= 60 秒= 60 * 24 = 1440 帧= 1440 张连续的图片。Sora 是不是 world simulator (世界模拟器)?simulator (模拟器)这个词更多出现在工程领域,作用与 world model 一样,尝试那些难以在现实世界实施的高成本高风险试错。OpenAI 似乎希望重新组成一个词组,但意思不变。Sora 生成的视频,仅能通过模糊的提示词引导,而难以进行准确的操控。因此它更多的是视频工具,而难以作为反事实推理的工具去准确的回答 what if 问题。甚至难以评价 Sora 的生成能力有多强,因为完全不清楚 demo 的视频与训练数据的差异有多大。更让人失望的是,这些 demo 呈现出 Sora 并没有准确的学到物理规律。已经看到有人指出了 Sora 生成视频中不符合物理规律之处:我猜测 OpenAI 放出这些 demo ,应该基于非常充足的训练数据,甚至包括 CG 生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI 认为 Sora 证明了一条通往simulators of the physical world 的路线,但看起来简单的堆砌数据并不是通向更高级智能技术的道路。既然做出 Sora 不是特别难,那为什么又是 OpenAI 先做出了 Sora 。正好我们自己从去年 10 月开始做视频生成,在技术路线选择上和 Sora 基本一致,从一开始就坚定地 all in diffusion transformer,也训练了自己的 video autoencoder,可以说 Sora 有的组件我们都做了,但结果和 Sora 有一些差距。Sora出来之后也做了一下反思。- 技术发展的速度比想象中快很多。当时我们开始做视频生成的时候,没有 Pika 也没有 SVD ,可能只有 runway 能生成一些视频。我们当时的判断视频生成技术爆发需要1年左右的时间,中间 Pika 和SVD 出来的时候,我们觉得整个领域加速了,时间会缩短半年,但是没想到仅仅 3 个月 Sora 就出现了。这个期间和很多周边在做和关注视频生成领域的 researcher 和创业者聊,我们一开始所谓的 1 年时间技术爆发已经是很乐观的估计了(大概90%的人都觉得会比这个时间更晚)。所以我们一开始觉得可以先花点时间做探索,做技术积累,比别人还有一些领先优势,但是其实一开始就应该是刺刀见红的状态去做这个事情。以后做技术预判的时候可以直接把估计的时间除以 2 或者除以 4,基本不会有大问题。
- 需要把目标定高两个台阶。这个和对技术的发展速度的判断是相关的,因为觉得技术没那么快成熟,所以我们一开始的目标是半年内做到显著优于 runway,pika 出来之后目标调整为显著优于 pika。大概两个月的时间我们做了第一版模型,基本和pika comparable,年终总结的时候觉得只要一两个月就能显著优于 pika,还在为目标能提前达成沾沾自喜。然后规划了在未来 6 个月内做三件事:1. 用更多的高质量视频数据,包括合成数据和打标数据;2. 把时长从5秒做到1分钟;3. Scale up diffusion transformer。结果一个月后 OpenAI 就放出了 Sora,这三件事别人都已经做完了。下次定目标和计划就应该直接过第二阶段的当作第一阶段的目标来 push,不然只能按部就班。
- 做更多「因为相信所以看到」的事。某个大佬说因为看到所以相信很好,但更难的事因为相信所以看到。Ilya 对 GPT 是因为相信所以看到。而我们对 ChatGPT 或者视频生成,相信大多数人(包括我自己)都是因为看到所以相信的。Sora 出来之前,大家对diffusion模型能不能 scale up 都有疑问,Sora 出来之后就变成视频模型是 world model 了。既然我们在 10 月份就相信 diffusion transformer 可以 scale up,那就应该凭着这份相信直接上大规模的卡去训练下一个时代的视频生成模型,而不是只用几百张卡做小规模探索。几百张卡可能是大模型创业公司算力的 1%,但 OpenAI 算力的 1% 是上千张卡。想要比 OpenAI 做的快,只能凭借这份相信取用公司 10% 甚至更多的算力。
Sora 刷屏,人工智能逐步改变世界的当下,人文主义的价值该如何体现?我之前在谈 ChatGPT 的时候,举过这么一个例子,假如你很有钱,可以把天底下所有的学者都聚集在一起,搞一个碳基矩阵式自交互智能系统——这个系统不仅可以回答你各方面的问题,甚至还可以直接下场为你处理各种各样的问题,请问你会觉得自己的「价值」丧失了么?恰恰相反,对于绝大多数人来说,他们非但不会感觉到自己的价值丧失,甚至还可能感觉到前所未有的解放。因为在这种情况下,只需要一句话,自己的疑问就可以得到解答,并且自己还可以直接让人去处理事情,那么这个人就可以专注于做自己想做的,去思考一些更为终极的问题。那么,显而易见,在这个模式下,天下的所有学者都是你的「工具」。他们存在的价值就是帮助你思考好做各种事情。也可以说,你能把天下的学者聚集在一起,利用他们的思考成果让自己有更深的思考,这本身就是一种高级的人文思考模式。Sora 出来之后,大家如何防止自己被别人数字化?- 出门戴口罩、帽子、墨镜(对抗 sora/sdv/etc),减少人像样本,所有的带活体识别或者人脸识别的应用都不用啦。
- 不管是有人找你说话还是手机应用有录音之类的需求,你都:「阿巴阿巴」,或者保持一种低沉声调(对抗 sovits),让它采样不足,或者采样样本不正确,和你有较高偏差。
- 至于 RAG / RCG,减少对外输出文本,实在喜欢写字的,用本地的记事本或者明确不参与训练的应用写字。
- 一定要对外输出的,用火星文写,或者竖着写字,从右至左顺序写(对抗 llm + vector search)
让你的数字分身留在这个世界,继续进行探索真的不 cool 吗?