抖音做了一件几乎没有其他国内互联网大厂会做的事情:在最大程度上,公开了抖音的算法规则。

被公开的那些信息有多详细呢,从技术原理到具体模型,甚至是计算公式,全都图文并茂的逐一做了解释,足以作为一本入门级的科普读物出版。
除了在已经上线的「安全与信任中心」网站汇总之外,抖音还在北京办了一场线下公开课,让算法工程师担当主讲者,深入浅出的把所有细节又复盘了一遍。
抖音固然有它的压力所在——算法因其黑箱性质越来越从抗压位向背锅位转移——但是为了打消社会疑虑,抖音能够事无巨细的把算法摊开到这种地步,还是比较少见的。
而这逐字逐句的看完所有内容之后,可以这么说,当前市面上绝大多数非技术类媒体所讨论的算法问题,都是错的。
这里的错,首先指的不是主观意义上的歪曲,而是过时。
答案是:基于特征向量的数学统计。
机器学习领域的顶级专家吴恩达教授做过一个系列的「MachineLearning」课程,里面也讲过机器学习对推荐算法的主要贡献在于建立评分系统,在海量算力和海量供给的环境里,可以无限接近给用户推荐以他为标准的高评分内容的目标。
在炙手可热的大模型行业,「预测」也是一个非常熟悉的运行原理,ChatBot对答如流背后,实际上是在不断「预测」下一个Token,AI并不真的懂得它在说什么——所以才经常有分辨不出9.11和9.8哪个数字更大的笑话——所有的输出表达,其实都是以最大的概率把字词组合在一起罢了。
至于为什么算法变成了包括抖音在内的几乎所有平台都必须使用的分发技术,这还是和信息爆炸的环境有关。
这里面有个非常生动的概念,叫作「召回」,目的是把数量级降低,从数以亿计逐渐减少到数以万计、数以千计,直到筛选出几条用户能够刷到的内容,一切都要依靠算法的「召回」能力。
吴军博士在「数学之美」里讲过一个类似的科普:
假如足球世界杯刚刚结束,我却很不凑巧的错过了所有比赛,于是问一个知道结果的球迷「哪支球队是冠军」,但他不愿意直接告诉我,而是让我猜,每猜一次,他就要收一块钱,并告诉我猜得是对还是错,那么我需要掏多少钱才能知道世界杯冠军呢?
直率的人可能已经抢答了,世界杯总共有32支球队,最保险的做法就是猜32次嘛,所以运气不好的话,可能需要掏32块钱才能得到答案。
但数学的「召回」方式是,把32支球队编号,从1到32,然后提问「冠军在1号到16号之中吗」?如果猜对了,就继续问「冠军在1号到8号之中吗?」如果猜错了,那么我就会知道冠军必然在9号到16号之间。如此一来,只需要5次,我就能知道哪支球队夺冠了,而成本只需要5块钱。
这就是数学模型的本事,它并不需要知道这32支球队的强弱关系,却能以低且简洁的成本最大概率「召回」答案,对于通信、数据压缩、自然语言处理都有很强的指导意义。
所以,只有在对算法有了这些最朴实的了解之后——既明白它的深厚之处,也看得出基础性的常识——才会避免陷入动辄妖魔化算法的暴论陷阱。
最常见的误解,有三种,首当其冲的就是大名鼎鼎的信息茧房。
去年在和人民大学新闻学院副教授董晨宇的一期连麦里,我们也谈过信息茧房这个概念「中热西冷」的古怪现象,虽然它确实是由西方学术界率先提出的,但因缺少实证支撑,热度很快就退潮了,但是反而中国经久不衰,CNKI里关于信息茧房的论文数量更是超过了1300篇。
无论是不是因为信息茧房以其生动形象的画面感而激发了大众的警惕性,真正的问题是,其实平台根本不希望助长所谓的信息茧房,遑论主动制造信息茧房。
来自抖音的一手数据显示,如果顺着用户的单一喜好去做推荐,很快就会拉低用户的留存,相反,当内容推送的多元化保持一段时间之后,用户的活跃度却有了长足的提升。
这意味着信息茧房和平台利益本身都是相互冲突的,平台非但不会放任信息茧房的存在,还有充足的动力去打破信息茧房,这对算法的挑战在于「既要又要」:既要多给用户推荐别处的风景,又要维持精确度的平衡,不能强行替用户决定他该看什么、不该看什么。
第二个广泛的误解,在于算法是流量至上的,可以轻易「造神」。
其实这类论调的持有者,大可以和那些经常抱怨抖音规则严苛一言不合就封号的人打上一架……这种完全矛盾的两种体感同时存在,正好就说明了,抖音是对纯粹的算法有着干预护栏的。
不止是抖音,所有主流的内容平台都配备了机器+人工的双重治理机制,机器负责宽度,对上亿条新增内容进行合规筛查,人工负责深度,对疑难内容进行负荷,避免错判和漏判,当然抖音因其规模之大,在这方面的投入只多不少。
无论如何,抖音能把信息公开的主体责任落到实处,对所有人乃至整个行业,都是大有裨益的,先有知情,才会知道,技术固然有门槛,但它从来不是洪水猛兽,也不必总是讳莫如深,打开天窗说亮话,永远是值得鼓励的。





