快手宿华：我们7年累计50亿条视频，靠 AI 提升长尾用户的幸福感_水煮娱_科技头条

快手宿华：我们7年累计50亿条视频，靠 AI 提升长尾用户的幸福感水煮娱

砍柴网 / 李程程 / 2018-05-27 10:51

对快手来讲，我们是要构建一整套的以AI技术为核心的基础设施，能够用科技的力量提升每一个人独特的幸福感觉，能够让每一个人更多更好的感受这个世界，也能够更好的被这个...

快手创始人兼CEO 宿华

上周，快手上的视频总数已经超过了50亿，如何让这50亿视频与观看视频的用户进行匹配是一个前所未有的挑战。在过去，业内常规的做法是运营好长尾曲线中头部的“爆款”视频，但快手表示，希望尾部视频同样能被感兴趣的人观看。

在上周日，2018年中国图灵大会上，快手创始人兼CEO宿华出席，发表了以“AI 如何提升幸福感”的主题演讲，分享了快手在人工智能最新的探索与应用。

大约12年前，宿华加入了谷歌，开始接触、学习和应用机器学习技术。在谷歌，他一直在研究如何尝试利用AI和机器学习，解决信息匹配和信息分发的问题。

宿华认为，之前的视频平台不是那么需要 AI，是因为视频的数量没有达到一个量级。如果每年只新增两百部电影、三百部电视剧，可以通过人工标注的方式把它分析和理解的特别清楚。但是，假如每天新增千万级的视频，面对50亿的生活片段，是不可能去依靠人工编辑和传统的媒体板块去分发，也无法照顾到长尾的用户。

在宿华看来，“记录”本身是能够提升幸福感的。每个人心中都有一个渴望——看见别人和被别人看见。幸福感需要让我们每一个人都可以看见，被这个世界发现，能够让自己的情绪情感被别人知道，被人感知，被别人看到和理解。

他表示，快手最想做的事情，是要构建一整套的以 AI 技术为核心的基础设施，能够用科技的力量提升每一个人独特的幸福感，能够让每一个人更多更好的感受这个世界，也能够更好的被这个世界所感受到。

当要照顾每一个人的需求，尤其是长尾用户的需求时，就需要依靠人工智能。快手将 AI 主要应用在四个环节：内容生产，内容理解，用户理解和视频分发。

今年4、5月份，快手上线了一个魔法表情、肢体识别舞蹈游戏以及 AR 模型特效。这些特效背后，涵盖了人脸关键点、背景分割、人体姿态估计、视觉惯性里程计等人工智能技术。为了支撑这些技术，快手自主研发了 3D 引擎及 YCNN 深度学习推理引擎。即便使用低配置的手机，算法与模型依然可以高效快速运转，让更多用户的记录过程体验更加丰富有趣的玩法。

快手会通过大数据去理解每一位用户的兴趣偏好，同时，得益于快手是一个分享社区，快手的用户理解不仅基于内容，还基于行为数据。每天有上亿的用户在进行“数据标注”，包括点击点赞、关注转发、播放时长、用户关系等，交织成了网状的关系，帮助快手来更好的理解用户，除了用户兴趣偏好，更理解用户潜在的兴趣，帮助用户挖掘探索更大的未知领域。

在未来，快手还将探索 AI 诸多方向，例如，通过多模态信息融合的视频理解器能够像人类一样理解一个视频，理解人类复杂的情绪。

“如何把用户的行为数据和内容清晰组合在一起，特别是把内容里面的视觉，加上时间轴以后进行连续的视频分析，再加上深度的分析，用户的行为分析，整个多模的集成组合在一起，也是一个非常有意思的课题。”宿华说。（本文首发钛媒体，作者/李程程）

以下是宿华的演讲全文，略经钛媒体编辑：

大概12年前，我刚加入谷歌，开始接触、学习和应用机器学习的技术，主要为解决搜索引擎当中的一些问题，学了很多前人的推导公式，学了很多的模型、思想。后来我思考，AI应该用来解决什么样的问题，不是数学上的问题，而是说为社会、为人类应该解决什么问题？

想了很长时间，有了一个答案。在这些年实践的领域中，我想明白了，不管我们做什么样的技术，最后都应该用于提升人类的幸福感，或者是做到幸福感的改善。AI当然是当下最火最热的技术，下面我给大家分享的就是，我这些年是怎样去用AI解决幸福感的问题。

“记录”可以提升幸福感

首先，我们发现“记录”是可以提升人们幸福感的。因为每一份记录都有两类人：一个是记录的产生者、记录者，一个是记录的观察者。

对于观察者来讲，通过别人的记录可以看到更广阔的世界。在城市里可以看到乡村农产品生产，在乡村里可以看到国外的世界，土耳其的热气球。非洲的小孩可以和中国人交朋友，在日本的留学生可以和自己在中国的家人、朋友交流。

我们想每个人心中都有一个渴望，一个是看见别人，一个是被别人看见。我们希望自己的状态，自己的情感，自己的灵感，能够被更多的人看见，被更多的人理解。我想，记录是其中最关键的一环，是能够使得每个人幸福感都得到提升的可能的方案。

快手是2011年成立的，我们干了7年的时间，一路上经历了非常多的挑战，经历了日活在1亿量的网络社区。我们怎么做的呢？

我们在用科技的力量去提升每一个人的幸福感。我们在尝试让每一个人都能够记录自己的生活状态，每个人都有机会留下自己的记录呈现给这个世界，每个人都能够让世界发现自己，每个人都能够因此消减一点点的孤独感，提升一点点的幸福感，从而能够提升整个社会幸福感的总和。

我们在这条路上已经走了七年的时间，直到上周，我们大概累计有50亿条视频。50亿条视频是什么概念？

这里面是快手用户，平均每天能够产生一千万到两千万条视频。中国有两千多个县，我们能够拍到每个县，在座的各位你们的家乡每个县都能够看到数千条量级的视频。用户在任何时刻打开快手，都可以看到任何一个地方。这50亿条视频，几乎都不重复。并非某些视频的库虽然很大，但是大体是同一个电影、或者综艺的剪辑。在快手产生的、留下来的50亿条视频，都是生活中活生生的、新鲜的生活状态，形形色色的人，形形色色的事。

AI 如何理解长尾用户生活片段

我们刚才讲，其实幸福感需要让我们每一个人都可以看见，被这个世界发现，能够让自己的情绪情感被别人知道，被人感知，被别人看到，被别人理解。但是，50亿的量级是非常庞大的量级，我们过去的视频平台，库里每天新增的视频从来没有突破过千万量级的，这在历史上都是没有过的。

所以在座的这些内容、这些视频，和那些观察者之间匹配的时候，实际上以前说照顾好头部就可以了，可是面对50亿的生活片段，我们怎么把长尾的用户照顾好，真的能够让每一个人都得到一些关注，每个人都消减自己的孤独感，这实际上是非常艰难的课题。

我在十几年前，在谷歌的时候就研究这个问题，我们做很好的匹配，做很好的信息的分发。实际上我们整体是在用AI，用机器学习的技术在尝试去解决。

历史上的其他的视频平台不是那么需要，特别是每个视频数量没有那么多的时候。如果每年只新增两百部电影，三百部电视剧。每一个电影、每一个电视剧，或者每一个综艺节目，我们都可以用人工标注的方式把它分析、理解的特别清楚。但是，每天新增千万量级视频，不可能找人标出来，也不能找编辑去像传统的媒体按板块分发。我们想要去照顾长尾用户、想要去照顾每一个人，这样的平台，我们更加无法挑选那些头部的，极少数的热的视频给大家看。

那么我们的解决方法是什么？是用AI，应用在四个环节。第一个环节内容的生产，是记录的产生环境。第二个环节，如何让这些人去理解视频。

我是80后。80后从小就喊理解万岁，我相信理解也是机器今天能够做的一个主要的方向之一。让机器像我们人类一样能够理解这个世界，能够理解每一个人，让机器理解每一个生活的片断，这也是快手公司在做的事情。

基于这样的理解，我们后面才会有整个很好的分发，有一个更好的平台去照顾到每一个人。我们理解每一段视频，每一个视频片断，我们要理解每一个用户的偏好，理解每一个用户潜在的偏好，最后才能做一个很好的分发视频。

第一个模块在记录，今年4月份、5月份快手上线的一个魔法表情，能够快速模拟一个人，从年轻到老去的过程。第二个是整体的姿态检测，里面还有AR的玩法，实际上他背后是基于我们自己研发的一套3D系统的AR系统，我们YCNN的深度学习系统，这个深度学习系统它的核心优势就是能够在非常低端的手机上，跟我们一起实现跨平台，不止在安卓、iPhone上运行的效率提高，同时能够把模型做得非常小，速度做得非常快。最重要的是做了非常多的视频中的记录的玩法，解决人体姿态识别的问题，人脸关键点检索问题，视觉惯性里程计，还有手势识别。

让机器理解这些视频是什么内容，当一个生活的片断上传过来以后，我们立即会将一系列的信息拿掉，比如检测有几个人，进一步需要检测是男人还是女人，是老人还是小孩，是中国人还是外国人，能够把之间的关系理解，就变得越来越难。

我们除了跟人有关的识别，还做了大量图像方面的，有场景的识别，是在会场还是在操场，是在家里或办公室，我们做了很多的场景识别。更进一步、更难一点的，在做饭、做菜，还是在钓鱼，各方面场景的场所，还有他正在做的事，是在赛车，还是在大马路上骑自行车，还是卡车、轿车，有更多的更高级的识别。当然我们还做了颜值识别，比较好玩，目前线上还没有这个应用。

这其中还有和语音有关的理解，就是我们经常发现一个视频，他里面很多信息是包含在音频里面，特别是传递情绪，人类的很多情绪是在声音里面，再转化为语速、语调起伏，或者他用得配乐，就是音乐本身的情感属性，我们做了大量的音乐的结构化的理解。

我们最高的并发大概是20万，在快速的语言里面，有几十万的并发的、实时的语音识别的需求，我们到现在为止，还是仅用自己自研的，因为20万的并发率，对机器的要求特别高，找第三方的话，不愿意投入机器。

另外，快速的语音识别还有一个难点，我们的场景是生活场景，它不是收音干净的。在生活中可能有两个人在说话，可能有汽车在叫，可能在操场里面，或者在教室，整个是一个复杂的场景，这里面我们怎样能够做到最好的，速度要最快的语音识别，几十万部的并发识别，对我们来说也是一个非常大的挑战。

从全球板块来讲，我们会接受一定程度上的识别率的下降，但是要让性能和让场景的适应性更好，这是快手目前面临的问题之一。在底层，我们有自己研发的，一个大规模并行的机器学习的平台，是做模拟训练和推理，也包括做一些数据的标注。

当然对快手来讲，我们做视频内容的理解，很大程度上得益于我们是一个社区，社区里面每天有上亿的人在帮我们标注，他们的点击点赞行为，他们的关注行为，他们的转发行为，他们的播放时长，他们人和人之间相互的关系，网状的关系，就在帮助我们更好的理解用户。我们不是纯粹从内容出发的，我们还有行为数据。

但是，如何把用户的行为数据和内容清晰组合在一起，特别是把内容里面的视觉加上时间轴以后进行连续的视频分析，再加上深度的分析，再加上用户的行为分析，整个多模的集成组合在一起，也是一个非常有意思的课题。

AI 如何探索社区用户的兴趣边界

第三个部分是理解用户，当然这里面的用户并不是内容的记录者，是指看内容，当你拿出你的手机，打开一个APP的时候，我们希望帮助你发现这个世界，这时候对平台来讲，我们需要理解你的兴趣偏好，更主要的我们还需要理解你潜在的兴趣，就是你过去还没有探索过，但是你可能会喜欢的方向和领域把它挖掘出来，才能帮你探索更大的未知领域。

在快手，我们也是得益于我们做的是一个社区，举个例子，其实在日常生活中，我们怎么去扩展自己的兴趣偏好，一个是随机的，不小心看到的、很好玩的。比如我当年为什么会选择做AI，真的是不小心碰到了有一个团队在做机器学习的应用，我跟他们聊了以后很感兴趣，从此走上了这个路，这是一个非常随机的状态。

还有一个做法是问朋友，比如在你的朋友圈里面，或者你的室友、你的同学，到处说我昨天打了棒球，很好玩，你要不要一起来玩一下，我刚学了一个C++语言不错，要不要一起来学一起，朋友告诉你，帮助你扩展你的兴趣偏好。

在快手我们利用类似的逻辑去做，就是在一个大的社区里面，总有那么一些人跟你很相似，但又不完全一样，跟你相似又关注他们喜欢的东西，他们喜欢的那些跟你偏好不一样的东西，你极大的可能会喜欢，我们尝试去扩展兴趣的时候，去理解一个用户群偏好的时候，我们会应用到里面，尽心去做，这样可以帮助每一个人，你不是一个人在探索，是有社区里面成千上万的人跟你相似又不同的人在探索，同时你帮助其他一些跟你相似而不同的人去探索，这样我们可以更好的理解一个人的潜力。

接下来就是视频分发，我们的记录能够更好的产生，在内容、视频、生活片断中会最好的理解，在用户的偏好，潜在的兴趣，能够可以更好的挖掘的基础之上，我们才能做一个更好的分发系统。这个分发系统可以真正照顾长尾，能够让更多的人找到自己喜欢的人，找到喜欢自己的人，能够让更多的人被看见，让我们看见更大的世界。

我们现在已经进化到的用实时的方法做整个的日志系统，可能有同行知道，早年我们都是用一些偏Linux的方法去做，到现在线上已经能够实时的运行深度学习的方法，并且还不是一个模型，可能是一个层叠的组合的复杂的模型。但是，事实上能够做到标值的响定，用户的每次行为，事实上在一秒钟以后，就能够反应到视频中去，能够给用户更好、更准、更广阔的世界，等待用户去发现。

未来我们还有很多想要研究的方向，这里面列了其中一些，我自己最感兴趣的是多模态信息融合的视频理解，我觉得总有一天我们的机器能够像人类一样理解一个视频。我自己有一次看到一个特别有意思的视频，那个视频很短，是一个男生和一个女生走在一起，拥抱，然后分开。看到那个视频的时候，我是能够理解他们是一对情侣，他们应该是最后一个拥抱，不清楚什么原因分开了。

我当时就想说，是不是机器有一天也能够理解到这一层，我在理解这个视频的时候，我发现有两个人，我发现他们拥抱了之后，发出的声音是包含了非常悲伤的情绪，他们分开的时候又很决绝，我们就得到了这样一个结论。也许有一天我们做的人工智能系统，能够像我一样，像人类一样去理解生活中的片断，能够更好的理解人类的情绪、情感，甚至是灵感。我很期待那一天的到来。

对快手来讲，我们是要构建一整套的以AI技术为核心的基础设施，能够用科技的力量提升每一个人独特的幸福感觉，能够让每一个人更多更好的感受这个世界，也能够更好的被这个世界所感受到，这是快手最想做的事情。

谢谢大家。

作者：李程程