爱收集资源网

快手:人工智能的一步积累

网络 2023-08-30 19:05

快手是怎么一步一步积累人工智能?机器之心访谈了快手多个业务部门的老兵,希望还原人工智能在快手从0到1的全过程。

在CVPR上见到的快手,和我印象中的不太一样。

CVPR,全称IEEE国际计算机视觉与模式辨识大会,在计算机视觉领域是和ICCV、ECCV并称的三大顶级大会。去年的CVPR于当地时间6月16日在日本加洲苏梅闭幕,吸引了超过9000多位参会者、284家赞助商、和104家展商。

这是快手第一次出席CVPR。在一个大概40平米的展区,快手展示了一款基于人脸特点辨识的demo,能在海量的视频库中找到与参会者外貌相像的用户。这饱含趣味性的demo很快导致了参会者的注意,人群熙熙攘攘地集聚在展厅周围,想要一睹她们的「双胞胎」到底长哪些样。

最令我印象深刻的是一位穿着白色短裤、短发络腮胡的小伙子,因为匹配结果太像,引来围观群众哈哈大笑。

这些新奇的体验,让我对快手的人工智能形成了兴趣。我曾有过刷起快手就「昏天黑地」的日子,也晓得「记录世界记录你」、「老铁双击666」的这种快手流行语,这款短视频应用给我的生活带来了甚少乐趣。只不过,快手的人工智能虽然未曾认真地被摆在台面上讨论过,起码比起活跃在闪光灯下的其他中国科技公司们—BAT、TMD、或者是商汤、旷视、依根河。

只要仔细想想,比起大多数中国科技公司,快手更应当依赖人工智能。成立8年至今,快手的日活人数早已超过2亿,公司业务涉及生产、审核、分发、消费,处理海量数据的需求,以及快手自身业务的特点,没有机器学习的支撑是很难走到明天的。

快手是怎么一步一步积累人工智能?带着这样的问题,我专访了快手多个业务部门的老兵们,希望还原人工智能在快手从0到1的全过程。

第一支深度学习团队

2015年12月,彭博社发表了一篇文章,标题是「为什么2015年是人工智能突破的一年」。

这一年,人工智能满地开花。微软开源了机器学习平台TensorFlow,一跃成为全球最大的机器学习平台;之前不被人看好的亚马逊智能耳机Echo,早已抢占了整个音响市场销量的25%;10月,一个称作AlphaGo的智能体首次战胜了专业的象棋选手。谁也不会想到,这个智能体将在不久的未来掀起巨大的科技浪潮。

1月至12月,全球超过300笔投资涉及人工智能领域,几乎每天都有人工智能初创公司获得融资的新闻;人工智能在中国同样遭到了资本的追逐。按照毕马威的报告,2015年,中国人工智能的投资总量达到了450.7万元,环比下降306%。

就在这样的大背景下,2015年年末,快手向深度学习迈出了第一步。创始人兼CEO宿华找到了李岩,希望他能成立一个深度学习部门(DL组),用算法严打盗版和违法内容。当时的快手早已拥有超过1亿的安卓和iOS用户,用户分布在北上广等一二线城市和众多三四线城市。

宿华

保证内容安全和原创几乎是每一个视频类应用的刚需。过多的违法内容会挤压内容生产者的流量,从而击溃整个平台。换句话说,这是关乎快手生存与否的底线。

被宿华委以重担的李岩,结业于中国科大学估算技术研究所,是快手的老职工,工号75上下,初期在视频安全方面颇具建树。2015年11月,李岩成立了一支十人不到的团队,目标是秒量级别内下线违规违法的内容,包括情色、暴力等;以及辨识出非原创的、盗版的视频内容。

快手买双击平台_豆客平台双击进不去_安卓版快手刷双击免费

为了招人,李岩试过各类办法,甚至在知乎找寻人才。当时有研制人员不了解快手,有工程师只是由于快手离家近就来笔试一下,但笔试完以后被快手做的事情所吸引,就决然选择加入了快手。

在技术积累的过程中,快手对视频内容理解形成了更多的需求:视频里的人在说哪些?场景在那里?想要抒发哪些内容?深度学习部门也不再局限于解决视频的安全或版权问题,而是希望帮助快手「老铁」们更快地找到她们喜欢的内容。

深度学习部门当时只有图象和音频这两个单模态内容理解团队,但视频理解出身的李岩深信多模态内容理解对快手这样一家短视频公司非常重要。在2018年的一次公开讲演中,他举了个反例,「一个女子演出口技的视频中,假如关掉声音,仅凭画面信息,我们并不晓得他是在做哪些,可能会认为是在跳舞或看戏。这说明假如仅仅是通过视觉的话,你可能难以获得真实的信息。」

「视频是视觉、听觉、文本多种模态综合的信息方式,而用户的行为也是另外一种模态的数据,所以视频本身就是一个多模态的问题,再加上用户行为就更是一种愈加复杂的多模态问题。所以多模态的研究对于快手来说,是十分重要的课题。」

2016年,深度学习部门开始涉猎语音、文字、音乐等多种媒体方式。李岩决定,将团队的名子从深度学习组改为多媒体理解组(Multimediaunderstanding,简称MMU)。

这一年随即被叫做短视频元年,资本纷纷涌向这一风口,市场65%资金投入到了短视频内容创作方,垂直细分领域的短视频内容更是达到了76%。

而在此后的2017年年初,完成3.5亿港元融资的快手,率先从短视频领域的「厮杀」中脱颖而出,总用户和日活跃用户分别达到4亿和4000万。到了月底,这两组数据分别下降至7亿和1亿,日均上传视频量则超1000万条。快手团队规模也从200多人扩展到800多人。

也是从这时侯起,MMU组快速扩张,每位单模态组都引入了业内的顶级人才来做算法优化和工程落地。原本,不同模态的业务组单独发展,到了2018年,各组的算法开始进行融合。

多模态理解的挑战

作为快手的第一支深度学习团队,MMU组面临着巨大的挑战。

过去几年,单模态内容理解能力在学术界还不够成熟,加念书术界对视频理解没有强烈的研究需求,造成一直没有产生一套针对视频理解的求解方案。在工业界,虽然是全球最大的视频平台YouTube,也由于其视频带有丰富的文本信息—标题、简介、标签,可以一定程度上避开视频理解。

但快手不同。作为一款联通互联网时代盛行的短视频应用,快手给用户提供轻便新颖的拍视频体验,用户喜欢拍完就传,不爱文字编辑,描述视频的文字信息严重缺位。快手又须要理解内容来做推荐算法,视频理解成了一个绕不开的坎。李岩说,快手是较早对视频内容剖析形成强烈刚需的公司。

复杂的应用场景和多元的用户分布给MMU带来了另一个维度的挑战。负责视频理解方向的朝旭是MMU组的老职工,他给机器之心举了一个反例:快手上有好多风景的视频内容,有些景象很美、有空灵感的画面仿佛「仙境」,这么快手的标签里就须要描述「仙境」这类景象;并且在学术界的数据集上面,你是不会听到这些「诡异」的标签。

「这不再是一个具体的分类算法问题,而是说你如何去定义一个合理的标签体系。」

语音组最直观的问题是土话口音。MMU语音组的月朗介绍说,快手用户的地域分布结构和中国联通互联网的人群分布结构基本一致:一线城市人口占比只有7%左右,另外93%的人都生活在非一线城市,非常是许多小镇青年、或者是三四线以下的人们说话,都带有很强的口音,这就须要快手搜集特定土语区域的语音和文本数据。

音乐组面临的一个困局是给用户跳舞打分。传统的歌唱打分是将用户所唱的歌曲和原唱音频做对比,匹配度越高分数越高。但在快手,许多用户是来自边远地区的少数民族,她们所唱的民歌山歌在快手的检索库里根本找不到。

「我们如今要求解的不是1+1等于2的这个问题,而是你在算1+1的时侯,你发觉连纸和笔都没有,」朝旭说。

经过三年的摸索,MMU组基于多模态技术,逐步产生了两大业务体系:信息分发和人机交互。后者借助多模态实现精准地视频内容理解,前者借助多模态来辅助人们更好地记录生活。

为了更好地理解这两个方向,我们各举一例:冷启动项目属于内容分发,指的是在用户在刚打开快手app时,不仅内容和视频中的人物,算法未能获得任何行为数据,由于用户打开快手的一个页面是「发现」而非「关注」,所以快手在冷启动阶段就要提供个性化的内容推荐。MMU组在2018年参与了优化冷启动的项目。

人机交互上,视频配乐是一个典型的多模态理解场景。MMU音乐组的水寒告诉机器之心,快手须要首先理解视频,包括人脸辨识、年龄性别、动作时间地点场景的辨识,之后对音乐的风格情感、节奏、主题、以及适宜度做场景理解,这个过程涉及到多部门之间的协作,包括视频理解方面、人脸辨识、自然语言处理、视频检索、音乐检索、以及最后的推荐算法。

算法优化带来的红利是明显的。2018年第2季度,快手app的月活跃用户数达到2.4亿人,日活人数过亿。这一年的4月,腾讯为快手追加4亿美金融资,致使快手的市值接近200亿美元。

但多模态研究给MMU团队带来的挑战并未就此减少。李岩说,多模态研究目前仍然存在三大难点:单模态的语义鸿沟会在多模态融合后,由于样本空间变大而进一步降低语义鸿沟;对不同模态之间的数据进行综合建模,会出现一个数据异构鸿沟;多模态的数据集无法建立,存在数据缺位的问题。

MMU接出来的目标是从低级的感知过渡到高层的语义理解,这也是李岩觉得的「目前工业界最难的问题。」MMU目前正在研制视频分级系统,为了更好地保护未成年人使用快手,这就须要算法对视频内容有更深刻地理解:一个视频抒发了哪些样的概念?透漏的是哪些样的情绪?

「我觉得视频内容理解是通向未来的人工智能大规模地在现实生活中爆发的关键技术,而快手在这个方面既有战场、也有数据。我们MMU应当是未来人工智能行业上面的关键力量,」李岩说。

快手的「GoogleX」

在MMU发展的同时期,快手也在大力发展其他部门,诸如负责音视频传输和质量保证的音视频技术团队、负责推荐的社科团队。和MMU一样,这种部门由业务驱动,以产品开发和技术落地为主。

在快手对视频理解技术在推荐、内容安全等方面的应用日趋成熟时,宿华希望成立一个专注在前沿算法的实验室,将诸如好莱坞的特效内容加入到用户的内容生产中,通过人工智能让用户获得新奇的体验。

于是,在2016年,宿华找到了自己在复旦学院的老朋友、美国哈佛计算机系博士郑文。在哈佛大学期间,郑文的研究方向主要集中在计算机图形学和影片特效方面,其导师曾两次获得奥斯卡科技奖。结业以后,郑文继续在日本从事机器学习和计算机视觉相关的研究。

郑文

2016年9月,在宿华的力劝之下,郑文归国加入快手,创立了Y-Lab实验室。郑文当时对国外媒体说,「我认为他想要做的事情挺有趣,跟我的经验也十分吻合,我自己也感兴趣,所以就回去了。」宿华没有筹建特定的考评标准,只要做下来东西好玩就行。

Y-Lab的初期职工、目前提高现实(AR)技术的负责人梦松向机器之心追忆了当初和宿华的一次对话。他说宿华想构建一个类似微软实验室(GoogleX)的科技部门,从事AI和AR领域的前沿技术研究和探求,为将来进行布局。

GoogleX是微软最神秘的一个部门,集聚了全世界顶尖专家,当初开发过微软最早的神经网路系统、谷歌墨镜和手动驾驶车辆(后来单独孵化出了Waymo)等项目。据国外媒体报导,Y-Lab中的Y代表着Young,Y是X的下一个字母,所以也代表着赶超X。

「我们如今在做的针对5G的技术研究、图像3D捕捉这方面,其本意是想在AI和AR上做到世界领先,」梦松说。

此后的三年时间,Y-Lab开发出了各类有趣、新奇的demo,覆盖AR特效、人脸关键点、手势辨识、语义分割、人体关键点测量等多个领域。

今年,Y-Lab的「AR上的人脸移植特效」就饱受网友好评,用户可以选定相册中的相片,把相册中的人脸转移到到AR三维模型上,生成出一个长着人脸的3D虚拟角色。

同样今年上线的魔法表情「快手岁月机」,能预测用户60年以后的模样,而且随着年份演示整个变化过程,引起了诸多网友的情感共鸣。这款魔表背后,似乎囊括了快手的动态人脸捕捉、基于时序的头部变型与美妆、头发分割与染色、动态控制变老等技术。

快手买双击平台_豆客平台双击进不去_安卓版快手刷双击免费

快手岁月机

为了让AI算法才能在不同的手机设备上运行,Y-Lab自主研制了一款深度学习推理引擎YCNN。负责人脸关键点研制的绣虎告诉机器之心,YCNN才能在手机端执行底层的神经网路操作(例如频域运算);构建一套量化流程,配合手机端代码推动推理速率同时不损失精度。团队做算法时也会依据YCNN的特性,有意识地设计相匹配的网路结构。

但是,Y-Lab遇见了许多企业实验室的弊病:优秀的前沿算法在转化为产品价值时后继头晕。因为Y-Lab本身的定位是前沿探求,对业务产出不高是预想中的事情。但作为企业实验室,Y-Lab不可能像学术机构那样做「阳春白雪」的研究,须要对业务带来贡献。

2018年,Y-Lab为魔法表情部门设计了许多新的底层算法,例如3D相片、天空影像、人脸关键点等等。并且,因为Y-Lab和下游的特效团队分属两个部门,之间的沟通问题造成整个魔法表情的上线流程不如预期,用户数据也不理想。

究其缘由,负责语义分割的晨星透漏,算法做好到真正的落在产品上还涉及多个部门。「我们(Y-Lab)只是集中到算法这一个层面,算法做完以后如何去落地,不是一个部门可以完成的。这样就出现一个问题,算法做下来以后,去和确保落地后的疗效是好的,假如不在一个部门,中间就沟通成本会比较高,算法最终下来的疗效不可控。」

今年年末,部门进行了一次调整来解决这个问题,将魔法表情部门的特效团队合并到Y-Lab,同时招募了几位计算机视觉相关的算法大牛,加入了产品总监,降低了产品设计和工程化的能力。

为了降低团队内部的沟通,Y-Lab不仅每周一开会之外,明年还新设了一个单元,称作「胜利大会」:职工集聚在一起分享这周的进展和成果,你们可以带着饼干有说有笑地开会。

据几位老职工透漏,部门调整以后,团队的沟通变的更顺畅。合并以后的第一个项目是做烫发特效,晨星所在的团队用深度学习做了毛发区域的语义分割算法,特效团队基于算法做了烫发的特效,上线以后用户数据的表现较好,也因而获得了公司内部的「闪电奖」。

烫发特效

作为此次结构调整的一个标志,快手即将将Y-Lab更名为Y-Tech。从Lab到Tech,背后是整个实验室定位的改变。

组织结构的调整对团队多少带来了影响。晨星说,过去团队的主要精力主要在研制上,现今也要关注产品落地的业务,负责的东西更多了。不过,他不觉得整个部门的基因有改变。「我们还是在跟踪最前沿的技术,做一些意愿性很强且潜力很大的事情。」

为了继续强化整个实验室的前沿探求能力,在这次结构调整中,快手给Y-Tech加入了一支主心骨——来自西雅图和硅谷的海外实验室。

算法背后的普惠价值

刘霁和王华彦在今年下半年加入快手,在谈到为何加入快手时,二人都不约而同地提及了价值观。

2018年年初,刘霁在上海国贸大饭店的晚宴厅上遇见了宿华,二人在那一年同时入围《麻省理工科技评论》中国科技青年英雄榜。刘霁当时是腾讯AILab的专家研究员、美国罗彻斯特学院的助理院长,因「让机器学习算法更确切更高效,探求人工智能潜力的边界」获得了发明家的称号;宿华则凭着在快手取得的巨大成功获得「创业家」称号。

二人此前未见过面,但和宿华交流过后,刘霁形成了加入快手的兴趣。「我们(指他和宿华)在做事情时,比较讲求逻辑。国外的许多公司还是习惯复制黏贴,但我认为他做事情是从解决问题本身,从原理上出发,这一点和我的方式论是一致的。」

今年11月,刘霁加入快手,兼任西雅图AI实验室和FeDA商业化实验室的负责人。

王华彦是哈佛学院博士,师从Coursera创始人&哈佛学院院长DaphneKoller。结业后,他加入了硅谷人工智能独角兽Vicarious的创始团队,一呆就是四年。

王华彦在2019CVPR快手展厅上

为了招募王华彦,郑文特地飞到硅谷和他进行交流。王华彦说,他能感遭到提高AI算法效率对快手有着十分急迫的需求。「快手希望在手机上可以用最先进的算法这些需求和我的研究兴趣—比如怎样样把AI的算法做到和人一样高效—是一样的。」去年7月,王加入了快手,兼任硅谷实验室的负责人。

虽同在海外,两个实验室的研究方向和定位不太一样:硅谷实验室的关注点在数据效率和估算效率,针对Y-Tech的产品业务。据王华彦透漏,硅谷实验室近日将会上线一个项目,才能做到在安卓上的模型版本达到和iOS一样的疗效,「举一个反例,虽然是在快手老铁的千元机也能呈现和苹果手机一样的美肤疗效。」

⻄雅图AI实验室目前关注端上模型压缩的前沿算法。去年,刘霁院士率领的快⼿研究团队和罗彻斯特学院合作,发表了两篇基于煤耗建模的模型压缩的论文,分别在ICLR2019和CVPR2019上发表。两种⽅法都是基于硬件模型的个性化模型压缩--让人工智能也能普惠到大量的高端机用户,第一篇ICLR2019论文主要通过权重级的细细度分株获得稀疏性,第⼆篇CVPR2019论⽂主要通过Channel级的粗细度分株获得稀疏性。

和学术界探求未知的可能性不同,刘霁的研究思路围绕快手平等普惠的价值观,即让每位人都有平等记录的权利。「我们和现今的许多学术论文最大的区别是,她们虽然是离线做的,不考虑实际硬件的局限。我们如今做的事情都必需要在⼿机端,数据讲求实时性。并且,许多快手用户的⼿机都是千元机,我们好多AI的功能都须要在这种高端的配置上运行,这对我们技术提出了更高的要求」刘霁说。

另⼀个刘霁院士负责的部门—FeDA智能决策实验室。这是与商业化团队构建的西雅图和上海联合实验室,主要专注在使⽤前沿搜索技术,高效精准的联接用户价值和商业价值。这也是在2018年10月,快⼿即将对外宣布开启「商业化元年」的⼤背景下建⽴的部⻔。多说一句,Fe指的是快⼿的特殊名词—「老铁经济」(FriendEconomy),它同样是物理元素符号铁建原子的简写。

据刘霁介绍,如今整个西雅图实验室目前⼗人左右,但「一个人支撑一个项目」。近来,FeDA为了广告推荐部⻔重新设计了基础估算设施,从主流的CPU的处理方法改成了GPU的解决⽅案,单机效率提高了600多倍;将加强学习应⽤到⼴告竞价,利润提高了5个百分点。

刘霁在2019CVPR快手展厅上

「极致」的意义

在2019年的快手峰会上,宿华和另一位创始人程一笑说了20次「追求极至」。宿华在晚会上指出,「希望每一位朋友才能有追求极至的精神」、「不追求极至,我们就赢不了」。

假如联想到近期快手爆光的一封内部信,就不难看出,向来硬朗和佛系的宿华为什么会在晚会上这么情绪兴奋。

6月18日,快手两位创始人的内部信被爆光,罕见地以措辞激烈的形式劝告公司职工,快手将「变革组织、优化结构,在2020年新年之前实现3亿DAU的指标。」

在这封内部信发布之前,快手仍然保持快速下降。2018年全年,快手日活下降了6000万,DAU达到1.6亿。前不久,快手总工裁王强宣布快手日活用户已超过2亿。成立八年以来,快手的职工数目早已超过了8000人。但快手的竞争者同样在加码。截止2019年1月初,抖音的日活数目早已超过了快手,突破2.5亿,月活数也早已超过5亿。

创始人在内部信中说,「看上去不错的数字背后,我们听到了深深的隐患:我们早已不是跑得最快的那支队伍,在长大的过程中,我们的胸肌开始显得无力,反应变慢,我们与用户的联接感知在变弱。」

「是的,我们对现况很不满意,松散的组织、佛系的心态,『慢公司』正在成为我们的标签。这让我们寝食难安。今年年末以来,从我们二人开始,快手管理层进行了深刻的反省和反省。」

据快手内部职工告诉机器之心,快手的各个部门早已开始步入战斗状态,不少职工自发地周二来到公司加班,甚至有些部门都出现了「996」的状态,这在过去的快手是比较稀少的。

豆客平台双击进不去_快手买双击平台_安卓版快手刷双击免费

技术部门并没有由于3亿DAU这个「大型KPI」而作出显著的调整,她们能做的就是像宿华说的那样去「追求极至」。

Y-Tech的梦松举了反例,「我们那边同时在研究许多前沿的新技术,立项要求是做下来要领先竞品起码三个月到半年的时间,这种技术都没有成熟的方案可供参考,甚至业界鲜有人在尝试,但你们都很有意愿和动力朝着这种方向努力。」例如,在混和现实领域,快手在探求适宜快手用户的产品形式,旨在于把先进的技术在用户的手机平台上实现,用算法带给用户新奇的体验。这是很有挑战性的项目,但毕竟这么,快手仍然要走这条路。

快手渥太华实验室的负责人王祥林告诉机器之心,他所在的音视频团队目前的一些工作,可能大部份内部职工都不晓得:快手正在参与制订新一代的视频压缩标准。与世界各大公司、高校科研院所一起,快手争取将自主研制的技术装入国际标准中,把握下一代视频压缩标准的话语权。

追求极至,听起来好像是一个具象的概念,但对快手有重要的战略意义。

在快手,用户行为随时随地都在影响内容推荐,例如点击某个视频、加心、评论、观看视频宽度等等,在用户下拉页面的同时,内容也在实时地变化。快手的生产者占比十分高,也就须要快手去处理比竞品多几倍的UGC数目。快手是一家重算法的技术驱动公司。虽然是百分之一的算法提高,都能转化为巨大的商业价值。追求极至的一小步,对快手来说是一大步。

结语:人工智能提高幸福感

受访的那些快手老兵,多数都是快手平台的忠实「老铁」。

有了小宝宝以后,晨星早已拍了两三百个自己儿子的视频。他说他属于简洁派,不太用魔法表情之类,然而他老爸喜欢用,例如用魔法表情把孩子变丑以后之后拍个视频,认为非常好玩。

「因为我们是懂算法逻辑的,认为这个事情可能没有这么神奇;之后他们会认为这个非常神奇,就非常喜欢拍。见到家上面人玩这些魔表,她们表现得很惊奇,我当然还是认为蛮有成就感的。」

朝旭说,他是极其轻度的快手老铁,「我通常情况下刷快手在一个小时左右,这还不包括看后台数据的时间。」和普通老铁不同,朝旭刷快手会看什么内容是他没有辨识到的。「比如,这个标签我是不是没有加,什么地方我辨识的还不是很准。」

因为长期在硅谷,王华彦看快手增添了一丝怀乡之情。「我看过一个视频,是一个农村的场景。老太太走在路上,之后一个邻居就上来要拉老太太去她家里喝水。在中国农村,你晓得人情味非常重,之后老太太就不乐意去,之后哪个人就非要拉去,他们俩如同打斗一样,在路上就那样撕扯上去了。」

「如果是在中国农村,有这些经历的人会认为这是个很常见的场景,而且它不会出现在任何一个即将的记载当中。若果没有快手这样的平台,这些中国民俗文化的东西,可能再过50年以后就没有了。」

在今年的图灵会议上,宿华以前说过如此一段话:「AI应当拿来解决哪些样的问题,不是物理上的问题,而是说为社会、为人类应当解决哪些问题,想了很长时间有了一个答案。在那些年实践的领域中,我想明白了不管我们做哪些样的技术,最后都应当用于提高人类的幸福感,或则是做到幸福感的改善。」

这些幸福感,指的就是这种吧。

(备注:文中俄旭、水寒、月朗、绣虎、晨星、梦松均为化名)

市北·GMIS2019全球数据智能大会于7月19日-20日在北京市黄浦区召开。本次大会以「数据智能」为主题,聚焦最前沿研究方向,同时愈发关注数据智能经济及其产业生态的发展情况,为技术从研究迈向落地提供借鉴。

本次大会设置主旨讲演、主题讲演、AI联展、「AI00」数据智能榜单发布、闭门典礼等环节,已确认参加嘉宾如下:

快手买双击平台