来源:我思锅我在(ID:angelplusdevil)

  导读

  被奉为硅谷创业圣经的《从0到1》这本书中提过,垄断型企业都有自己的壁垒,无外乎是:专利技术、网络效应、规模经济或品牌优势。被资本界誉为“AI第一股”的旷视科技即将登陆港股交易所,招股书中最开始是CEO印奇写给投资人的信函,最开始便说到“深度学习是旷视的核心竞争力”。

  深度学习?这似乎与书中提到的四个指标都不太相符。以旷视为代表的AI公司,他们的核心竞争力到底是什么?而要弄明白这个问题,必须先理解他们的商业模式究竟是怎样的?于是我一口气想到了以下几个问题:

  AI公司是软件公司吗?是SaaS、PaaS还是传统软件厂商?

  AI公司是解决方案商吗?是集成商?还是外包公司?

  AI公司的壁垒究竟在哪里?真的是“深度学习”所代表的的AI技术?

  2016年Alpha Go开启了所谓“人工智能的元年”,但才过去了两三年却发现“投资人逃离人工智能”。外界质疑的焦点无非是技术突破遇到“瓶颈”和商业模式“不清晰”

  印奇的那句话像在回应第一点,而第二个问题则需要完整的数据支持和严谨的逻辑分析,直接凭资本走向和主观感受来臆断,我认为是一个投机取巧的行为。所以,以下内容希望能带领大家逐一解答上述疑问,并最终解锁一个更核心的话题:

  类比SaaS对传统软件的革命,以旷视为代表的AI公司在商业模式上是否真的也存在颠覆式创新呢?

  无论答案与否,只有搞清楚了这个问题,我们才可能客观地去判断AI公司的核心指标、竞争力、还有未来。如果坚持看到最后,文末有个彩蛋。

  1. 何谓“AI公司”

  首先,我们需要对以旷视为代表的的AI公司下一个基本定义,这里特指自主研发以人工智能为原生且不可替代的技术,同时具备或已经向垂直行业拓展,并形成相关产品或解决方案的企业。

  为了更形象地理解这句话,参照2016年云栖大会上阿里云发布的《人工智能:未来制胜之道》报告,行业对AI产业链已达成了以下共识:

  在基础层,传统互联网公司和芯片大厂具有明显先发优势。因此,大部分国内AI公司都会从技术层或应用层切入,并且随着技术的沉淀和业务的拓展,两层的界限如今逐渐模糊。但整体来说初创公司有两条发展路径:

  以一个场景(如人脸识别)作为突破口,通过连接企业客户内部系统或自建场景入口如传感器等方式获取数据,基于多维度的数据不断训练模型、优化算法,在某一个场景问题中找到最佳解,再向其他行业中相似的场景复制;

  以一种通用技术(如机器视觉)作为突破口,深耕算法和底层框架,尤其当机器学习被工业界接纳后,从底层驱动训练模型,不仅能提升方案在不同场景下的普适性和运算效率,也最终提升了实际应用效果。

  前者由于对场景理解深刻,便于触达客户、累积数据,因此产品更容易被客户接受,变现能力较强;后者希望借助算法和底层框架的优势高效地触达更多行业,赋能业内合作伙伴,通过开放合作的方式获取数据,其间未必能直接触达客户,因此覆盖范围广,但变现能力较弱。

  我们暂不讨论哪种路径更优,需要达成共识的是:接下来我论的“AI公司”也是从技术或应用层切入,沿着上述任何一种或多种发展路径成长起来,并以AI技术为核心不可被其他计算方式所替代为前提。

  公平起见,我会选取被资本界及业内人士公认的相关AI公司及其公开数据。去年7月,将视觉技术主要用于手机镜头上的虹软科技登录科创板;8月“CV(机器视觉)四小龙“之一旷视科技向港交所提交了IPO招股书;而最近,以语音识别为核心技术的A股上市公司科大讯飞也迎来两年来市值的最高点,不一而足。

  因此,想不到任何比现在更合适的时间点来思考前面提出的疑问了。

  2. 旷视的基本面,也是AI的真相

  我一直非常重视在深入分析之前先了解企业的历史沿革和发展里程碑,这不仅能揭示创始人创业的初衷,更展示了企业在取得每一次突破背后的驱动力到底是什么,基于此才能对企业的战略、风险及发展目标做出独立而客观的判断。

(来源:公开资料、招股书)

(来源:公开资料、招股书)

  从知乎上了解到,2013年的时候,旷视曾数次尝试在消费端做基于人脸识别的解锁类App,甚至还做了一款娱乐应用“面相大师”。那时候正值移动互联网创业的热潮,这个选择无可厚非。而直到2015年与蚂蚁金服合作的支付宝项目“微笑支付”落地,才正式开启了公司商业化并深入行业的道路。旷视的发展与上面讲的第二种路径相似,但有意思的地方是在公司成立的第二年,Face++平台便对外开放,似乎预示了往后的技术路线和战略方向。

  2.1 旷视的业务及经营模式

  根据招股书,我将公司的产品、商业化以及经营模式详细梳理如下:

  再结合截止到2019年6月30日(2019H1)的相关财务数据,我们便能初步掌握旷视的运营状况。

  2019年仅仅是旷视营收破亿后的第三年,看总体营收及增速的意义不大。而仔细观察每一块业务的经营模式和财务数据后,我发现了三处“不寻常”的地方,后面将逐一探究:

  面向垂直行业提供云端身份识别的“行业SaaS”毛利率波动较大,不同于美国一系列典型SaaS上市公司的毛利率表现;

  “个人设备”业务毛利率在2019年骤降,照理来说,越早商业化的业务毛利率应该随边际成本下降而上升或至少保持稳定;

  城市与供应链物联网解决方案是当前商业化的主战场,但以偏传统的项目制模式对抗市场中的各路玩家,旷视能继续保持同样的竞争力吗

  2.2 揭开旷视商业化的面纱

  首先,我把美国四家典型SaaS上市公司的毛利率与旷视的“行业SaaS”进行比较:

  回忆一下SaaS的基本特征:稳定的高毛利、按需付费、高度产品化及自传播(类似“网络效应”),后两者也成为了SaaS企业不断加深的壁垒。旷视所谓“行业SaaS”的毛利率虽然逐年上升,去年上半年达到87%,甚至还高于不少SaaS公司,但从42%到87%的陡坡到底是什么造成的呢?

  进一步看成本结构,果然在招股书第230页找到一段话:“个人物联网解决方案(SaaS)的销售成本主要包括数据源成本和云端服务成本”,以及“数据源成本主要包括我们就提供Face ID解决方案调用第三方数据源而产生”。

  对于典型SaaS企业,销售成本主要是向云服务商支付的服务器使用成本,因此,旷视的“行业SaaS”与典型SaaS产品唯一的差别就是数据源成本了。这个占比有多大,以下两张图供参考。

  (上图为数据源成本占行业SaaS、总营收和成本比重对比,下图为总销售成本中各类成本占比情况)

  (上图为数据源成本占行业SaaS、总营收和成本比重对比,下图为总销售成本中各类成本占比情况)

  通过以上图表,我们可以发现:

  相对云服务成本,数据源成本占行业SaaS销售成本大头,接近60%。由于2018年全年平均比例大于2018年上半年,我们有理由认为2019年全年平均比例也会比2019年上半年的数字有所提升,近两年呈上升趋势

  从占行业SaaS营收比重来看,数据源成本的确呈下降的趋势。但是to B行业普遍在下半年进入业务高峰,同样参照数据源成本在2018年的表现,即便2019年上半年成本比例已经下降到7%,并不能说明2019年全年平局比例会显著下降;

  当前行业解决方案大多以人脸识别为典型使用场景,而当识别技术拓展到人体、物体、文字等其他种类的时候,自然需要采购丰富且必要的第三方数据用以模型训练,那么未来数据源成本占比可能不会延续逐年下降的趋势

  最后从公司整体销售成本结构来看,除了硬件,外包、云服务和数据源是剩下的三大成本。而AI三要素:算法、算力和数据,后两者都与之息息相关。

  不禁要问:过去被人们高呼新一代生产力的“AI”难道如今会成为企业的“成本中心”吗?

  这才是第一个”不寻常”之处的本质。

  2.3 如何解决AI的“成本中心”?

  接着往下看,第二块“个人设备”业务起步最早,毛利率在保持90%以上三年之久后却在2019年上半年出现明显下滑。这块业务包含两类产品:第一个是为消费电子设备提供基于人脸识别的解锁功能,类似苹果手机上的“Face ID”采用的就是自研的方案;第二个是通过提高图像质量的AI算法来提升手机摄像效果,俗称“美颜”。值得注意的是AI体现在“摄中处理”,而不是通常我们对拍摄后的相片或视频上用修图软件来美化。

  因此,手机厂商需要将摄像头模块与优质算法结合后再完成组装,招股书中说:“个人设备的销售成本主要包括:硬件成本项目外包或技术服务成本”,对毛利下降的解释是“期內交付的摄像头模块(毛利率相对较低而销售成本较高的硬件产品)增加”所致。

  按照这个说法,个人设备业务不仅向客户提供优质的算法,也开始供应搭载了算法的硬件模块。这个行为是否合理,以及会是未来的趋势吗?正好,国内有一家可以参照的公司叫虹软科技,核心业务就是向智能手机厂商提供AI视觉解决方案,客户包括三星、华为、小米、OV等。去年7月登陆科创板,目前市值约300亿人民币。用下面这张图做个简单对比:

  虹软无论从营收还是毛利上均显示正步入成熟阶段,综合招股书和财报,有以下三点结论:

  2018年个人设备业务营收已占总营收96%,可以认为虹软的主营业务就是为手机厂商提供视觉技术方案,与旷视“个人设备”业务基本一致;

  虹软的个人设备业务通过合约的方式授权给手机厂商,允许客户将相关算法软件或软件包装载在约定型号的设备上,以此收取技术和软件授权使用费,收费模式也与旷视一致

  此块业务的营收成本主要来自工资薪金及相关费用计入公司营业成本的技术人员,而数量占公司总人数比例较低(2018年仅为10%),且公司授权许可的相关算法软件或软件包一般无需实体硬件的生产、包装及运输,因此毛利较高。

  我也没有在招股书中找到虹软在发展早期是否会提供摄像模块等硬件的描述,不过在研发模式上,看到这样一个流程图:

  当今智能手机更新换代非常快,而摄像功能又成了款式更新中的主要升级对象,那么背后的AI算法也需要进行迭代。如果参照上图中项目制的研发模式,最考验的就是企业的产品化能力和交付效率。虹软认为自己的主要优势就体现在:

  充分考虑移动终端上的硬件限制,在不牺牲效果的基础上对算法进行了大量简化和优化;

  累积了大量模块化的产品和底层算法库;

  与摄像头产业链深度合作,比如开发的智能模组产线标定方案、智能手机组装线标定方案为厂商节省了大量硬件和制造成本,达成快速量产

  因此对于第二点毛利率下降的疑问,我大致做出以下两点推测,也希望旷视在今后的报告中能披露更多相关信息,

  由于旷视目前业务规模仍相对较小,不具备与摄像头厂商深度合作的能力,那么为了提升向手机厂商的交付效率同时保证品质,需要向摄像头厂商提前采购摄像头模组,用于快速研发并适配特定手机型号的视觉算法,组装测试后再向手机厂商统一发货;

  因此,旷视个人设备业务在2019年上半年出现毛利率下降的情况可能是暂时的,硬件成本的支出增加只是当下在供应链策略上的临时选择,未来销量达到一定规模后,毛利率将可能恢复到与虹软相似的水平。

  同时,虹软在去年的年中报里提到了一个重要工作方向——“AI开放平台”,升级了人脸识别、检测的核心引擎并且在人体检测部分升级了核心算法,供有需求的企业和个人免费试用,以此拓展更多场景应用。平台开放的目的,也是为了加强企业在业务横向拓展中的产品化能力,这才是决定企业今后毛利率的关键

  我们把这个发现与之前被搁置的第一个问题放在一起:

  如何避免AI成为企业的成本中心?关键看产品化能力,如何像当年福特发明高效流水线一样生产“AI” ——即规模化生产算法,同时尽可能降低数据源成本和算力消耗(云服务成本)。

  云服务成本相对可控,可是作为AI算法优化中必要的数据集,它的边际成本真的可以无限下降吗?用SaaS或互联网产品的话来说,数据集真的具有“网络效应”吗?

  答案是不一定,尤其在AI的场景应用下。

  “网络效应”用通俗的话讲就是当一个产品使用的人越多,它的价值便越大,例如社交软件。放到AI的场景中,数据的“网络效应”体现在当数据量越多时,训练出来的AI算法质量将越高,体现为识别效果越好或准确率越高,最后投入到实际应用中产生的商业价值就越大。那么当越来越多场景使用高质量算法的时候,数据集的获取成本分摊下来就会越来越低。

  然而上述这一切真的合理吗?

  美国知名风投机构A16Z在一篇叫《The Empty Promise of Data Moats》(数据壁垒里落空的承诺)的文章中提到,尽管大部分条件下数据的确具有前面讲到的“网络效应”,通过海量数据训练得到的算法通常能将准确率提高到50%甚至更高,但想要再往上提升将变得非常困难。文中引用了把自然语言处理(NLP)技术用在信用卡中心智能客服上的例子:

  蓝色线代表每一个用户请求(例如“我想要更新个人信息”等),红色区域代表累积的请求,研究发现当用于训练的数据(来自客服中心的文稿)累积到20%的时候,基本能覆盖20%的用户请求,但再往上可以看到曲线逐渐平缓,即用于训练的数据越多,横轴所代表的场景覆盖率却没有随之线性增长,最终仅停留在40%左右。往后这套智能系统就无法再处理剩下60%的客户电话了。

  结合这项调研和对AI的基本认识,我认为主要原因如下:

  模型训练需要引入机器学习甚至深度学习,由于深度学习用到的多层神经网络仍是“黑箱”型,即技术人员很难彻底了解深层网络的内核,也无法完全掌握输入与输出、各参数间相互影响等关系,因此调参并优化是一个非常缓慢的过程

  深度学习需要大量的数据或样本,并且数据量越大,对数据质量的要求也越高,需要尽可能覆盖真实场景中的极端案例(corner case)。比如在客服场景中,用户问“我想查一下在前天下午去星巴克买卡布奇诺之前在学校食堂花了多少钱?”,而一般第三方数据公司提供的问题集很难达到如此细的颗粒度,想要进一步优化算法,便需要在系统内部或真实场景中补全极端案例了。

  所以当AI公司刚进入新场景时需要至少得到一套最小价值数据源(minimum viable corpus)进行训练,找到满足基本场景的算法组合,然后再收集尽可能多的极端案例进行持续迭代。这背后会造成两个问题:

  数据获取成本将随着算法升级而越来越高;

  同时数据很可能会过时,老旧的数据需要及时被剔除或重新标注

  并且,由于越往后算法迭代的耗时越长,一方面会导致服务器成本(通常在云端)呈非线性增长,另一方面在数据处理上人为干预就很可能是必要的。

  从旷视招股书中的人员结构上也能看到,“数据标注”人员占公司全员比例达17%,仅次于研发团队。

  那么,要如何解决“数据网络效应”在AI中逐渐失效并随之引发的各类成本问题呢?

  旷视给出的答案就是利用自动机器学习(AutoML)等技术,自主研发的深度学习平台“Brain++”和数据管理及标注平台“Data++”。

  根据旷视研究院的相关介绍,Brain++已经发展成为一个支撑算法研究和开发的基础底层,由三个模块组成:深度学习框架MegEngine、深度学习云计算平台MegCompute和数据管理平台MegData(也就是后来的Data++),对应AI的三大要素。覆盖的功能从数据的获取、清洗、预处理等,到研究人员设计算法架构、实验环节、搭建训练环境、训练、调参、模型效果评估,再到最终的模型分发和部署应用,其中特别强调了几个独特的优势:

  针对计算机视觉任务做了定制化的优化,尤其面对大量图像或视频训练任务;

  AutoML技术自动化设计深度神经网络,将算法的生产自动化,从而让研究人员用最少的人力和时间针对垂直领域碎片化的需求定制多种算法组合,包括“长尾需求”(即极端案例)

  通过对基础设施、数据存储和计算的智能调动来保证多用户多任务操作,提升训练效率,也变相降低了云服务成本

  我不是AI专家,在这里对Brain++的性能和技术高度不展开讨论。但之前的疑问逐渐得到了解答,旷视之所以如此重视对Brain++的投入并称之为公司的“核心竞争力”,是因为深度学习框架在我看来像一个操作系统,帮助研究人员根据场景应用的不同、终端硬件条件的差异以及投入回报的高低而尽可能自动化地寻找最优方案。同时Data++所支持的半自动数据处理和标注功能,允许多个人同时访问同一套数据进行训练,目的也是希望从根本上降低带宽和标注成本。

  这也解释了为什么去年初旷视发布了一个涵盖14个大类26个小类超过70万张图片的数据集Objects365,其中包含超过一千万个标注框,是目前世界上最大的物体检测数据集。因为只有内生的数据集覆盖范围越全、质量越高,外购的需求才会越少。

  虽然数据源成本可能会因为被内化而逐渐下降,但这仅是成本的转移,未来这块AI特有的成本能否被彻底消除,目前还不能妄下定论。而Brain++的发展的确正有效地避免AI成为旷视不可忽视的成本中心。它不仅具有科研价值、技术壁垒,从某种意义上来说还有重要的商业价值

  回到一个根本问题:因此按调用次数收费的云端身份识别服务真的是SaaS吗?

  不是:因为不稳定的数据源成本导致业务暂不能保持一个高确定性的毛利,产品化程度也不像主流SaaS公司一样会根据客户规模而开发不同版本;但是,灵活的付费方式以及通过底层设计驱动产品化的技术路线又像极了SaaS

  在这种商业模式演进的过程中,我们需要核心关注由AI特殊性所带来的不可避免的额外成本,并且要留意当在进行行业商业化的时候对企业产品化能力的挑战。

  这才是对前两年市场上鼓吹的“AIaaS(AI as a Service,AI即服务)”这种独特模式的正确打开方式

  2.4 究竟什么是“AIaaS”的护城河?

  再来看第三个疑问,城市物联网方案已经成为营收主力,2019年上半年的收入贡献超过70%。而去年初旷视还宣布投入20亿在供应链物联网业务上,与合作伙伴加快机器人落地产业。可是无论从与集成商合作为主的项目制模式,还是近年来推出的一系列传感器和物流自动化设备线来看,这与市场上对AI公司的认识都有不少偏差。

  何况在城市安全管理领域有海康大华等巨头坐镇,智慧物流也要面对Geek+、快仓等新兴仓储机器人公司的围追堵截,旷视将如何保证自己的竞争力并在未来发展中不会掉队呢?

  我们从上图海康威视的核心财务数据中能对这家传统巨头近年来的战略窥视一二,公司在2018年提出“AI Cloud”,核心是覆盖从前端多维度采集、智能分析、到后端算法迭代和资源调度的端到端的计算架构。回顾前面对Brain++的讨论,相信大家能比较容易理解“AI Cloud”的核心理念和下图展示的产品形态了。

  对于旷视而言,如果与同类AI机器视觉公司比,Brain++是他们在技术上的尚方宝剑;那么在商业化的进程中,一个结构化的底层系统才可能让他们在与巨头的持久战中笑到最后。这个逻辑跟开发Brain++是相似的,只有用开放的系统平台去同时兼容存量市场和新增需求,尤其面对锱铢必较的企业级客户,如果能通过连接客户现有的设备和相关软件来提供更好的分析效果,这将会大大降低客户和合作伙伴的使用门槛。旷视把这个底层系统叫做“平台软件”。

  这张图不仅让我想到“中台”的概念(可以移步上篇文章《Slack、Zoom们全军出击(上)》),还想起曾投资过Cloudera、Docker等明星企业服务公司的风投机构Greylock提出的一个概念叫“Systems of Intelligence(智能系统,如下图)”。我认为这将是新一代企业尤其是AI公司构建护城河的基础。

  简单来说,智能系统层能够跨平台地获取并整合底层一切信息和数据源,结合ABC(AI、Big data、Cloud)能力,为客户提供实时、精准或个性化的分析。未来的护城河之战将从“如何获取更多数据”转为“如何更智能地利用数据”,这是一个持续迭代的过程,壁垒也将越来越高。

  因此,从两年前提出“城市管理大脑”到去年初发布兼容多类型机器人的操作系统“河图”,旷视的确认识到了系统软件才是AI商业化的核心,未来的战略并不是向客户销售更多的智能硬件产品,以便在市场中分一杯羹而已。

(“河图平台”的生态连接设计)

(“河图平台”的生态连接设计)

  我们经常听到一个词叫“商业闭环”,建立一个智能系统层正是实现对内与对外双向交互并实现闭环的过程。更重要的是,一旦形成从数据采集、传输、分析到决策反馈的流动闭环,以销售硬件产品为核心的传统方式将逐渐变为以软件驱动硬件产生实时效果的服务模式,客户可按需或按效果灵活付费。基于国情,这可能在城市物联网管理及安防市场中不会得到理想化体现,但在物流、零售、泛金融甚至海外市场肯定能找到合适的落脚点。

  以AI为核心的智能系统不仅能为企业建立更强大的护城河,更可能用一种类似SaaS的商业模式挑战传统行业的老玩家,正如当年Salesforce对Oracle的撼动。从这个角度来说,旷视所代表的“AIaaS”在商业模式上似乎在未来会无限“趋近”于SaaS。

  回顾最开始提出的核心问题:

  “AI”真的会成为旷视的“成本中心”吗?公司该如何解决看似无法消除的数据源及云服务成本问题?

  旷视提到的“行业SaaS”真的是SaaS吗?而曾经被高呼的“AIaaS”到底是什么模式?

  “AIaaS”的护城河究竟在哪里?旷视又是如何做的?

  最后我的回答是:

  我们仍不能把旷视当前业务中的“行业SaaS”与市场上普遍理解的“SaaS”产品画上等号,原因在于暂时无法避免的数据源成本导致不可预测的毛利率波动;

  数据在算法模型迭代的过程中并不会产生理想化的网络效应,要避免数据、计算等资源成为成本中心,自动化的算法生成和数据标注可能是最高效的解决办法,所以这更考验公司在深度学习等底层技术上的造诣以及战略规划;

  AI公司在商业化上将会遇到各路阻力,唯有将产品销售思路转为可持续性的服务模式,才有机会突围。核心在于从战略上一开始便进行智能系统层的设计,建立生态连接。

  3. “AI第一股”的未来

  既然已经对旷视的历史与基本面刨根问底,顺道展望一下未来。

  有几个事情我想可能适合旷视在上市后去考虑的:

  开源(或部分开源)Brain++:当前两大开源深度学习框架Google的TensorFlow和Facebook的PyTorch正打得不可开交,性能优劣不予置评。而有意思的是,先进入主流的TensorFlow凭借性能稳定与安全牢牢占据着工业界,而后入者PyTorch则通过易上手和操作简单在学术界撕开了一道裂缝。对比之下,旷视的优势一定在引以为豪的机器视觉垂直方向上,而保持该领域领先地位的重要方式则是建立开发者生态。基于国内得天独厚的数据及商业场景的优势,未来如果当机器学习甚至深度学习成为下一代IT建设的标配时,至少在视觉领域旷视便可占尽天时、地利与人和

  为模型训练创造一套标准语言并向生态开放:听闻从2018年起团队就在规划一种用于深度学习训练的编程语言,用于协调训练所需要的灵活性以及推理所需的性能要求。去年2月Facebook首席AI科学家Yann LeCun也提到了是否需要一种比Python更灵活的语言来进行深度学习设计。所以行业内的探索在国内外都尚处早期,既然在机器视觉上旷视乃至国内同行都能与国际巨头不分伯仲,我相信这个机会属于提早布局的人;

  布局制造业:制造业占我国GDP近三分之一的比重,机器视觉最先在国外进入工业领域,主要用于尺寸测量与外观检测。如今在硬件端,从自然光、红外到激光,从2D到3D摄像头,百花齐放。海康威视也于2017年发布了工业相机产品系列。而在软件端AI的探索才刚刚开始。尽管样本数量与质量的匮乏对深度学习的落地造成了一定阻碍,或许这正好是旷视和其开放生态的机会。待真实场景和需求明确之前,提前进行相关布局,这又是一个百亿级的市场。

  前不久旷视对外表示正在更新材料,继续推进上市进程。有耐心的你们读到这里,想必对旷视的业务逻辑、商业创新以及竞争力有了基本认识。

  投资人正在逃离AI吗?相信各位也有了自己的判断。

  祝愿旷视能顺利上市,尤其在当前国外资本市场变化莫测、国内科技板块暗流涌动之下,大家将如何对待这只40亿美金的独角兽呢?我们拭目以待。