这是我第一次专访女性CEO,一位年轻的85后。
(资料图片)
自动驾驶圈,甚至范围更广的科技领域,女性工程师都算得上是稀有“物种”,更别说一家科技企业的“掌舵人”CEO了。
还没见面,我便已从于旭在微信聊天里频繁使用感叹号,感受到了她的热情与活力。这也让我更加期待这次面对面的交流。
△于旭及恺望数据创始团队(左二为于旭)
1
—
从运营汽车到运营人
交流的地点在北京海淀区的威盛大厦,马路对面不到500米就是东升大厦。曾经,那里是Momenta的办公室,2016年,于旭离开Uber,来到Momenta负责大数据收集。
“一开始是做海量众包数据采集。那个时候大家有算法,但没有数据,旭东 (曹旭东,Momenta CEO) 就让我来负责。后来我们就负责整个标注,然后是数据的全链条,包括数据飞轮的搭建。” 于旭回忆道。
这对于当时的她是一次全新的尝试。
在此之前,刚从法国留学归来的于旭进入了Uber,成为第四号员工,见证了Uber在国内从0到1的阶段,自己也在其中完成了Uber运营体系与数据平台的搭建。
“我们当时要解决的问题就是供需之间的匹配,车辆为什么能两分钟内接单是有一套算法的,但在之前你需要找到足够多的司机去匹配需求。到Momenta之后,我发现做的事和Uber的工作在底层逻辑上是相通的。”说到这儿,于旭有些兴奋,“只不过我原来运作的是车,在Momenta则是运作人。”
随后,Momenta的数据量快速增长,成乐当时TOP级的存在。但于旭觉得还不够,应该把业务继续做大,服务于行业,于是便成立了Momenta的数据子公司。但由于背靠自动驾驶公司,业务的扩展产生了局限性,最终便没有再过多投入精力。
2020年,于旭离开Momenta,加入字节跳动。
“我当时还是那个想法——做数据领域的Uber,所以需要一个很大的平台,但又想是非自动驾驶领域,那就只有字节了。” 于旭说道。
虽然短暂地离开了自动驾驶圈,但于旭依然能感受到风向的变化。
谁也没想到,在2018年左右遇冷的自动驾驶,随着汽车智能化的发展,又找到了新的方向。
从2021年下半年开始,不断有人找于旭帮忙引荐自动驾驶数据公司,这让她强烈地感觉到,自动驾驶对数据侧的需求在快速膨胀,犹如Uber网约车刚刚起量时一般。
“这样一种强烈的兴奋感,就跟当时我即将加入Uber时一样,我感觉,新时代很快就要来了。”
2
—
让人兴奋,才是好生意
因为是运营出身,于旭最初对AI技术的感知并不强烈。“但当看到技术算法上的变革后,我意识到AI时代,运营跟技术的结合一定会产生很多的化学反应。”
这也是让于旭兴奋的另一个点。
曾经在Uber, 是APP和运营的结合,之后是SaaS平台和运营的结合 ,本质上是一个模式。数据标注领域同样延续了这样的模式,这是于旭擅长的。
同时,于旭也看到了行业的痛点。最典型的,就是 数据标注服务团队缺少自动驾驶技术背景,很难真正理解算法背后的数据需求。 即便拿到上百页的标注规则,往往也是一知半解地标注。交付后,又会因为有错误需要返工。一来一回,拉长了数据的处理周期,增加了企业的成本。
另外,算法并非一成不变,这让需求规则也在不停变化,随之而来的是标注规则的相应改变。当规则变化遇上数据处理需求波峰时,小型的数据服务团队在筛选及沟通环节更是无法应对。
“所以之前很多数据标注服务,你会觉得做得不够系统,技术和运营两者没有形成绝对的合力,完全是一种传统的打法,人不够就加人,通过量盖掉事,但加到什么时候是个头?另外,还会有很大波动,一旦需求下降,企业就会空转。所以如果是这样的模式,即便是一个好生意,我也没有那种兴奋的劲儿在。”
在看到现有模式解决不了需求变化的痛点后,于旭认为数据标注的空间还有很大,“甚至可以用一个很新的互联网跨界形式来把这个问题解决掉,这是让我兴奋的。”
显然,对于于旭,“让人兴奋”是她投入新领域的重要驱动力。
抓住了痛点和兴奋点,于旭很快把注意力放在了自动驾驶的数据标注领域,2022年2月,恺望数据成立。
3
—
建立数据生产工厂
“成立恺望后,你们的策略是什么?”
面对我的提问,于旭开始侃侃而谈从“作坊”到“工厂”的发展规划。
“你不得不佩服这七八年间,几百家大大小小的数据标注团队为行业贡献了很多东西,但随着后续规模化生产的需求提升,我们需要像工厂一般的系统化建设和设计。”
于旭说的工厂 包括Saas平台的支撑和运营拆解的能力。
前者很好理解,是数据标注的工具和管理平台;对于后者,于旭用了一个很有意思的比喻。
“数据标注行业以前也有流水线生产,但拆分步骤时就像普通剥橘子,需要先剥橘子皮,再剥橘子瓣,最后把橘子核挑出来,这叫串行的拆解。但我们现在做的是并行,就是专门有剥橘子皮的人,同时也有剥橘子瓣和挑核的人在同一时间进行工序,这样速度就能翻倍。”
目前,自动化标注虽然能基本完成90%以上的标注工作,但随着数据量的攀升,剩余不到10%的标注工作仍可能需要由几百人的标注员团队来完成。因此,这样的拆解就很关键, 通过高并发率不仅能提升效率,还能大幅度降低门槛提升人员培训效率,使得产出的数据能保持高度一致性。
“这听起来似乎并不困难,本质依然是流水线生产。”
面对我的疑问,于旭举了个例子。
“我们曾经有个客户,写了200多页的需求文档,对于普通标注人员,既没有这么高的能力,也没有心情去看这么多页的文档。我们在两周内消化了这200页的内容,并将文档浓缩成5页精华,大大减少了数据标注执行层的理解负担。这里就需要专业人员的knowhow去做结构化拆解,并且需要平台有能力支持高并发工作流程,才能把需求拆成10份甚至100份。”
据于旭介绍,目前恺望数据重新搭建的技术平台底层就考虑了高并发的事,“我们使用了一些低代码 (传统的软件开发通常需要熟练的编程技能和花费大量的时间来编写代码,但是低代码平台可以通过提供预先构建的模块和组件,以及使用视觉化界面来设计用户界面和业务逻辑来简化这个过程) 、模块化的概念,我们只把核心的东西做了,中间你需要怎样的适配改造,例如在流程上加入更多的管理动作,都能从底层平台上给你提供一个类低代码的工具,让你快速完成目标。”
除此之外,最近风很大的大模型,恺望也在密切关注并应用到工作环节中。
此前,一个零基础的标注员,需要经历约为三周的“爬坡期”,背诵相关标注规则。而恺望将ChatGPT和规则库进行结合,引进到标注作业平台后,标注员在进行标注时,就能通过对话形式询问GPT助手,不必背诵大量的规则,人才培育的“爬坡期”大幅减短。
这同时也解放了项目经理,他们不必同时管理资源、项目、培训等环节,其管理范围也会扩大。“随着AI行业这一轮产业升级,人才梯度会迅速分开,而数据标注领域也将会进入精细化分工阶段。”于旭表示。
对于这个工厂,核心是什么显而易见,效率、效率、还是效率。
“我们现在很多客户都是按天去交付数据,这不就和当时Uber的那种实时订单是一样的吗?”说到这,于旭脸上又露出了兴奋的表情。
4
—
种一颗橘子树
在对外的宣传上,恺望数据是一家为车企与自动驾驶公司提供一站式数据解决方案的公司。
“更简单一些说,我们的 核心是数据生产的自动化。 当然会是渐进式的,从人往机器去过渡,逐渐变成一个自动化过程的公司。” 于旭说道。
在她看来,作为数据服务第三方,更多的是去解决数据孤岛的问题,尤其作为自动驾驶这个行业,如果能把数据孤岛问题解决,大家在数据利用率会是另一个维度的提升。“所以把我们自己去跟产业融合,价值是很大的。”
这不禁让人联想到那家仅用5年时间,就实现超73亿美金估值的美国数据标注企业Scale AI。
2016年起步时,Scale AI就是为了解决自动驾驶赛道数据孤岛的问题,让Argo AI遇到的问题Nuro不会再出现。商务模式上,Scale AI是让算法或技术的同事直接做商务与客户对接,这样就能迅速理解对方的需求并且能快速提出改进方案,让数据标注的流程能得到更好的结果。
与之配合的还有其 SaaS平台,同样是比较懂自动驾驶或者算法的人进行设计管理,在于旭看来,这就是运营和技术结合得比较好示例。
“所以当年80%的北美自动驾驶公司都用了Scale AI的服务,随着之后AI的发展,作为智能化原料的数据,重要性自然得到提升,Scale AI自然就在牌桌上占住了核心位置,然后把一个一个细分赛道逐渐打通。从自动驾驶到Google,再到军方订单,然后再到GPT这个方向。”
自身战略的前瞻性,在于旭看来是Scale AI成为独角兽的关键之一。
“同样的企业还有特斯拉。它的数据自动化是靠影子模式解决的,这需求足够多的车辆数量。影子模式是特斯拉很早之前就有的想法,那时就预测了自己的车会过百万台级别,这个级别是不可能用大量的人工做标注的,所以一开始特斯拉就有了自动标注这个认知,并基于此去搭建整套系统。”
因此, 加深对行业的认知,在工具设计、机制建设上提前到位是恺望的一项重要功课。
“大家都卖橘子,你的那堆橘子更大更好,我觉得不可怕。可怕的是你种了一棵可以不断长出又大又好的橘子的树,这是更可怕的。这样你根本就跑不过他,我觉得这会是行业的绝对壁垒。”