最后那句话的语气里没有愤怒,只有一种近乎麻木的平静。林深见过太多这种表情了,每一个在aI行业里待了足够久的人脸上都会有这种表情,那是无数次被系统、被流程、被“优先级”碾压之后留下的痕迹。
苏晚的表情有些尴尬,她给林深倒了一杯水,说“暖光这个项目,从立项到现在一年半,经历了太多波折。年初的时候我们dau破了五百万,整个团队都很兴奋,所有人都在冲新功能、冲用户增长。顾准的团队提过好几次伦理审查的需求,但每次都被产品委员会以影响迭代度为由给否了。”
“所以这次出事是迟早的事。”顾准补了一句。
会议室里安静了。林深翻开那份技术文档,顾准的字迹工整得像印刷体,每一页的边缘都密密麻麻地写满了批注和修改意见。他翻到第四页,看到了一段话“当前模型在蒸馏过程中丢失了大量关于情绪识别和边界判断的特征维度,这是导致模型在极端情绪场景下表现异常的根源。解决办法是从原始训练数据中重新抽取相关样本,进行针对性标注和增量训练。预计需要新增标注数据十五万条,耗时两个月。”
十五万条人工标注的数据,两个月的时间。林深在心里算了一下成本,知道为什么这个方案会被管理层搁置了。在互联网公司的逻辑里,两个月的研时间意味着什么?意味着竞争对手可能已经上线了三个新功能,意味着季度财报上少了两个月的增长曲线,意味着投资人的耐心被多消耗了六十天。
“现在你们的ceo是什么态度?”林深合上文档问。
苏晚说“陈总的意思是,不惜一切代价把暖光做好。上个月出事之后,他在全员会上说,暖光这个产品的初心是做‘有温度的aI’,如果温度变成了伤害,那这个产品就没有存在的必要。他给了我们全权去重构产品和技术,预算不设上限,时间不设上限。”
林深听着这段话,注意到苏晚在复述ceo的话时,脸上的表情并不像是一个被充分授权的产品负责人应该有的那种笃定。她看起来更像是一个在悬崖边上走钢丝的人,一方面得到了后方总部的全力支持,另一方面却清楚地知道,脚下的钢丝随时可能因为一阵不知从哪里来的风而剧烈晃动。
“好。”林深说,“我想先做三件事。第一,顾准,我需要你带我走一遍整个技术栈,从数据采集开始的完整链路。第二,苏晚,我需要你整理出暖光上线以来所有触过伦理预警的用户对话记录,一个都不要漏。第三,帮我约一下陈总的时间,我想单独跟他聊一次。”
顾准和苏晚对视了一眼。苏晚说“好,我来安排。”
上午十点半,林深跟着顾准走进了暖光的技术中心。
这是一个巨大的开放式空间,占据了整层楼的一半面积。四排长桌一字排开,每张桌子上摆着至少两台显示器,屏幕上滚动着林深熟悉的代码流和调试界面。墙上挂着几块白板,上面用各种颜色的马克笔画满了架构图和技术路线的箭头,有些地方的字迹已经被擦得模糊了,新的字迹压在上面,层层叠叠。
顾准的工位在最里面靠窗的位置,窗户正对着楼下的草坪。林深注意到他的桌上没有一张纸,所有的东西都在电脑里,唯一算得上个人物品的是一只黑色的马克杯,杯身上印着一行已经磨损到快看不清的字。林深凑过去辨认了一下,是“he11o,or1d!”。
“我们从数据源开始。”顾准坐下来,打开了一个共享屏幕,“暖光的训练数据主要有三个来源公开的网络语料、合作方提供的对话数据、以及我们自己爬取的社交平台公开帖子。总量大概是两百三十亿词元。”
两百三十亿。林深在脑子里转了一下这个数字,想到了某种具象的对应。一个普通人一天大约说一万六千个词,一年大约五百八十万个词。两百三十亿个词,相当于一个人差不多四千年的说话量。
“这些数据在喂给模型之前,经过了什么样的清洗?”林深问。
喜欢打工逆袭pei请大家收藏打工逆袭pei本站更新度全网最快。