海外用户突破2亿,AI+办公软件的「化学反应」在哪里?| 对话一线
张宁,金山办公全球业务副总经理
罗文冲,金山办公全球业务首席科学家
沈涛,亚马逊云科技中国区行业集群总经理
对话背景:10 年+出海历程,WPS 官宣海外活跃用户突破 2 亿,在 AI 浪潮下,办公软件怎样与 AI 结合,才能对齐用户需求。
这一波 AI 热潮,更准确说是 AIGC 热潮,也就是由 AI 驱动内容生成,往简单了说,就是根据上文猜下文,很像我们上学时学习的条件概率(已知 A,猜 B 的发生概率),不同大模型猜的水平不一样。而这种工作逻辑,让 AIGC 与内容生成、尤其是文字生成场景天然适配。写周报、营销文案也就成了“ChatGPT们”的第一波落地场景。
而打工人们最常用的办公软件,也理所当然地积极拥抱 AIGC,大到微软、Google、WPS,小到一些切细分场景的应用,例如 Gamma、AiPPT。而神奇的是,这些列述的小众 App 们都已经宣布盈利。不论是大产品拥抱 AIGC,还是基于场景、痛点的观察切入市场的小型创新产品,都找到了自己与用户需求切合的地方,但也发现了不少问题。
以 WPS 为例,2007 年出海首站是日本,之后从日本到东南亚,覆盖全球多个国家。到了 2023 年,WPS Office 发布 AI 版本,上线了拼写检查、AI 生成 PPT 等功能,2024 年,WPS 官宣海外活跃用户突破 2 亿。在基于大模型能力为海外亿级用户提供 AI 功能的过程中,WPS 如何发现需求、发现了哪些问题、如何调整功能、又是如何选择模型、确认模型能力边界去交付功能的、为什么选择与亚马逊云科技合作?6 月的一个下午,在亚马逊云科技北京办公室,金山办公全球业务副总经理张宁给参会者演示了 WPS 海外版本的 2 个典型的 AI 能力,并且与金山办公全球业务首席科学家罗文冲、以及亚马逊云科技中国区行业集群总经理沈涛一起就上述问题进行了交流。
Q:2007 年 WPS 就已经进入日本市场,现在已经 2 亿活跃用户了,有没有特别想突破的目标市场,在海外的竞争策略是什么?
张宁:全世界有能力研发完整办公软件系统并获得广泛市场认可的就 4 家,微软 Office、Google Docs、苹果的办公软件三件套、以及 WPS。我们在海外拥有 2 亿活跃用户,就我们的用户而言,真正接触到 AI 功能不是微软的 Copilot,而是 WPS 的 AI,一方面原因是由于海外巨头在发展中国家定价过高,这类用户往往会选择基础功能更全面,价格更低的 WPS。
WPS 可以非常灵活地让大家感受 AI 能力,我们的竞争策略还和过去一样,第一,跟随中国的手机厂商的出海步伐,第二,极致性价比和优秀的用户体验。
Q:海外用户突破 2 亿,不同市场对办公软件的需求的差别是什么,WPS 是如何去解决这些需求的?
张宁:这个问题挺难回答的,因为全世界那么多国家,在办公领域存在很多细微使用习惯。我举个例子,比如在印度,他们对于数字的写法会和国际通行惯例有一些不一样。比如说逗号,欧美国家用的是千分位,每隔三个数字打一个逗号,在印度它是在前两个数字位打个逗号,后面再按三位打逗号,在印度某些比较大的联邦会采取这种分位方法。我举这些例子想说明,海外市场的需求是非常零散且庞杂的。
对应这样的市场环境,我们的解决办法就是轮值做客服。
我们每个月平均的用户反馈数量大概是 2 万到 3 万条左右,然后我们公司有个规矩,不管你职位高低,从 CEO 到经理,每个人每个月都要去做一天的客服轮值工作,从 3 万条反馈里面去找到需求点。这些反馈有时候细微到你根本想不出来为啥有这样的需求。
Q:一个比较尖锐的问题,做 AI 功能,到底赚不赚钱?
张宁:做 AI 应用,成本是非常需要考量的一块,之前我们的算力焦虑是非常严重的。但是在过去一年多,大模型的价格却在飞快降低。我觉得在未来 3-5 年,AI 云服务的价格,对任何创业者或者从事 AI 应用的人来说,都不会再是一个特别需要去考虑的因素,和当年的云服务大概是一个趋势。反而,更应该考虑的是,AI 的合规性和可靠性。
Q:提供 AI 功能时,怎么选择大模型?
罗文冲:拼写检查和生成是不一样的。拼写检查是需要克制的,例如不能强行修改去改变作者原文的意图,例如能够分清楚英式美式、而不会强行修改。我们分析过,用户的需求是校对、润色,但不是让 AI 改得面目全非。所以希望大模型给到的结果是收敛和克制的。而如果是数据分析场景,则要求处理逻辑要强,给出的每一个结论要能够引用数据,强调数据的准确性和数据来源,这可能就需要最顶级的 LLM。不同的场景,需要大模型的能力是不一样的。
每一个场景的背后,都是和大模型对话,那么在一个功能里,怎么和 LLM 对话很不一样。我们在做功能的时候,会把亚马逊云科技提供的各种大模型与亚马逊云科技团队一起做分析评测,找到最符合我们当前开发的功能的模型。
例如拼写检查我们选择的是 Claud3 系列模型里面比较小的模型 Haiku,一个是可靠且成本低,而且延迟很低在 1.3-1.5s 左右,用户对于拼写检查的延迟是非常敏感的。但总而言之,没有一个万能的模型能够完成所有的需求,也没有一套提示词能够适用于所有的模型。
张宁:我再补充一点,大模型的选择上其实有个不可能三角,就是通用性、可靠性和经济性你只能同时占有两个,需要根据自身业务去思考。像在拼写检查这个功能上,我们在 Amazon Bedrock 里面选择的就是可靠性和经济性都比较强的 Haiku,选择的这个模型也许在通用性上面可能做不到文生图、回答问题等等这些能力,但是它一定在可靠性和经济性上面达到了我们所期望的效果。Amazon Bedrock 有点类似于一个“大模型百货商店”,这是它存在的一个重要意义。我们可以在这个不可能三角里面根据使用场景去选择对应的大模型。
沈涛:市面上模型很多,没有什么最好或不好,最重要的就是根据自己的业务场景去选择一个匹配这个业务场景的模型。企业在选择模型以及应用模型里面,其实应该更关注 3 个挑战。第一是如何实现生成式 AI 的快速部署;第二是如何降低生成式 AI 技术的应用门槛;第三是如何确保生成式 AI 时代的数据隐私与安全性。
Q:在 WPS 里面,有没有可能实现定制化的 AI 功能?
罗文冲:我自己用 AI 的过程中会有一个心路历程,最开始会觉得说大模型能够跟我说话,能够轻松给到我结果,这个很厉害,但是后来发现往往结果会比较平庸,会好像有一点点烂大街的样子。那大家其实都希望根据自己的工作特色,根据自己的文本内容拿到高质量的结果,其实这个跟大模型的技术原理相关。
大家说起 LLM 会经常会用到涌现这个词,那涌现到底是什么东西呢?其实就是所谓的上下文学习,如果说我只是给大模型一些直白的指令,那它给出的结果也是非常直白的,因为它从原理上就是给出一个最大概率的结果,而最大的概率的结果往往是价值不大的。所以说这里有一个很重要的点,就是我们去做大模型相关功能的时候,是需要提供足够的上下文。我还是拿拼写检查的例子来说,我们会先通过技术手段去检测用户当前的文体和语气、原始的表达习惯等等,有了足够多的上下文之后,我们把这些上下文信息打包在一起,然后拿过去询问大模型,就是明确地告诉大模型你当前需要做什么、在哪些约束下去做、你要给我哪些东西,这样才能够得到更加好的结果。
而这里面还有一个实现原理与用户体验之间的 Gap。很少有说,用户输入简单的一句话然后能够马上拿到高质量的结果,所以在做功能的时候,我们往往会给用户一些选项、参数,让用户去设置。甚至有一些功能执行到中间,可以允许用户去做一些调整,进一步询问用户还有没有什么需求,用户补充进去之后,通过这种反复操作,让大模型对用户的意图的理解越来越精准,结果也就会越好。所以根据个人用户习惯做定制,其实就是从功能上让大模型生成更加高质量的结果。
Q:在 AI 功能演示中,有拼写检查、AI PPT 生成这样比较通用的场景,未来也将探索电商平台文案撰写、视频脚本等垂类场景,我们在通用办公软件里面做垂类场景和海外专注于这些领域有数据优势的工具来比,有什么优劣势?
张宁:WPS 是通用办公软件,但用户用什么、怎么用,其实还是自己所在行业决定的。像假设我是一个这个 TikTok 的创作者,当我在使用 AIGC 的时候,我要生成的内容是我的脚本、关键词等等,所以 WPS 海外版未来也会上线类似功能,其实就是给用户大量类似于模板的东西,用户只需要在里面填充几句话。
所以 WPS 本身这个软件,可以说是通用的,但实际上是根据不同的人、不同的场景,通过预置的模板可以提供相应的垂类场景的选择。因为 WPS 实在是用户太多,我们不可能做成垂直方向的某一类软件。确实这个市场上、尤其是在海外,有非常多垂类的 AI 应用,百花齐放。我们的优势可能在几点:
第一个是基于生成式 AI 这个方向,所有的办公场景最终一定会回到我们的办公能力上面,WPS 有 30 多年的技术积累,我们可以保证一点,我们生成出来的 PPT 在任何通用的办公软件上播放的效果是一致的。避免生成的 PPT 看起来很好看,但是你无法把它保存为一个标准的 PPT 格式。而这就意味着,这一类产品的 AI 没问题了,但是它在办公软件上面没有办法做好。你做了一个 PPT,可能很漂亮,结果在学校毕业时要讲,不管是拿 Office 还是 WPS 一打开,全部跑版了。这是一个非 AI 方面的技术壁垒。
另一方面,其实我们不论做哪个方向的 AI 应用,我们有全球两亿用户的一个基数,所以在推广 AI 功能上面,还是具备一些先发优势。