产品设计思考-12

2025 的第 18 周

新闻

最近发生三件大事:

  1. 04.28 阿里发布 Qwen3,阿里云 Qwen-Turbo 和 Qwen-Plus 同步更新,但是 Qwen-Max 没有更新。
  2. 04.30 DeepSeek 发布 Prover-V2,Prover-V2 在定理证明赛道上实现了业内最佳性能。
  3. 04.15 字节推出链式思维模型 Doubao-1.5-thinking-pro,这个模型并不出名,市场反响平平。

AI 设计

对 Qwen3 做了初步测试,仍然不能满足预期。我们目前使用的主力模型是豆包,在保险和药病领域,豆包的表现过去优于 Qwen2.5,而现在仍然优于 Qwen3。从使用经验来看,豆包的数据集可能优于 Qwen。

此外,Qwen3 输出的精确性也不能达到预期,在 Temprature 为 0 的条件下,对同 Prompt 的输出变化太大,我们所关注的关键指标也经常变化,这是不可接受的。输出的精确性不足是我们过去放弃 Qwen2.5 的主要原因,而这个问题在 Qwen3 仍然存在。

在一些条件下,开启链式思维的 Qwen3 的输出结果,比不开启链式思维的 Qwen3 效果更差,我对这一现象感到费解。

但是在多模态方面,我们的技术人员表示 Qwen3 比 Qwen2.5 有不小的进步,OCR 的精度以及对票据的理解上了一个台阶。

对于 Qwen3 我还有个不理解的地方,为什么 Turbo 和 Plus 更新了 Qwen3,而作为商业版主力的 Max 却没有更新。从我作为用户的角度来说,感觉有点背刺,花了更多的钱,却拿到了更差的结果。

Doubao-1.5-thinking-pro 效果一般,从我们系统业务的角度来看,这个模型的效果甚至不如普通模型,再考虑到思维链的时间成本,这个模型简直是负升级。

DeepSeek-Prover-V2 暂时还没有测评,由于是节前一天发布,所以也没来得及找技术部署。就目前的消息来说,这个模型是专精形式数学领域的,与我们的业务适配度不高。

我们业务对 DeepSeek 的热情并不高,DS 的 Prompt 好像与其他的模型不同。同样要求输出 json 格式,其他模型能够直接输出 json,而 DS 却输出了 MarkDown 代码块包裹的 json,这个逻辑很奇怪。

虽然业务对 DS 不感冒,但我们的办公助手还是很需要 DS 的。DS 近乎严格的 MD 输出逻辑让结果的可读性很好,用户对 DS 的输出结果很满意。

产品设计

最近做内部的数据标注平台,数据的提供方和使用方都是内部技术人员,对这部分的设计就比较随意,甚至由于工期过紧,部分功能没有设计,直接在数据库里操作。

而对我们的一线用户,也就是标注员,则废了不少心思。为了确保标注员的工作顺畅,从登陆完成到开始工作,仅需一次点击即可,标注内容的选择和样本的分发都由系统自动完成,确保标注员除了标注以外,不必在其他任何地方费心思。

然而用户反馈还是不太好,标注员认为快捷键设计得太少,而且不好用。这一点我起初没有发现,因为我标注的时候不赶时间,从流程上来讲平台还算好用。可是带入到标注员的角色,快捷键不好用就意味着标注效率低,而他们的工资和标注的字节数相关联,效率低就意味着收入低。

当我用赶时间的心态再次使用我们自己的平台,发现确实是存在这个问题,虽然平台使用没有不顺的地方,但是效率确实不高,这直接影响了标注的效率和模型训练的排期。

于是我立即着手调研优化快捷键,优化后分析数据发现,优化后的标注速度较优化前提高了 25%。

产品设计时 PD 会尽量地站在用户的角度考虑,但是往往难以考虑周全,很容易忽略一些角度,从而导致产品最终还是有问题。


产品设计思考-12
https://crispitol.github.io/2025/05/02/产品设计思考-12/
Author
Crispitol
Posted on
May 2, 2025
Licensed under