DeepSeek V4 发布

这两天 DeepSeek V4 发布了,引起了全世界的关注。Pro 版本百万 tokens 输入/输出价格为 12/24 元,flash 版本为 2/3元。说实在的,Pro版本差点意思,没有全模态,但是价格居然和kimi处于同一档位。虽然后期等华为的算力卡部署之后会下调价格,但这已经是后话了。

从参数上看,纯文本 1.6T 参数量,在开源模型里面排第一,实际使用起来也还可以。但就像之前所说的,没有多模态,用起来很不舒服。

其次就是输出速度的问题。Pro 输出速度和上一代基本一致,30 tps,已经低于主流的速度了,但好在首字时延依旧是全球最低。flash 版本在80 tps左右,也是不敌其他主流的 flash 模型速度,qwen、grok 都可以到200左右(grok甚至满血版模型都有150+ tps,非常惊人)。

目前来看,DeepSeek 最大的优势在于价格。市面上同等智力的模型,都做不到 3元/百万tokens 输出这种几乎赔本的水平。而且 flash 模型本身并不差,用来搞多 agent,接入 openclaw 肯定是绰绰有余;搭配 dify 平台构建工作流也不用担心账单爆炸,可以放心处理大量的文本。

Kimi K2.6 及其订阅计划

使用体验

先说结论,kimi 母庸置疑是国内日常最好用的模型,没有之一。

首先是基础性能,原生的多模态,问问题时直接给他喂图就行。参数量 1.1T ,同样采用MoE 架构,官网输出速度 50 tps 左右,api 反而低而且高峰期容易卡。

kimi 最大的优势在于他的技能调用。严格来说 kimi 已经不能算是一个纯粹的 ai 模型。只要涉及到稍微复杂一些的计算,他都会自动调用 python ,在云端跑代码出结果进行验算,涉及到图的也会通过 python 绘制再返回给用户,这点非常好。

其次就是他的 agent 功能。kimi 的网页端和 app 端自带agent,也就是说能够直接让他执行复杂的任务,比如生成调研报告、制作 PPT 等。目前体验下来,有几个致命问题:第一是他生成的 PPT 无法渲染公式,永远只能生成扁平的文字公式;第二就是他的 agent 被加了很大的限额,稍微复杂一些的任务,会直接被阻断,提示达到限额。但简单的任务还是可以胜任的,比其他家的纯对话模式不知道强了多少。

订阅计划推荐

首先要明确的是,kimi 不充钱几乎没法用,只要稍微多发两条消息就提示算力不足,请排队。

目前订阅计划分四个:

最便宜的,如果按月购买是49一个月。包年更便宜。

目前 kimi 采取的是所谓的 统一额度 ,就是网页对话,agent 执行, PPT 制作,深度调研、文档处理等都从一个总的额度池里面扣。但是这个额度池并没有想象的好,最主要就是体现在 agent 上面,有一个隐性的限制,只要短期内用的多就会触发限额,哪怕是99一个月的套餐也容易被限制。但这个其实也不是什么大事,因为agent 我一般放在本地跑:kimi code 通过插件在 vscode 里面调用。

省流一下就是,只推荐买最便宜的套餐,而且如果你只有对话和问答需求,最便宜的套餐都有点奢侈了。因为这个套餐其实包含了很多东西,最重要的是kimi code,你可以理解为在 vscode 里面装个插件,然后让 kimi 帮你写代码,类似国外的 cursor 。主要会消耗额度的也就是agent 和 code 这两个功能。但说实话,国产模型写代码还是差点意思,真心不推荐用国产模型搞编程,会浪费大量的时间,效果也不好。

app 和网页端的设计非常好,审美是国内最好的,用起来非常舒服。

Qwen系列

前两个月出了Qwen 3.5-plus,最近又更新到了3.6版本。

如果想不开可以试着用用,反正我是绝对不会再碰这个东西了

App 完全不是人做的,一股vibe-coding 气息扑面而来;难看就算了,交互逻辑也极其反人类,设计师直接下岗吧。

看看阿里云官网的审美,真的恶心:

模型本身也不行,参数量就不够,分数我怀疑都是刷的。思维链比火车都长,结果还经常不对。qwen3-max 依旧是国内最强的非思考模型,比 DeepSeek 好,但是 app 端还得手动调用,没适配好。总是就是:

别用。

别用。

碰都别碰。

豆包

小问题问一问就是了,智商太低

Gemini 3.1 Pro

全球智商最高,理工科问题回答非常准确,而且香港的虚拟卡也可以开会员,挺好的。

但是学生优惠白嫖的人太多,导致官方限制了回答长度,所以只适合让他做题。目前的回答长度甚至无法让他整理复习资料。

想体验可以去便宜买个号试试,智商非常高,回答非常准但是没法干重活。

ChatGPT

已经是美国的 Qwen 了。回答塞了一大堆令人厌烦的颜文字,智商也不是最顶尖。

目前反而是他的 codex 非常好,代码能力第一梯队,而且是拉到云端自动迭代,很省事。图像生成现在断档领先

如果没有代码需求别买。

Grok

一个畸形的产品。

无法确认智商,代码能力为0。反正他给的代码我从来没有成功运行过。

优点就是信息更新快,可以帮你看推特。网络搜索能力强,上世纪的文章都能扒出来。

还有就是对情绪的观察非常敏锐,有一点人的感觉了。

Claude

直接看图吧:

全球最好的 coding 模型,真的太强了。但官方严格封锁国内使用,只要检测到是国内的 ip ,哪怕是200刀一个月的会员账号也是秒封。实在想用建议买 cursor 的会员,然后从 cursor 里面调用。

只适合编程,中文数据库已经被污染了。

总结

目前看下来,国内 kimi 比较值得开一个连续包年的最低档会员,会带来非常好的体验,既可以对话又可以编程。国外的不建议开,现在降智的降智,封锁的封锁,而且价格不便宜。重度编程需求建议开 cursor 的会员,可以调取市面上绝大部分的模型。