<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>DeepSeek V4 on KnightLi的博客</title>
        <link>https://www.knightli.com/tags/deepseek-v4/</link>
        <description>Recent content in DeepSeek V4 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Tue, 28 Apr 2026 22:18:00 +0800</lastBuildDate><atom:link href="https://www.knightli.com/tags/deepseek-v4/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>GPT 5.5、Claude Opus 4.7、DeepSeek V4、Qwen 3.6 Max 怎么选</title>
        <link>https://www.knightli.com/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</link>
        <pubDate>Tue, 28 Apr 2026 22:18:00 +0800</pubDate>
        
        <guid>https://www.knightli.com/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</guid>
        <description>&lt;p&gt;如果你现在只想知道一句话答案，那可以先记这个版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;要最稳、最省时间，优先看 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;要页面观感、创意和展示感，&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 还是强&lt;/li&gt;
&lt;li&gt;要看国产模型里谁最接近第一梯队，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 现在很有竞争力&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 不是不能打，但波动比前面几家更明显&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;很多人问“现在最强编程 AI 到底是谁”，其实问到最后，通常不是在问排行榜，而是在问一件更实际的事：&lt;br&gt;
&lt;strong&gt;我现在要写页面、做 demo、生成小工具、补交互，哪一个最容易一次就给我能用的东西。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;从这个角度看，这几家模型的差别已经很清楚了。&lt;/p&gt;
&lt;h2 id=&#34;先说总判断&#34;&gt;先说总判断
&lt;/h2&gt;&lt;p&gt;如果把 &lt;code&gt;GPT 5.5&lt;/code&gt;、&lt;code&gt;Claude Opus 4.7&lt;/code&gt;、&lt;code&gt;DeepSeek V4&lt;/code&gt;、&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 放在一起看，综合能力最稳的还是 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它不一定每次都是最花哨的那个，但它很少让你明显失望。速度快，第一次生成的完成度高，逻辑、交互、动效、小游戏这一类综合任务通常都比较顺。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 的特点很不一样。它最强的地方不是“最稳”，而是页面气质、UI 组织和展示感。很多时候你一打开它写的东西，会先觉得“这个看起来像回事”。如果你更在意页面呈现，它还是很值得看。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 是这几家里最值得重新看的一个。它已经不是“国产里能用”这个级别了，而是有些场景下真的能和 &lt;code&gt;GPT 5.5&lt;/code&gt; 直接拼效果。尤其是前端页面、视觉完成度、拟真感这些部分，它已经开始有明显存在感。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 的问题不是完全不行，而是不够稳。它能写出来的时候并不弱，甚至有些场景还不错，但上下限差得比另外几家更明显。你有时候会觉得它挺能打，有时候又会觉得怎么突然掉下去了。&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-强在哪&#34;&gt;&lt;code&gt;GPT 5.5&lt;/code&gt; 强在哪
&lt;/h2&gt;&lt;p&gt;如果你平时最常做的是这些事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;直接生成一个完整网页&lt;/li&gt;
&lt;li&gt;做带动效的小 demo&lt;/li&gt;
&lt;li&gt;写有一点逻辑的互动页面&lt;/li&gt;
&lt;li&gt;生成小游戏或多状态交互&lt;/li&gt;
&lt;li&gt;想尽量少返工&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那 &lt;code&gt;GPT 5.5&lt;/code&gt; 基本还是最稳的答案。&lt;/p&gt;
&lt;p&gt;它的优势主要有几个：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;出代码速度快&lt;/li&gt;
&lt;li&gt;第一次成品可用度高&lt;/li&gt;
&lt;li&gt;逻辑和交互比较少出硬伤&lt;/li&gt;
&lt;li&gt;综合题表现稳定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;说得更直接一点，&lt;code&gt;GPT 5.5&lt;/code&gt; 最像一个“你把需求扔过去，它大概率能先把地基搭对”的模型。&lt;br&gt;
很多人真正缺的不是某一项最惊艳，而是第一版别翻车。这件事上它现在还是最让人省心。&lt;/p&gt;
&lt;p&gt;当然，它也不是完全没有短板。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;某些偏视觉表现的页面，不一定是最有惊喜的&lt;/li&gt;
&lt;li&gt;有时候太稳了，反而少一点设计感上的记忆点&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以如果你问“要一个默认推荐”，那还是 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;br&gt;
但如果你问“要不要只看它”，答案也不是。&lt;/p&gt;
&lt;h2 id=&#34;claude-opus-47-适合什么人&#34;&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 适合什么人
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 这类模型的吸引力，更多来自页面观感。&lt;/p&gt;
&lt;p&gt;它的长处通常是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;UI 结构更顺&lt;/li&gt;
&lt;li&gt;视觉表现更完整&lt;/li&gt;
&lt;li&gt;某些页面更有展示感&lt;/li&gt;
&lt;li&gt;在可视化和创意感上更容易出彩&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你让模型去做的是这些东西：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;演示页面&lt;/li&gt;
&lt;li&gt;数据展示页面&lt;/li&gt;
&lt;li&gt;强调观感的小网页&lt;/li&gt;
&lt;li&gt;想要一打开就“看着比较高级”的结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那 &lt;code&gt;Claude&lt;/code&gt; 依然值得进前排。&lt;/p&gt;
&lt;p&gt;不过它的问题也一直比较明显：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;稳定性不如 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;有时看着不错，但细节逻辑会偏掉&lt;/li&gt;
&lt;li&gt;个别场景里会出现功能能跑，但核心体验不够准的情况&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以 &lt;code&gt;Claude&lt;/code&gt; 更像一个有审美加成的前端型选手。&lt;br&gt;
你要是更看重页面“长得好不好”，它很有优势；你要是最怕第一次输出就出逻辑问题，那还是得更谨慎一点。&lt;/p&gt;
&lt;h2 id=&#34;qwen-36-max-为什么值得认真看&#34;&gt;&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 为什么值得认真看
&lt;/h2&gt;&lt;p&gt;这几家里，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 给人的最大变化感最明显。&lt;/p&gt;
&lt;p&gt;以前很多人看国产编程 AI，更多是抱着“能不能跟上”的心态。现在看 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;，已经是另一种问题了：&lt;br&gt;
&lt;strong&gt;它在一些前端直出场景里，到底能不能直接和国外头部模型打。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它现在比较突出的地方有这些：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;页面观感不错&lt;/li&gt;
&lt;li&gt;某些动效和拟真效果做得挺好&lt;/li&gt;
&lt;li&gt;生成结果比较有完成感&lt;/li&gt;
&lt;li&gt;有些题目里，效果已经能接近甚至咬住 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这说明一件事：&lt;br&gt;
如果你的使用场景偏网页、偏前端、偏展示结果，那 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 已经不是“备用选项”，而是可以认真放进主选名单的模型。&lt;/p&gt;
&lt;p&gt;当然，它还没有稳到完全没有短板。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;交互逻辑题上，偶尔还是会掉一点完成度&lt;/li&gt;
&lt;li&gt;有些页面很好看，但有些任务又会突然平一点&lt;/li&gt;
&lt;li&gt;起伏比 &lt;code&gt;GPT 5.5&lt;/code&gt; 还是大一些&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但整体上，它现在的存在感已经非常强了。&lt;br&gt;
如果你想知道“国产模型里现在最该重点看谁”，那 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 很难绕开。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-现在处在什么位置&#34;&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 现在处在什么位置
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 的情况稍微复杂一点。&lt;/p&gt;
&lt;p&gt;它的问题不是完全做不好，而是你不太容易预判它这次会落在哪个区间。&lt;br&gt;
有时候它能把事情做出来，观感和功能都不算差；有时候遇到稍微复杂一点、同时要求动画、逻辑、数据表现的任务，它又容易掉链子。&lt;/p&gt;
&lt;p&gt;它目前给人的感觉更像这样：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能力有&lt;/li&gt;
&lt;li&gt;不算弱&lt;/li&gt;
&lt;li&gt;某些题目可以交卷&lt;/li&gt;
&lt;li&gt;但稳定性还不够让人完全放心&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就决定了它现在更适合什么样的人。&lt;/p&gt;
&lt;p&gt;如果你愿意多试几次、能接受偶尔需要重来、或者你本来就会自己检查和修代码，那 &lt;code&gt;DeepSeek V4&lt;/code&gt; 还是可以继续用。&lt;br&gt;
但如果你就是想少折腾、想把第一次生成成功率放在前面，那它现在还不是最稳的答案。&lt;/p&gt;
&lt;h2 id=&#34;普通用户到底该怎么选&#34;&gt;普通用户到底该怎么选
&lt;/h2&gt;&lt;p&gt;如果你不是做模型评测，而是真的想拿来干活，那其实可以直接按用途选。&lt;/p&gt;
&lt;h3 id=&#34;1-想少折腾想提高第一次成功率&#34;&gt;1. 想少折腾，想提高第一次成功率
&lt;/h3&gt;&lt;p&gt;选 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它最适合的就是“我给需求，你先给我一版能用的”。&lt;br&gt;
尤其是你没有太多时间来回调、反复修的时候，它的综合稳定性最有价值。&lt;/p&gt;
&lt;h3 id=&#34;2-更看重页面展示感和视觉完成度&#34;&gt;2. 更看重页面展示感和视觉完成度
&lt;/h3&gt;&lt;p&gt;选 &lt;code&gt;Claude Opus 4.7&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果你想要的是一个看起来更像成品的页面，或者你做的是偏演示型、展示型的东西，&lt;code&gt;Claude&lt;/code&gt; 的优势会更容易体现出来。&lt;/p&gt;
&lt;h3 id=&#34;3-想重点看国产里最强的前端直出能力&#34;&gt;3. 想重点看国产里最强的前端直出能力
&lt;/h3&gt;&lt;p&gt;优先看 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它现在已经不是“将就用”，而是真的可以拿来正面比较。&lt;br&gt;
如果你的任务偏网页、偏动效、偏展示，&lt;code&gt;Qwen&lt;/code&gt; 的竞争力已经很实际了。&lt;/p&gt;
&lt;h3 id=&#34;4-能接受波动想继续观察国产综合能力&#34;&gt;4. 能接受波动，想继续观察国产综合能力
&lt;/h3&gt;&lt;p&gt;可以继续看 &lt;code&gt;DeepSeek V4&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它的问题不是没实力，而是发挥不够整齐。&lt;br&gt;
如果后面稳定性继续补上，它的存在感还会更强。&lt;/p&gt;
&lt;h2 id=&#34;最后一句话&#34;&gt;最后一句话
&lt;/h2&gt;&lt;p&gt;现在这几家主流编程 AI，差距已经不再是“谁能写、谁不能写”，而是“谁更稳、谁更好看、谁更适合你的任务”。&lt;/p&gt;
&lt;p&gt;如果你就想要一个最省事的答案，&lt;code&gt;GPT 5.5&lt;/code&gt; 还是第一选择。&lt;br&gt;
如果你想要更强的展示感，&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 仍然很有味道。&lt;br&gt;
如果你关心国产模型里谁最值得认真看，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 现在已经站到很靠前的位置。&lt;br&gt;
&lt;code&gt;DeepSeek V4&lt;/code&gt; 则更像一个还在继续补稳定性的强力选手。&lt;/p&gt;
&lt;p&gt;真要压成一句最短结论，就是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;最稳看 &lt;code&gt;GPT 5.5&lt;/code&gt;，最有观感看 &lt;code&gt;Claude&lt;/code&gt;，国产里最值得重点看的是 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;。&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
