Qwen 3.6 Plus vs DeepSeek V4 Pro:実際のコーディングタスク3本で検証

SWE-bench のスコア差は2ポイント以内。それでも失敗の仕方は違う。アルゴリズム実装、複数ファイルのリファクタ、ロングコンテキストのバグ調査でどちらがどこで勝つかを検証した。

Qwen 3.6 Plus vs DeepSeek V4 Pro:実際のコーディングタスク3本で検証

TL;DR — Qwen 3.6 Plus(SWE-bench Verified で78.8%)と DeepSeek V4 Pro(80.6%)は看板のコーディングベンチで2ポイント以内に収まったが、実際の作業では失敗の仕方が違う。V4 Pro は速く、ローンチプロモ中は安く、境界が明確な一発タスクで強い。Qwen 3.6 Plus の常時オンの reasoning は V4 Pro が飛ばすエッジケースを拾い、V4 Pro がドリフトし始める200Kトークン超えでもコンテキストの一貫性を保つ。両モデルを3つの具体的なコーディングタスク(アルゴリズム実装、複数ファイルのリファクタ、ロングコンテキストのバグ調査)に通したところ、最適なモデルはタスクごとに変わった。正直な答えは、1つを選んで思考を止めるのではなく、タスクの種類でルーティングすることだ。

SALE — 新規ユーザーに $5 の無料クレジットofox.ai 経由で DeepSeek V4 Pro と Qwen 3.6 Plus をルーティング。OpenAI 互換キー1本で。

「コーディングに使えるオープンウェイトモデル」という問いは、かつて DeepSeek 対その他すべて、を意味していた。2026年5月時点では、それは DeepSeek 対 Alibaba を意味する。SWE-bench Verified の差は1.8ポイントで、実行ごとのばらつきに十分収まる範囲だ。どちらも1Mトークンのコンテキストを備え、どちらも OpenAI 互換の tool calling を公開し、どちらも Claude Opus より一桁以上安い。

面白い問いは、ベンチで誰が勝つかではない。それぞれがどこで壊れるか、だ。

価格とアーキテクチャ:実際に何が違うのか

タスクに入る前に、どちらかのモデルをあなたのスタックに入れる価値があるかを決める数字から。

モデル入力(リスト)出力(リスト)コンテキストパラメータリリース
Qwen 3.6 Plus(ofox)$0.50/M$3.00/M1MLinear-attention MoE、reasoning デフォルトオン2026-04-02
DeepSeek V4 Pro(直接)$1.74/M$3.48/M1M合計1.6T / 活性49B MoE、MIT ライセンス2026-04-24
DeepSeek V4 Pro(ローンチプロモ、2026-05-31 終了)$0.435/M$0.87/M1M

出典:DeepSeek API pricing(2026-05-15 検証)、ofox.ai model catalogHugging Face V4 Pro card

この表の読み方を変える価格上の細部が2つある。V4 Pro のローンチプロモは5月31日に終了し、その後は入力も出力も価格が4倍に跳ね上がる。プロモ価格を前提に予算を組んでいる人は、6月1日に痛い目を見る。そして Qwen 3.6 Plus の入力価格 $0.50/M は、実は DeepSeek のプロモ終了後のレートを下回る。出力 $3.00/M も V4 Pro のプロモ終了後 $3.48/M より低い。プロモ期間を超えて続くワークロードでは、コスト差は大幅に縮まる。

アーキテクチャの違いは価格差より重要だ。V4 Pro はスパースな MoE で、各トークンを合計1.6Tのうち49Bの活性パラメータにルーティングする。Qwen 3.6 Plus は linear attention と常時オンの chain-of-thought を組み合わせており、頼んでいなくてもすべての応答に reasoning_content フィールドが付く。その reasoning には出力トークンのコストを払うことになる。慎重な思考が必要なタスクなら、これは資産だ。定型コードでは、儀式に金を払っているだけになる。

DeepSeek ファミリー全体のコスト像については、DeepSeek API 料金の内訳を参照。V4 ファミリー内でのコストと品質のトレードオフについては、V4 Pro vs Flash 詳細比較が Pro がオーバースペックになる場面をカバーしている。Qwen 3.6 Plus 単体のアクセス方法とベンチマークは、Qwen 3.6 Plus 完全ガイドに model ID と curl のウォークスルーがある。

タスク1:エッジケースを含むアルゴリズム実装

最初のタスクは、開発者がコーディングモデルを試すときに手を伸ばす類のものだ。この制約でこの関数を実装せよ、というやつ。プロンプトに自明でないエッジケースを3つ明示した sliding-window の文字列アルゴリズムを使った。空入力、1文字入力、そしてウィンドウサイズの off-by-one 境界だ。

V4 Pro はおよそ8秒でクリーンで慣用的なコードを生成した。空入力のケースは正しく処理した。1文字のエッジケースは最初のパスで取りこぼし、関数は仕様の値ではなく誤った結果を返した。確認のフォローアッププロンプトで修正された。

Qwen 3.6 Plus はもっと時間がかかり、reasoning トレース込みで14秒。3つすべてのエッジケースを最初のパスで処理するコードを生成した。reasoning トレースは実装を書く前に境界条件を明示的に列挙していた。コード自体は V4 Pro の初回の試みよりわずかにエレガントさが劣り、変数が1つ余分、optimizer が拾うであろう冗長な length チェックが1つあったが、反復なしで正しかった。

アルゴリズム的タスクで繰り返し見られたパターン:V4 Pro は速く、初回パスでより慣用的に見えるコードを生成するが、Qwen 3.6 Plus より頻繁にエッジケースを飛ばす。Qwen の出力にある reasoning トレースは飾りではない。コミットする前にモデルへ境界条件を一通りたどらせるもので、この種のタスクでは V4 Pro が落とすものを一貫して拾う。

このタスクのコスト。 入力2,500 / 出力800トークンのリクエストは、V4 Pro(プロモ)で約 $0.0035、V4 Pro(リスト)で $0.0103、Qwen 3.6 Plus で $0.0037 だ。Qwen の reasoning トレースの出力トークンコストは現実のもので、800トークンの回答に加えて reasoning が1,500トークンほど、合計でおよそ $0.0045 になる。差は実在するが、単一タスクではノイズだ。差が効いてくるのは月10回ではなく月10,000回のときだ。

このカテゴリの選定ルール。 パイプラインを乱さずに取りこぼしたエッジケースを修正するフォローアッププロンプトを1回流せるなら、V4 Pro のほうが安くて速い。初回パスで間違った答えを許容できないパイプライン、たとえば diff をコミットする無人エージェントなら、Qwen の reasoning プレミアムを払え。

タスク2:相互参照を含む複数ファイルのリファクタ

2つ目のタスクは、構文を知っているだけのモデルと、コードベースをワーキングメモリに保持できるモデルを切り分ける。両モデルに4ファイル(TypeScript のサービス、2つのコンシューマ、テストファイル)を与え、メソッドをリネームし、シグネチャを位置引数からオプションオブジェクトを取る形に変え、両方の呼び出し箇所を更新し、テストのモックを合わせて更新するよう依頼した。

プロンプトはおよそ12Kトークンに収まった。両モデルともコンテキストには余裕たっぷりだった。どちらも、ざっと読む限り正しく見える出力を生成した。

V4 Pro はサービスファイルでのリネームを正しく行い、最初のコンシューマも正しく更新したが、2番目のコンシューマでオプションのデフォルト値を取りこぼした。元のコードが位置引数として特定のデフォルト値を渡していた箇所に、{} を渡してしまったのだ。テストファイルは正しく更新された。このバグは、テストがカバーしていない特定のコードパスで2番目のコンシューマが呼ばれたときにだけ現れる。構文エラーではなく、静かな意味的ドリフトだ。

Qwen 3.6 Plus はそのデフォルト値を拾った。reasoning トレースは明示的にこう記していた。「コンシューマ B は defaultPolicy を2番目の位置引数として渡している。オプションオブジェクト形式ではこれは { policy: defaultPolicy } であるべき」。さらに、新しいシグネチャを検証するためテストファイルのモック設定にアサーションを1つ追加する必要があると指摘した。V4 Pro が触れていなかった点だ。

このタスクでの Qwen の勝因はコード品質ではない。両モデルとも構文的に正しい出力を生成した。鍵は明示されていない不変条件だ。複数ファイルのリファクタには、プロンプトが明示しない不変条件がたいてい存在する。デフォルト値、順序の前提、コードベース全体で守られているエラー処理の慣習などだ。V4 Pro は明示的な指示を捉え、暗黙のものを滑らせる傾向がある。Qwen の常時オンの reasoning ステップは、その不変条件を表に出して対処する。

これは DeepSeek V4 Pro vs Flash の比較が長いファイルのリファクタで Flash について指摘したのと同じ失敗モードだ。ただしここでは微妙な不変条件を取りこぼしているのが V4 Pro のほうだという点が違う。タスクが12Kトークンに収まり、難しさがコンテキスト長ではなく reasoning の深さにあるとき、Pro と Flash の一貫性の差は縮まる。

このタスクのコスト。 プロンプト+出力の全体は入力12K / 出力3Kトークンほどになった。V4 Pro:$0.031(リスト)/ $0.008(プロモ)。Qwen 3.6 Plus は reasoning 込みで $0.018。リスト価格では Qwen がコストで勝ち、プロモではわずかに負け、初回パスの正確さではどちらの価格でも勝つ。

選定ルール。 プロンプトがすべての不変条件を列挙しきれない複数ファイルのリファクタは Qwen 3.6 Plus。このカテゴリでは reasoning トレースが具体的な価値を買ってくれている。芝居ではない。

タスク3:ロングコンテキストのバグ調査(200Kトークンのリポジトリスナップショット)

3つ目のタスクはコンテキスト長を押し上げる。オープンソースのコードベースを約200Kトークン(トップレベルのディレクトリ3つ、ファイルおよそ80個)プロンプトに読み込ませ、こう尋ねた。このスタックトレースの根本原因を見つけよ。トレースは汎用的なエラーパスを指していたが、実際の原因は呼び出し3段下、トレースが直接名指ししていないファイルの中にあった。

両モデルとも紙の上では1Mトークンのコンテキストウィンドウを持つ。問題は、入力長を受け付けるかどうかではなく、入力長の上端でどう振る舞うかだ。

V4 Pro はスタックトレースを読み、直近の呼び出し元関数を特定し、そのファイルを調べ、バグは直近の呼び出し元にあると結論づけた。間違いだった。その呼び出し元は妥当なデータを渡していて、バグは1段深く、配列を静かに変異させていた変換ステップの中にあった。V4 Pro の応答は自信ありげで具体的で、原因に触れず症状を抑え込むだけの修正案を提示していた。フォローアッププロンプト(「3段深くたどれ」)で本当のバグを見つけた。

Qwen 3.6 Plus は reasoning の予算をコールスタックではなくデータフローのトレースに使った。トレースを読み、不正な値が生じたであろう箇所から逆向きに始め、各変換を順にたどっていった。初回パスで静かな変異を正しく特定した。reasoning トレースは4,000トークンの長さだった。答えは正しかった。

ロングコンテキストのタスク全般での興味深い観察:V4 Pro は200Kトークンの入力長でも構文理解の一貫性は保つが、因果の連鎖では精度をいくらか落とす。Qwen 3.6 Plus はその入力長では遅く高くつく(reasoning トークンが入力の複雑さにおおむね比例してスケールするため)が、原因と結果のトレースは明らかに優れたものを生む。

これは独立したレビュアーの報告とも一致している。Artificial Analysis の intelligence-index 手法は、Qwen 3.6 Plus を合成スコアで50点と評価し、同価格帯の reasoning モデルの中央値35点を上回る。そして差が最も大きいのは、生のスループットより reasoning の深さに報いるタスクだ。BenchLM V4 Pro レポートはその逆を示す。V4 Pro はスループット重視のベンチと短いコンテキストのコーディング作業で勝つ。

このタスクのコスト。 入力200K + 出力4K(V4 Pro)、または入力200K + 回答4K + reasoning 4K(Qwen)。V4 Pro はリストで $0.362。V4 Pro はプロモで $0.090。Qwen 3.6 Plus は $0.124。リストでは Qwen がコストで勝ち、プロモには負け、そして初回パスで答えを正しく出せた唯一のモデルだ。

選定ルール。 ロングコンテキストのバグ調査や「このコードベースは何をするのか説明せよ」系のタスクは Qwen 3.6 Plus。V4 Pro は速いが、大きな入力に対する因果推論では、再プロンプトが必要なら速さは役に立たない。

全体像はどう見えるか

3つのタスクを通して、勝敗は割れている。

  • タスク1(アルゴリズムのエッジケース): フォローアップ1回後の正確さは引き分け。初回パスの正確さは Qwen の勝ち。速さとプロモ時コストは V4 Pro の勝ち。
  • タスク2(複数ファイルのリファクタ): 正確さは Qwen の勝ち。コストはプロモ価格のときだけ V4 Pro の勝ち。
  • タスク3(ロングコンテキスト調査): 正確さは Qwen の勝ち。速さとプロモ時コストは V4 Pro の勝ち。

これを単一のランキングに平らに潰せば、Qwen 3.6 Plus がより慎重なモデルで V4 Pro がより速いモデルだ、と言える。おおむね正しいが、結果の構造を失う。本当の要点は、答えはプロンプトに既に入っているものに依存するということだ。

  • プロンプトがすべてのエッジケースと不変条件を明示的に列挙しているなら:V4 Pro のほうがクリーンな初回出力を生み、速い。
  • プロンプトが探索的、または暗黙の知識に依存しているなら:Qwen 3.6 Plus の reasoning ステップが V4 Pro の見落とす穴を拾う。

本番のプロンプトはたいていその中間のどこかにある。正直な答えは、両方をルーター越しに走らせること(境界が明確な一発タスクを V4 Pro に、探索的またはマルチステップなものを Qwen 3.6 Plus に)が、失敗モードを避けつつ両者の強みを捉える、ということだ。この種のルーティングを Claude Code や類似のセットアップにどう組み込むかは、ハイブリッドルーティングパターンのガイドが具体的な実装をカバーしている。

2026年のコーディングモデル選定のより広い視点については、実利用で順位付けしたコーディング向け最強 LLMが両モデルをより広いフィールドの中に位置づけ、LLM API 選定の決定マトリクスがカタログ全体についてモデル×タスク種別の軸をマッピングしている。

プロモ期間の判断

この比較の意味あるサブセットは2026年6月1日に蒸発する。DeepSeek のローンチプロモが終了し、V4 Pro の価格が100万あたり $1.74 / $3.48 に戻るからだ。注記しておく価値のある具体的な判断が3つある。

  • タスク1型のワークロード(境界が明確なアルゴリズムコード)が多く、すでにプロモ価格で V4 Pro を使っているなら:6月1日のコスト4倍増を予算に織り込むか、境界が明確なタスクを V4 Flash に落とすルーターを組め。その線をどこに引くべきかは V4 Pro vs Flash の記事がカバーしている。
  • タスク2型のワークロード(暗黙の不変条件を含む複数ファイルのリファクタ)が多いなら:Qwen 3.6 Plus はすでに正確さの面で正解だ。6月1日以降はコストの面でも正解になる。
  • タスク3型のワークロード(ロングコンテキストの探索)が多いなら:Qwen 3.6 Plus はプロモのタイミングに関係なく正解だ。プロモ下での V4 Pro のコスト優位は、必要になる再プロンプトを生き延びない。

より広いパターン:V4 Pro のプロモ価格は販売戦術であって、定常状態の経済的主張ではない。2026年残りのトークン予算をモデリングするなら、割引ではなくリスト価格を使え。

1本のキーで両方にアクセス

両モデルとも ofox.ai で OpenAI 互換エンドポイントを通じて公開されている。model ID は以下のとおり。

  • Qwen 3.6 Plus: bailian/qwen3.6-plus
  • DeepSeek V4 Pro: deepseek/deepseek-v4-pro
from openai import OpenAI
client = OpenAI(base_url="https://api.ofox.ai/v1", api_key="$OFOX_API_KEY")

resp = client.chat.completions.create(
    model="bailian/qwen3.6-plus",  # or "deepseek/deepseek-v4-pro"
    messages=[{"role": "user", "content": "..."}],
)

どのモデルがどのタスクを処理するかというルーティングのロジックは、課金設定ではなくコードの中に置かれる。キー1本、モデル2つ、model の文字列を変えるだけで切り替えられる。ゲートウェイのセットアップ全体の話は、AI API アグリゲーション:1つのエンドポイントですべてのモデルにアクセスを参照。モデル選定の上に積み上がるコスト削減の手法については、AI API コストの削減方法がキャッシュ、バッチ処理、ルーティングのパターンを両モデルに適用できる形でカバーしている。

共有する価値のある結論: この2つのモデルはベンチマーク上十分に近いので、正解は「両方、ルーター越しに」だ。勝者を決定的に選んだと言ってくる人は、1つのタスク種別に過剰適合している。ルーターを一度組めば、オープンウェイトのコーディング選定は、ベンダーロックインではなくロードバランシングになる。

参考文献