Research Notebook
Vol. 04 / 2026 Filed under — Tooling

Claude.ai の Research を、
Claude Code で再現する。

青いボタンの Research が裏でやっている「自律的に深く掘る」体験を、ターミナルから引き出すための実装経路を、二つの方向で整理する。

Claude.ai の Research ボタンは Web/モバイル専用の機能で、Claude Code には組み込まれていない。それでも、同じ「自律的に多段階で調べてくれる」挙動を再現する方法は、コミュニティ製の Skill を入れる経路と、Anthropic 自身が社内で採用しているサブエージェント並列の構造を自分で組む経路の二つに、はっきり分かれている。前者は最速で立ち上がり、後者は最も近い体験を得られる。本稿はこの二経路を、実装のレベルまで降りて見ていく。

01
Approach A — Skill で持ち込む

8フェーズのパイプラインを、ディレクトリに置くだけで動かす。

もっとも軽量で、しかも Claude.ai の Research に体験として近いのは、199-biotechnologies/claude-deep-research-skill をそのまま ~/.claude/skills/ に置く方法である。Skill は Claude Code が起動時に読み込む手順書で、これを入れると deep research on … という自然文の指示だけで、スコープ策定から引用付きレポート生成までを一筆書きで走らせてくれる。

このスキルは8フェーズのパイプラインを内蔵している。フェーズの役割は単純な順送りではなく、Critique(批判フェーズ)から Retrieve に巻き戻すループバックが組み込まれているのが特徴で、ここが Claude.ai の Research の「足りないところを自分で補いに戻る」挙動に対応している。

The 8-phase pipeline
01
Scope 境界の確定

問いの輪郭と、答えるべきサブ質問を切り出す。スコープが曖昧なまま進むと後段すべてが薄まるので、ここで型にはめる。

02
Plan 検索戦略

どのサブエージェントに何を割り振り、どの検索プロバイダを優先するかを設計する。

03
Retrieve 並列収集

5〜10本の並列検索と、2〜3個のサブエージェントが同時に走る。それぞれが構造化された証拠を返す。

04
Triangulate 三角測量

複数情報源で同じ主張が裏取りできるかを検証する。主要な主張ごとに3本以上のソースを要求するルール。

05
Outline Refinement 骨格再構成

出てきた発見をもとにレポートの構造を組み直す。最初に立てた仮説に縛られない。

06
Synthesize 本文生成

箇条書きではなく散文(80%以上)として書き起こす。読み物として通る文章にする方針。

07
Critique & Refine レッドチーム → 巻き戻し

複数のペルソナで自己批判をかけ、致命的なギャップが見つかればフェーズ3に戻って取り直す。

08
Package 出力

Markdown / HTML / PDF の三形式で、引用と参考文献付きの最終成果物にまとめる。

四つの深さモード

同じパイプラインでも、走らせる深さは選べる。クイックなら数分で粗い概観が返り、ウルトラディープを指定すれば数十分かけて Claude.ai の Research と同等以上の重さで掘る。普段使いは Standard、本気のときだけ Deep か UltraDeep、というのが妥当な使い分け。

Quick
2–5min
3 phases
Standard
5–10min
6 phases
Deep
10–20min
8 phases
UltraDeep
20–45min
8+ phases / loop-back

導入はワンコマンド

インストールはディレクトリにクローンを置くだけ。Python は標準ライブラリしか使わないので、追加の pip install も基本的に要らない。検索の質を底上げしたい場合だけ、search-cli という多プロバイダ統合 CLI を入れて Brave / Serper / Exa / Jina / Firecrawl の API キーを差し込む構成になる。

# Skill 本体を Claude Code の skills ディレクトリに配置
$ git clone https://github.com/199-biotechnologies/claude-deep-research-skill.git \
    ~/.claude/skills/deep-research

# (任意)多プロバイダ検索 CLI を入れる
$ brew tap 199-biotechnologies/tap && brew install search-cli
$ search config set keys.brave YOUR_KEY

# 使い方は自然文。モードを指定するだけ。
claude> deep research in ultradeep mode: compare PostgreSQL vs Supabase for our stack

Human-in-the-Loop の派生形

同じ Skill 系でも、Weizhena/Deep-Research-skills はまったく違う思想に立つ。こちらは自律的に走り切らせず、各段階で人間がレビューする「アウトライン生成 → 深掘り」の二段構成を取る。/research でまず調査対象の骨組みと収集すべきフィールドを出し、ユーザーが /research-add-items で対象を、/research-add-fields でフィールドを追加してから、初めて /research-deep で並列エージェントに突っ込ませる。最後に /research-report で Markdown レポートを書き出す。

暴走を許さず、調査の解像度を自分で詰めたい場面ではこちらが向く。逆に「投げて放っておきたい」用途では 199-biotechnologies のほうが噛み合う。Claude Code だけでなく OpenCode と Codex でも動くマルチハーネス対応も特徴。

「Skill は手順書をディレクトリに置くだけで動く。最速で Claude.ai の Research に最も近い体験まで届く経路だ。」— 本稿の判断
02
Approach B — サブエージェント並列を自前で組む

Anthropic 自身が社内で動かしている、オーケストレーター・ワーカー型を再現する。

Claude.ai の Research の中身を最も忠実に再現するのは、実はこちらの方向である。Anthropic がエンジニアリングブログで公開した multi-agent research system の構造そのものを、Claude Code の上で組み直すアプローチだ。

仕組みは単純で、リードエージェントがクエリを分解し、複数のサブエージェントに別々の観点を割り振り、それぞれが並列に Web 検索して証拠を持ち帰り、最後にリードが統合する。リードに Opus 4、ワーカーに Sonnet 4 という階層型の組み合わせが Anthropic の社内ベンチでの最適解だった。

90.2%
単一 Opus 4 と比べた、内部 Research 評価での性能改善幅
15×
通常のチャットに対するトークン消費の倍率(マルチエージェント時)
80%
性能差を説明する分散のうち、トークン使用量だけで説明できる割合

幅優先のクエリにだけ効く

注意すべきは、この構造が万能ではないという Anthropic 自身の指摘である。並列で広く探したい問い(市場調査、技術選定、文献サーベイ)には強烈に効く一方、サブエージェント間で文脈を共有しなければならないタスクや、リアルタイムに連携が必要なタスク、コーディングのように分割しづらい作業では、むしろ通常の単一エージェントのほうが安定する。

つまりサブエージェント並列は、幅を取りにいく問いのためのアーキテクチャだ。Claude.ai の Research が市場・技術・人物の調査で異様に強く、コーディングや特定のロジック解明では Web 版の通常チャットのほうが速い、という肌感覚はこの設計から来ている。

プロンプト設計の勘所

Anthropic は、リードエージェントに対する指示の書き方として五つのポイントを挙げている。サブエージェントを呼び出すときには「目的・出力形式・使うべきツール・タスク境界」を明示すること。クエリの複雑度に応じて投入するサブエージェント数を可変にすること(簡単なら1体・3〜10ツール呼び、複雑なら10体以上)。Extended Thinking を使って事前にプランニングさせること。ツール選択のヒューリスティックを明文化すること。検索は「広く短いクエリから始めて段階的に絞る」戦略にすること。

これらを満たすリードプロンプトを CLAUDE.md や Skill に固めてしまえば、Claude Code 内で起動した親 Claude が、--allowedTools "Bash(claude:*)" を許可された状態で別の Claude プロセスをサブエージェントとして並列起動し、結果を吸い上げて統合する、という挙動が成立する。

Claude Agent SDK との関係

2025年後半、Anthropic は Claude Code SDK を Claude Agent SDK に改称した。改名は単なるリブランディングではなく、「Claude Code の中身は実は汎用エージェント基盤だった」という事実の追認である。SDK は端末・ファイルシステム・ネットワークという、人間のプログラマが日常的に使う道具一式をエージェントに渡す。だから Deep Research も、コーディング支援も、社内ドキュメント横断検索も、同じ基盤の上に乗る。

Claude.ai の Research を社外で再現したいなら、本来はこの SDK で組むのが最も筋が良い。Claude Code はその参照実装にすぎない、という見え方になる。

「サブエージェント並列はトークンを15倍焚く代わりに、単一エージェントを 90% 上回る。価値の高い問いにだけ向ける刃である。」— Anthropic, Engineering blog
03
Side by side

二つの経路を、同じ尺度で並べる。

観点 A. Skill 型(199-biotechnologies) B. サブエージェント並列(自前構築)
立ち上げ速度 git clone 一発で完了。数分で動き出す。 オーケストレーション用プロンプトと権限設定を自分で書く必要があり、半日〜数日。
自律性 高い。スコープ確定から引用付きレポートまで一筆書き。Critique からのループバックも内蔵。 最も高い。リードがクエリを動的に分解し、必要なら追加でサブエージェントを生やす設計が可能。
体験の Claude.ai Research らしさ 近い。8フェーズと並列収集により、出力の重さと引用の手触りはほぼ同等。 最も近い。Anthropic 自身がこの構造で社内 Research を組んでいる。
所要時間 2分(Quick)〜45分(UltraDeep)。モードで明示的に切り替え。 クエリの複雑度とサブエージェント数次第。10分〜数十分。
コスト感 モードに応じて自動で抑制される。UltraDeep は重い。 15倍のトークン消費を覚悟する設計。1クエリ $1〜5 の試算もある。
カスタマイズ余地 Skill ファイルを書き換える範囲。ドメイン特化させるのは可能だが大改造は重い。 最大。ドメイン特化のリードプロンプトと専用ツールを差し込み放題。
苦手 並列度や役割分担を細かく握りたい場面。 気軽に試したい場面。アーキ設計の自由度が逆に立ち上げの遅さになる。
04
Recommendation

どちらから始めるか。

結論は「まず A、不満が出たら B」である。これは慎重論ではなく、実装コストと得られる学びの順序の問題だ。

199-biotechnologies の Skill は、Claude.ai の Research と肌感覚で並ぶ体験を最短で確かめさせてくれる。動かしてみて初めて、自分のドメインに対する出力の癖、深さモードの使い分け、引用の質に対する不満が言語化できるようになる。その不満が具体的に固まってから、サブエージェント並列で自分の仕様に作り変えるほうが、無駄な抽象化を避けられる。

Recommended path

はじめは 199-biotechnologies/claude-deep-research-skill~/.claude/skills/deep-research に置いて、Standard モードで2〜3本のリサーチを回す。出力品質と速度の感触を掴んだうえで、深掘りが必要な領域だけ Anthropic の multi-agent research 構造を Claude Agent SDK で自前実装する。

制御を細かく握りたい場面が混じるなら、合間に Weizhena 版の Human-in-the-Loop Skill を併用すると、「自律で走らせるか/段階で握るか」を問いごとに切り替えられて運用が楽になる。

05
Sources

出典。