ON AIR · BROADCAST 001
2026.04.29 · TUE
STATION / 101_StellarCreate / 801_技術検証
音声化Skill検討 · リサーチ統合ブリーフ

30P級レポートを
耳から吸収する。

移動中・歩行中・家事の合間。腰を据えて読むのが難しい時間に、リサーチ結果をラジオ風に流し聞きする。 「全部読まないと不安」を「全部触れた感じはする」に変えるための、設計の現在地と意思決定材料をまとめる。

TL;DR

ツール選定の答えは ElevenLabs v3 を本命Aivis Cloud API を国産特化の併用候補NotebookLM Plus を軽い回の即席用 の三段構え。 にじボイスは2026年2月に終了済みで対象外、新顔の Gemini 3.1 Flash TTS は要観察。

運用構成は、Mac で生成した mp3 を Cloudflare R2 に置き、自前の Podcast RSS を Overcast で購読する形が最適。 自動化は fswatch + launchd の常駐ワーカー、台本生成は scratchpad → script → selfcheck の三段プロンプトで組む。

月コストは検証フェーズで ¥0、自動化フェーズで ¥3,300〜5,000。 まずは NotebookLM に1本投げて体感を確かめ、十分なら打ち止め、物足りなければ自前パイプラインへ進むのが手戻りを最小化する。

30P REPORT × 6 RESEARCHES STANDARD DEPTH · STDREL 2026.04 JAPANESE TTS · MULTI-VOICE iPHONE · OVERCAST · CLOUDFLARE R2 30P REPORT × 6 RESEARCHES STANDARD DEPTH · STDREL 2026.04 JAPANESE TTS · MULTI-VOICE iPHONE · OVERCAST · CLOUDFLARE R2
SECTION 01

Rundown

本日の番組表 — 6本のリサーチ
01
音声生成ツール比較TOOL COMPARISON
ElevenLabs v3 / Aivis Cloud / NotebookLM Plus の三段。にじボイス終了。
COMPLETED
02
台本構成のベストプラクティスSCRIPT STRUCTURE
2人対話+会話調+章ごとの予告→本論→サマリ。約27分本編+Brief 2分版。
COMPLETED
03
台本生成プロンプト設計PROMPT DESIGN
scratchpad → script → selfcheck の三段。出典タグ強制でハルシネーション抑制。
COMPLETED
04
配信・同期フローDISTRIBUTION
Cloudflare R2 + 自前 Podcast RSS、iPhone は Overcast 購読。
COMPLETED
05
自動化・運用設計AUTOMATION
fswatch + キュー + launchd 常駐ワーカー。月コスト ¥0/¥500/¥3,300 の3レンジ。
COMPLETED
06
先行事例・既製品の棚卸しPRIOR ART
コア(音声化)は買い、上下レイヤー(集約・脚本・配信)は自作する切り分け。
COMPLETED
SECTION 02

Findings

各リサーチの要点
01 / TOOL COMPARISON

ツール選定は「品質・国産・手軽さ」の三段構え。

日本語の自然さで ElevenLabs v3、国産特化で Aivis Cloud、即席なら NotebookLM。

日本語の自然さは ElevenLabs v3 が頭ひとつ抜ける評価で、Creator プラン $22/月の枠で30Pレポート数本を捌ける。 国産では2026年2月に正式リリースされた Aivis Cloud API が低遅延・日本語特化で並び、Premium ¥1,980/月で実質定額運用が組める。

NotebookLM Plus は $19.99/月で1日20件まで生成でき、台本ごと丸投げできる手軽さが他にない。 ただし日本語版は10分弱で頭打ちになるため、深掘り回には向かず、軽い回の即席用に位置付けるのが現実的。

想定外の発見は2件。にじボイスが2026年2月4日に提供終了して対象外になっていたこと、Gemini 3.1 Flash TTS が4月15日にリリースされマルチスピーカー対話に対応したこと。後者は新顔として要観察。

02 / SCRIPT STRUCTURE

耳に残るのは「対話・入れ子・27分」。

2人対話で社会的処理を起動、章単位で予告→本論→サマリ、通勤帯に収まる尺。

1人モノローグより2人対話のほうが理解定着で優位という研究結果が複数あり、Mayer のパーソナライゼーション原理では会話調が形式調に対して効果量 d=1.11 で勝る。 質問役は素朴な疑問・言い換え催促・反例提示を担当し、聴き手のメタ認知を肩代わりする装置として機能する。

各章の冒頭に10〜15秒の内部プレビュー、末尾に同尺の内部サマリを必ず差し込む。 1章は4〜7分、エピソード全体は20〜30分が通勤の集中持続時間と噛み合う。

推奨構成は、オープニング90秒 → 第1章「背景と問い」4分 → 第2・3章「中心的な発見」6分×2 → 第4章「含意と次のアクション」5分 → クロージング90秒の計約27分。 これに Brief 形式の2分版を併走させると、全体像→深掘りの二段運用ができる。

03 / PROMPT DESIGN

三段プロンプトで忠実性を担保する。

scratchpad で下書き、script で本編、selfcheck で出典タグ検証。

ワンショット生成は破綻しやすい。OSS 実装の傾向と最新のプロンプトエンジニアリング知見を統合すると、 下書きフェーズ・台本フェーズ・自然化&自己検証フェーズの三段に切るのが頑健。open-notebooklm の二段プロセスに自己検証を追加した形。

役割設計は完全な聞き手・専門家ではなく、聞き手「あおい」(業務で関連領域に触れた程度)と語り手「はやと」(レポート執筆者本人設定)の半対称が実用的。 各発話の末尾に出典タグ [§見出し名] を強制し、ソース外の固有名詞や数字を作らないよう絶対制約として書き込む。

参考にしたOSSは Podcastfy(最も活発、設計の参考価値が高い)と open-notebooklm(プロンプト構造の発想元)の2件。 そのまま流用せず、忠実性制約と日本語の自然化フェーズを上乗せして運用する。

04 / DISTRIBUTION

プライベート Podcast を自前で持つ。

Cloudflare R2 + カスタムドメイン + Overcast 購読の三点セット。

Mac で生成した mp3 を Cloudflare R2 に上げて feed.xml を更新するだけで、iPhone の Overcast に自動的に届く。 手作業は「mp3 アップロード」と「feed.xml への item ブロック追記」の2ステップに収まる。

再生体験では Overcast の Smart Speed・章マーカー・復帰位置記憶が頭ひとつ抜ける。 Apple Books の非購入 m4b は2025〜2026年時点でも iCloud 同期が不安定で、プライベート RSS 経由の Overcast/Apple Podcasts 受信が現実解。

フィードの所有権が自分にあるので、将来 Pocket Casts や Apple Podcasts に乗り換えても同じ URL で購読し直せる。 R2 は下り無料で月の保管料も小さく、ロックインの心配がない。

05 / AUTOMATION

fswatch + launchd で常駐ワーカー。

サブディレクトリ監視、リトライ、ストレージ警告まで含めた現実解。

launchd の WatchPaths 単体ではサブディレクトリを検知できないため、Homebrew の fswatch を常駐させて FSEvents 経由でリアルタイム検知し、 ローカルキュー(SQLite またはテキスト)に push、別ワーカーが順次処理する構成が頑健。

リトライは指数バックオフで初回1分→次2分→4分→8分→16分の最大5回。 429 と 5xx は自動リトライ、4xx は dead-letter キューへ移して人間レビュー、というルール分けが定石。 通知は ntfy.sh を curl 1行で iPhone に届ける構成が軽量。

初期構築は5〜7人日、月次運用は dead-letter 対応のみで0.5人日/月程度。 deep-research スキル(既存)の出力をトリガーに、新規の tts-publish スキルを呼ぶ接続点を1つ足せば既存スキル群と統合できる。

06 / PRIOR ART

買えるところは買い、繋ぐところは作る。

コア(音声化エンジン)は既製品、上下レイヤー(集約・脚本・配信)は自作。

「30P 級の日本語 Markdown レポート → 個人 Podcast 風配信」を正面から解いている既製サービスは、現時点で NotebookLM がほぼ唯一。 ただし Markdown フォルダ単位の一括処理、30分以上の長尺、自分専用 RSS 配信のいずれも単体ではカバーできない。

OSS では Podcastfy が最も完成度が高く、複数 LLM/TTS バックエンド対応・YAML での会話設定外出しが秀逸。 自動化を本格化するならこれを中核に、入力アダプタ・出力アダプタ・スケジューラの三層を自作する形になる。

短期検証としては NotebookLM 単体で十分。30Pクラスのレポートを1ソースとして投入でき、日本語 Audio Overview がフルレングスで出る。 これで運用に耐えるならプロジェクトはここで終われる、という打ち止めポイントが明確になった。

SECTION 03

Cost Matrix

月コスト試算

前提は月10本(30P × 10、日本語約12万字、音声尺合計200分)。為替は 1USD ≒ ¥150 で換算。 コストゼロを取るか、自動化適性を取るか、品質を取るかの三択。

NotebookLM 無料SEMI-MANUAL · GUI
¥0/月
OpenAI gpt-4o-mini-ttsAPI · CHEAPEST
¥500/月
NotebookLM PlusSEMI-MANUAL · 20/DAY
¥3,000/月
ElevenLabs CreatorAPI · QUALITY
¥3,300/月
Aivis Cloud PremiumAPI · NATIVE JP
¥1,980/月

まずは NotebookLM に1本投げて体感を確かめる。
それで足りるなら本プロジェクトはここで打ち止め

SECTION 04

Broadcast Plan

推奨ルート
PHASE 01 — TODAY

体感を取る

¥0 · 30分

手元の30Pレポートを1本、NotebookLM に投入して日本語 Audio Overview を生成する。 iPhone に WAV を渡して通勤で聴いてみて、運用に耐えるかを判断する。 十分ならここで終われる。

PHASE 02 — THIS MONTH

設計を確定

¥0 · 半日〜1日

物足りなかった場合、40_意思決定.md を埋める。採用ツール・台本形式・配信経路・自動化方式を決め、 Cloudflare R2 のバケットとカスタムドメインを準備する。台本生成プロンプトを Skill 化する。

PHASE 03 — NEXT

自動パイプラインを実装

¥3,300〜5,000/月 · 5〜7人日

ElevenLabs Creator または Aivis Cloud Premium を契約し、fswatch + launchd で常駐ワーカーを実装。 台本→TTS→R2→feed.xml 更新→Overcast 配信までを通す。 dead-letter とストレージ監視を入れて運用に乗せる。