話す前に考えるAI」はもう古い？──考えながら話す音声AIの登場：2025/07/22

晋次宮田
2025年7月22日
読了時間: 4分

誰かと会話しているときに

「この人、話しながら頭の中でちゃんと考えてるな」逆に、「言いたいことがまとまってないな……」など、人間同士の会話では相手の状況が把握できます。無意識に。

何かしら質問されたら、その場で頭の中で整理して、なんとなく適切な順序で答えて会話を成立させています。

では、今のAIはどうでしょう？

今回紹介する研究

そこで今回ご紹介するのは、次の論文です

STITCH: Simultaneous Thinking and Talking with Chunked Reasoning for Spoken Language Models （STITCH：音声言語モデルにおけるチャンク化された推論による同時的な思考と発話） https://arxiv.org/abs/2507.15375

この研究は、「AIが話すときに、ちゃんと裏で考えているか？」という素朴な問いに取り組んだものであり、AIとの会話が、人間同士の日常会話に近づくための新しいアプローチを提案しています。

実際にこのモデルが話しながら考えている様子が見られるデモ動画も公開されています。

プロジェクト公式ページはこちらです：

デモ＆アニメーション付き公式ページ
https://d223302.github.io/STITCH

ページ内では、質問に対してAIがどう「裏で考え」、どのように「しゃべる」かが、音声付きで視覚的にわかりやすく表示されています。ぜひ体感してみてください。

AIとの会話に感じる物足りなさ

AIと話しているとき、「何か浅いな」と感じたことはありませんか？

それには、理由があります。

今の多くの音声AIは、音声入力を受け取ったら、そのまま文章を生成し、それを音声に変換して話すようになっています。つまり、「質問→すぐに発話」という流れ。

でも、私たち人間はそうではありません。

質問を聞いたあと、いったん頭の中で「あれってどういう意味だっけ？」「この前見た情報と合ってるかな」と整理してから、言葉にして伝えます。この内部的思考の時間が、AIにはありません。

実際、このような思考プロセスを取り入れることで、AIの精度が大きく向上することは、近年の研究で示されてきました。

特に「Chain of Thought（連鎖的思考）」と呼ばれる手法は、難しい問題を解く際に非常に有効であるとされています。

ところがこの手法には、ひとつ大きな欠点がありました。

「全部考えてから話す」と、遅すぎる

たとえば、AIに「80,000ドルの家を買って、修理に50,000ドルかかったら、利益はいくら？」と聞いたとしましょう。

Chain of Thought方式のAIは、いったんすべての計算や説明を“内部で完了させて”から、それをもとに発話を始めます。つまり、「考え終わってからしゃべる」。

たしかに正確な答えが返ってくるのですが、最初の音声が流れるまでにかなり待たされることになります。

人間で言えば、「うーん……ちょっと待ってね……（沈黙）」という感じです。これだと、スムーズな会話とは言えない感じです。

じゃあ、どうすればよいのでしょう？

解決策：「話しながら考える」

そこで登場したのが、今回の研究で提案された新しい仕組みです。

名前は「STITCH（スティッチ）」と名付けられています。

この手法は、「話すための音声を出力している間に、その裏で次の思考を進めておく」という、人間に近い発話のリズムをAIにもたせるものです。

具体的には、AIが応答する際に

まず少しだけ「考える」（推論トークンを生成）
次にそれに基づいて「話す」（音声トークンを生成して再生）
話している最中にまた「次の考え」を準備

──というように、「考える」と「話す」を交互に小分けで進めていきます。

このようにして、発話の合間に内部思考を割り込ませることで、遅延を生まないまま、精度の高い応答を実現するのです。

話している間に「次」を準備する

例えて言えば、「セリフを読み上げる間に、次のページをめくる」ようなイメージです。

このやり方のすごいところは、「しゃべり出すまでの待ち時間が、従来のAIと変わらない」という点です。

つまり、今までの「すぐ話すけど浅い」AIと同じくらい速く応答できて、しかも中身はちゃんと考えられているというわけです。

この方式にはバリエーションがあります。

STITCH-R（Reasoning First）：しゃべる前に少し考える
STITCH-S（Speaking First）：しゃべりながら考える

どちらも、従来の「まず全部考えてから話す」方式に匹敵する高精度を保ちながら、待たされない会話を実現しています。

まとめ

今回紹介した研究は、音声AIが「より人間らしく話す」ための重要な気づきを与えてくれたと感じました。

「裏でちゃんと考える」「話しながら考える」という構造を入れ込むことで、発話の質とリアルタイム性の両立を実現したことにより、今までより「人間っぽい会話」を表現できていると思います。合わせて応答品質も向上させている点が良いですよね。

もし今後、AIと話していて「なんか頭の回転が速いな」と感じたら、それはもしかすると、このSTITCH的な仕組みが裏で働いているのかもしれません。

書き手

名前：Shindy Miyata

所属：SHARE Security（http://security.share-yap.com/）

セキュリティエンジニア

x.com