この連載 つないでみよう は、Web 系アプリ開発ど素人の私が WebAPI 連携にチャレンジする過程をまとめているものです。幅広くさまざまな API に挑戦するつもりだったのですが、最近は OpenAI 社の API ばかりになってきました。WebAPI は種類が豊富で流れが速く OpenAI 分だけですら全然追いつけていないので、その他に手を出す隙はなかなかありません。タイトルを変える必要があるかもしれませんね...
ということで、今回も OpenAI の API がネタとなります。
Responses API とは?
これまでの Chat Completions API の進化版であり、他の API と統合し発展させた新しい標準 API で「今後の新規開発では Responses API を推奨する」と明言しています。
主な特徴としては
- マルチモーダル対応で、テキスト、画像、ファイルを自然に入力
- 会話状態を保持し、前回の応答を継続
- ツール呼び出しを標準化
- 推論モデルとの相性向上
などがあります。
主な対応モデルとしては、
| GPT 系 | 推論モデル(Reasoning Models) |
| gpt-5 gpt-5-mini gpt-5-nano gpt-5-chat gpt-4.1 gpt-4.1-mini gpt-4o gpt-4o-mini |
o3 o3-mini o4-mini |
となっていて、新しいモデルほど Responses API の利用が推奨されているようです。
次回からの予定
下記にこの連載で紹介した OpenAI 社の API の機能を整理します。
最初に紹介した通り Responses API は各 API を統合・発展させた仕様なので、これらの操作はすべて Responses API に置き換えることができるそうです。今後、順に移行作業をしながら、使い方や注意点、新機能などをまとめていきたいと思います。
Responses API は新しい標準とのことなので、どんどん使って早く慣れたいですね。
◇ 会話
#1、#2 では、API キーの取得方法など API の基本的な使いから始まり、/chat/completions API を使って AI と会話する方法を紹介しました。送信する JSON に過去の会話を含めることで、会話を継続することができました。
Responses API では、過去の会話を再送することなく、会話を続けることができるようです。
◇ 画像認識
#14 ~ #20 では、/chat/completions の入力に画像を指定することで、画像を説明させたり、OCR のように文字を認識させる方法を紹介しました。
Responses API を使うと、画像認識だけでなく、加工などの編集もできるそうです。
◇ Structured Outputs
AI からの返答を JSON 形式に固定し、指定した構造に合わせて返答させる機能で「構造化出力」と呼ばれています。AI の返答の構造が明確だと再利用が容易なので、プログラムから AI を使用する際には必須の機能と言えます。
#21 ~ #24 では、その指定方法と活用事例を紹介しました。Responses API ももちろん対応しています。
◇ 画像生成
画像生成は /chat/completions ではなく /images/generations という別の API を使用していました。#25 ~ #28 では DALL-E3 を利用した画像生成、#29 では後継バージョン GPT Image API の使い方をまとめしました。
画像生成も Responses API で対応しており、専用のエンドポイントを使うことなく実現できるようです。
| 前回 | 連載:つないでみよう |
0 件のコメント:
コメントを投稿