2025/07/19

つないでみよう:#27)画像生成 AI DALL-E3 - テスト実行とレスポンスの確認

前回は API をコールしてレスポンスを取得するまでのエージェントを作成しました。実際に実行し、結果を確認しましょう。


テスト実行 

フォームを開き、生成する画像の説明を入力し、文書を保存します。今回は『上司と部下が会議室で本気で議論しているシーンを少年漫画のバトルシーンのようなタッチで描いてください。』と入力してみました。

作成した文書を選択し、エージェントを実行します。実行後の文書を開くと、送受信した JSON が実行結果に表示されます(数分はかかるのでご注意ください)。


受信した JSON

今回のリクエストでは、responce_format に "b64_json" を指定しているので、受信した JSON 内に画像データが含まれます。大量の文字のほとんどは画像データとなり、見通しが悪く、わかりずらいです。VSCode で整形して、構造を確認します。

整形すると一目瞭然ですね。data ノードの下に画像データである b64_json ノードが存在します。Create Image API では1回のリクエストで複数枚の画像を作成する機能があります。これに対応するため data ノードは配列となっている点がポイントとなります。


リクエストは英語の方がいい?

先ほど紹介した受信した JSON を見て気になった点があります。画像データの次の項目に revised_prompt というノードがあります。ノード名から生成画像の指示だとわかりますが、値は次の通りとなっていました。

Imagine a scene where a male boss of Middle-Eastern descent and a female employee of Black descent are passionately debating in a conference room. The artistic style should evoke the feeling of a battle scene taken from a classic boy's comic, emphasizing dramatic angles and exaggerated expressions, featuring in bold, ink-heavy shading resembling manga styles from the 19th century. Elements such as onomatopoeic words or speed lines may also be included to intensify the scene.

ChatGPT で日本語に翻訳するといろいろと尾ひれがついていることがわかります。

中東系の男性上司と、黒人系の女性社員が会議室で激しく議論している場面を想像してください。 芸術的なスタイルは、まるで少年漫画のバトルシーンのような雰囲気を醸し出し、ドラマチックなアングルや誇張された表情を強調します。 表現には、19世紀の漫画スタイルを思わせる、太くインクの乗った重厚な陰影が使われます。 さらに、擬音語やスピード線といった要素が加わり、シーンの迫力を一層引き立てます。

また、同じ文章でもう一度リクエストしてみたところ、revised_prompt は違うものになっていました。

Create an image of an intense discussion between a supervisor and an employee in a conference room. Depict the scene with the energetic and intense characteristics commonly found in pre-1912 battle scenes from boys' comics. The supervisor is a Middle-Eastern man and the employee is a South Asian woman. She is standing up confidently asserting her points, while the supervisor listens with full attention suggesting his curiosity and openness. The conference room is modern with a large oval table, ergonomic chairs and a wall filled with whiteboards and charts.

会議室で上司と部下が激しい議論を交わしている場面の画像を作成してください。 このシーンは、1912年以前の少年漫画に見られる戦闘シーンのような、エネルギッシュで緊張感のある表現で描写してください。 上司は中東系の男性、部下は南アジア系の女性です。彼女は自信を持って立ち上がり、自分の主張を力強く述べています。一方、上司は興味と受容の姿勢を示しながら、真剣に彼女の話に耳を傾けています。 会議室はモダンなデザインで、大きな楕円形のテーブル、エルゴノミクスチェア、そして壁一面にはホワイトボードとグラフが設置されています。

初回はスピード線など作画に偏った指示でしたが、2回目は会議室の什器について詳細に記述されています。実行回によってこだわるポイントが違うようです。

この結果より、Create Image API では、リクエストを英語で送った方がよりダイレクトに指示が出せそうです。ChatGPT などを使用して、自身の希望をできる限り反映した英文を作成してから送信する方がよさそうですね。


まとめ

今回は、作成したエージェントのテストと Create Image API のレスポンスの JSON を確認しました。次回は、JSON 内の Base64 画像データから画像ファイルを抽出する部分を作成します。


前回 連載:つないでみよう 次回


0 件のコメント:

コメントを投稿