【思い通りに作る】Grokの画像生成のやり方とプロンプトの書き方

Grokで画像を生成してみたものの、「思ったような画像にならない」「どう指示すればいいか分からない」という場面に出くわすことは多いと思います。

Grokは画像生成の操作自体はシンプルですが、画像生成AIと同じく、プロンプトの書き方ひとつで出力が大きく変わります。

本記事では、AI活用歴9,000時間以上、各種プロンプト辞典やフレームワークを制作・販売している経験から、Grokで狙った画像を作るためのプロンプトの設計方法を詳しく解説します。

→セセはBOOTHにてプロンプト集を多数販売しています（R18商品多数注意！）

基本的な操作の流れ

Grokの画像生成は、チャット欄に生成したい画像の内容をテキストで入力して送信するだけでできます。大体数秒〜数十秒ほどで画像が生成されます。特別な設定や切り替えは不要です。

生成された画像を確認して、気になる点があれば同じチャット欄で追加指示を出します。「髪の色を赤にして」「背景を夜にして」「もっと笑顔にして」のような自然な文章で大丈夫です。一から作り直す必要はなく、Grokと対話しながら少しずつ理想に近づけていけるのがこの方法の最大の利点です。

プロンプトの書き方が出力の質を決める

Grokの画像生成自体はすぐにできますが、「入力しているのになんとなくの画像しか出てこない」という状態から抜け出すには、プロンプトの設計を意識することが大切です。

言葉を曖昧に並べるだけだと、AIは曖昧に画像を推測して出力してしまいます。その結果、追加指示の回数も増えてしまいます。最初のプロンプトの精度を上げておくと、その後の調整がずっとスムーズになります。

4文構成の黄金律

Grokで画像生成のプロンプトを書くときは、以下の4要素を1文ずつ書く構成が有効です。

第1文（主体）：誰が、どのような外見・服装か
第2文（動作）：どのようなポーズで、何をしているか
第3文（背景）：どこにいて、周囲に何があるか
第4文（光・雰囲気）：どのような光が当たり、どんな雰囲気か

各文は短く、一要素を簡潔に書きます。多くの場合は、以下の例のような指示文（プロンプト）になります。

例：「銀髪の女戦士。黒いローブを纏う。手に長剣を持つ。背景は石造りの古城。」

この順序で書くことで、AIが「何を・どこに・どう見せるか」を段階的に組み立てられます。また、「持っているはずの物が浮いている」「背景と主体が溶け込んでいる」といったよくある失敗も起きにくくなります。

ジャンル別プロンプト例

5つのジャンルでプロンプト例を紹介します。それぞれ「あいまいな指示」と「4文構成の指示」を対比しています。

1. ファンタジーキャラクター

あいまいな指示：「魔法使いの画像」

4文構成の指示：「青いローブを着た老魔術師。木製の杖を持つ。本が並ぶ暗い書斎に立つ。卓上のランプの温かい光。」

2. 現代人物

あいまいな指示：「オフィスで働く人の画像」

4文構成の指示：「白衣を着た若い医師。首に聴診器をかける。清潔な病院の廊下に立つ。窓からの明るい自然光。」

3. 風景・自然

あいまいな指示：「幻想的な風景の画像」

4文構成の指示：「苔むした巨木が立ち並ぶ深い森。地面から青白い光の粒子が浮かぶ。霧がかかった薄暗い空気感。遠くから差し込む細い光。」

4. サイバーパンク・SF

あいまいな指示：「未来的なキャラクターの画像」

4文構成の指示：「サイバーパンクな少女。肌に機械のパーツがある。ネオンが光る雨の路地裏に立つ。ピンクと青のライティング。」

5. ビジュアルコンテンツ素材

あいまいな指示：「ブログ用の素材画像」

4文構成の指示：「ノートパソコンの前に座る若い女性。顎に手を当てて画面を見つめる。清潔感のあるオフィス。窓から差し込む自然光。」

スタイルを明示する

プロンプトの末尾にスタイルを加えると、仕上がりの方向性を指定できます。同じ4文でも、追加のスタイル指定ひとつで出力がまったく変わります。

私がよく使うスタイルキーワードの例です。

アニメ風
写真のように
水彩画風
油絵風
3DCG風

先ほどのファンタジーキャラクターの例に加えると、「青いローブを着た老魔術師。木製の杖を持つ。本が並ぶ暗い書斎に立つ。卓上のランプの温かい光。アニメ風。」のようになります。

カスタマイズのしやすさ

4文構成で書いたプロンプトは、一部だけ差し替えることで別の画像に転用できます。

例えば「青いローブを着た老魔術師。木製の杖を持つ。本が並ぶ暗い書斎に立つ。卓上のランプの温かい光。」という基本形の場合、第3文だけ「魔法陣が刻まれた地下室に立つ。」に変えるだけで、別の場面の画像になります。

また、表情はあえて書かないという選択もあります。表情を指定しないことで、一度画像を出力した後で「笑顔で」「真剣な表情で」と追加するだけで、同じプロンプト素材を別の場面に使い回せます。

Grokで画像生成用のプロンプトに変換できる

Grokで気に入った画像が生成できたら、その画像を「画像生成AI（novelAIなど）」のプロンプトにすることができます。

やり方は非常に簡単で、Grokで画像を作った後に続けて「この画像を画像生成AI（novelAIなど）で作るためのプロンプトと推奨設定を出力してください」と入力するだけです。これだけで、Grokは目的の画像生成AIに適したプロンプトと設定を出力してくれます。

ただし、この指示だけではいくらGrokと対話を重ねても、画像生成AIのプロンプトの精度が低かったり、設定不良になることがよくあります。

より精度の高いプロンプト変換が必要な場合は、「画像再現プロンプト生成フレームワーク【NovelAIメイン】」を使ってみましょう。このフレームワークとプロンプト化したい画像をGrokのチャット欄にコピペするだけで、Grokが該当の画像生成AIに最適なプロンプトと各種設定値を自動生成してくれます。

よくある質問

Q：思ったような画像が出ないのですが、どこを直せばいいですか？

A：まず第1文（主体）を具体的に書き直してみてください。ここが曖昧だと全体の出力がブレやすいです。次にスタイル指定を加えることで方向性が定まります。「何を書けばいいか分からない」という場合は、ジャンル別の例をそのままコピーして試し、一部だけ変えていくという進め方が効率的です。

Q：追加指示を出しても変化が少ないのですが、なぜですか？

A：指示が抽象的すぎる場合に起きやすいです。「もっと良くして」ではなく「髪の色を金色にして」「背景を夕焼けにして」のように、具体的な要素を指定してみてください。

Q：日本語と英語、どちらがよいですか？

A：日本語でも十分使えます。細かいニュアンスを出したい場面では英語も試してみてください。英語が得意でない場合は、Grokに「このプロンプトを英語に直して」と頼めばOKです。

Q：うまく生成できるジャンルと苦手なジャンルはありますか？

うまく生成できるジャンル：SF、ファンタジー、リアルな風景、サイバーパンク、ユーモアのあるイラスト、詳細なキャラクター描写。

苦手なジャンル：複雑な手の指、細かいテキスト、複数の人物の正確な出力、超詳細な背景＋前景の両立など。

Q：同じプロンプトでも毎回違う画像が出るのですが、なぜですか？

A：Grokはプロンプト以外にもランダム性を持っています。まったく同じ出力を再現することは基本的にできません。気に入った画像が出たら、そのプロンプトを保存しておきましょう。

Q：生成できない内容があるのですが、なぜですか？

A：実在の人物・版権キャラクターに酷似した画像、暴力・性的な内容などは利用規約によりブロックされます。プロンプトの表現を変えて再試行してみてください。

まとめ

Grokの画像生成は、チャットに文章を入力するだけで始められ、そのまま追加指示で調整できるのが最大の利点です。

最初のプロンプトは「主体・動作・背景・光」の4文構成で書き、末尾にスタイルを添える。あとは生成された画像を見ながら気になる点を一つずつ追加指示で直していく、という流れを繰り返すだけです。

まずはジャンル別の例をそのままコピーして試してみてください。慣れてきたら一部を差し替えながら、自分のイメージに近づけていく流れで進めると、コツをつかみやすいと思います。

さらに効率的に実践したい場合

Grokで画像生成する際に「様々なジャンルですぐ使えるプロンプトをまとめて手に入れたい」という場合は「【言語生成AI用】一発画像生成プロンプト集」を使ってみましょう。

このプロンプト集では、キャラクター創作・ビジュアルコンテンツ・世界観や背景の3ジャンルで計636パターンのプロンプトを収録しており、Grokをはじめ各種の「画像生成が可能な言語生成AI」に対応した汎用設計になっています。　BOOTHでご確認いただけます。

→セセはBOOTHにてプロンプト集を多数販売しています（R18商品多数注意！）