GPT-4 Visionの画像認識機能と、DALL-3の画像生成機能を連携させることで、写真からイラスト生成を自動化できるとおもしろいなと思い、試してみました。
1.GPT-4 VisionでSotaの画像を描写する
GPT-4を選んで、その中のDefaultを選択します。
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/GPT4-1.png)
すると、下のプロンプト入力部分に画像をアップロードできるところが表示されます
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_14h57_18.png)
この部分から画像をアップロードします。
画像生成AIが画像を生成できるように詳しく具体的に描写してもらうように依頼します
すると、結果
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_15h25_37.png)
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_15h29_09.png)
2.ChatGPT×DALL-3で画像生成
次に、別のチャットを立ち上げて、GPT-4からDALL-3を選択。
GPT-4 Visionで生成された描写内容を送ります。
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_15h40_57.png)
すると、、、
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_15h42_49.png)
うーーーーん。どうでしょうか。。
ちょっと違うような。。。1番目のロボットが一番それっぽいですが。。
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_15h43_44.png)
Sのマークを表示してくれませんね。。。
このあと、最終的にはイラスト化したかったので、この画像をイラスト化してもらったり、2番の画像から手直しを試したりなど、色々と試行錯誤してみたのですが、なぜか頻繁に目がひとつに表現されてしまいました。
最終的には、こんな感じ、、、
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/sota.jpg)
なかなか難しいです。。。
結果、Sotaくんのイラストからは遠ざかってしまうイラストばかり生成されてしまいました。
3.おまけ
試しに、かまってひろちゃんで試してみたのがこちら↓↓
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_16h14_39.png)
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_16h14_48.png)
うーん。顔がないので、後ろ向きを表現されてしまいますね。。。
少し手直しをして、
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_16h16_34.png)
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/2023-10-20_16h17_09.png)
おおお!これはSotaの時に比べるとちょっと近い気がします!!
かまってひろちゃんはお顔がないぬいぐるみタイプのロボットなので、そこのところを修正してもらうプロンプトを送ってみると、
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/DALL·E-2023-10-20-16.17.25-photo-of-a-baby-plush-toy-without-facial-features-like-eyes-nose-or-mouth.-The-plush-toys-head-is-large-and-round-with-a-pale-pink-hue-and-there-a.png)
そして、それをさらにイラスト化してもらうと、
![](https://vstone.co.jp/robotshop/blog/wp-content/uploads/2023/10/DALL·E-2023-10-20-16.17.36-illustration-of-a-baby-plush-toy-in-a-drawn-style-without-eyes-or-mouth.-The-plush-toys-head-is-large-and-round-with-a-pale-pink-hue.-There-are-delic.png)
こんな感じになりました。
どうでしょうか。何度かプロンプトを送り修正していくうちに、目と鼻口が表現されてしまうこともありましたが、最終的にはいい感じに出来上がったのではないでしょうか
4.まとめ
GPT-4 Visionは、画像認識と解析に優れているのに対し、DALL-3はテキストのプロンプトからイラストを生成することができます。これらを連携させることで、画像をテキスト化し、そのテキストを基にイラストを生成してみると面白いのではと思い、試してみましたが、うまくできるときもあれば、そうでもないときもあり、、、
プロンプトなどを研究し、うまく活用できるようになれば今後業務を行う上で、なかなか便利なツールとなるのではないかなと思いました。