2分で読める「生成AIのいま」 Vol.11 -どんどんすごくなるChatGPT… "o3"機能の紹介-
医療田:
ねえ機械屋さん、
機械屋:
はい。あ、ChatGPT-o3の解説ですか?
医療田:
そう。。よくわかったね!
機械屋:
いま話題ですしね。
医療田:
“o3”って新しいAIでしょ? 私も自分でちょっと使ってはみたんだけど。。
どんなものか、簡単に教えて?
1 画像を「考えながら」読む
医療田:
たとえば、写真を理解する、って聞いたんだけど。
機械屋:
そうなんです。“Thinking with images”機能ですね。
画像を認識する機能は“GPT-4o”にはありましたが、“o1”ではありませんでしたので、OpenAIの高度推論モデルとしてははじめてのことです。
たとえば家族旅行で撮った風景写真を渡すと、
画像を細かくズームし → 山の形や影の向きを手がかりに → ウェブ検索で照合、
「これは北海道の帯広の大雪山ですね」と推理します。
まさに人間が「目を凝らして地図を見る」作業を代理でやるイメージです。
この機能を利用すると、ChatGPTに“ウォーリーを探せ”をさせたりすることもできますよ。
________________________________________
2 迷路やパズルも一発攻略
機械屋:
画像解析の応用として、迷路を解く、なんてこともできるようになりました。
医療田:
えっ、、、そうなの?すごくない?
機械屋:
すごいですよね、
迷路画像を用意すると、ルートを赤線で描き込み直した PNG を生返してきます。
また、これを応用すれば、図面や倉庫レイアウトの経路最適化など、工夫次第で実務にも展開可能できそうですよね。
________________________________________
3 データ分析
機械屋:
データ分析も秀逸です。
例えばですが、、
過去3年間に売れた商品の CSV ファイルをそのままアップロードするとしますよね。
すると o3 は自動で Python を呼び出し、売上や注文数を月ごとに集計。
年平均成長率(CAGR)や季節ごとのクセを計算し、折れ線グラフやヒートマップを作ってくれます。
さらに、“どう伸ばすか”という実践的なアドバイスまで返ってくるんですよ。
医療田:
すごい!病院なら、病床データや感染症トレンドの分析にも使えるわね。
________________________________________
4 文脈に応じて自律的にWeb検索を行う
機械屋:
“o3”は、ユーザーの指示(プロンプト)の文脈から必要性があると判断した場合、こちらが指示せずともWebブラウジングを行い、ネット上の情報を反映してくれます。
医療田:
そうなんだ。。。
それにしても、
画像を細かくズームして解析したり、データを投げ込むと分析してアドバイスしてくれたり、必要に応じてウェブ検索を行ってくれるって、
今までなかった機能だよね?
機械屋:
痒い所に手が届く機能がいくつも見られますよね。
まるでユーザーの代理人(エージェント)。
それもそのはず、o3 は単なる LLM ではなく、最初から「AI エージェント」として設計されているそうですよ。________________________________________
6 弱点:それでも残るハルシネーション
医療田:
すごいね、ここまで完璧な AI なんだ。。
機械屋:
そうですね、でも―実は弱点もあります。
たとえば画像の中で「数を数える」作業は苦手で、指が6本ある絵文字を見せても「5本です」と答えてしまったりします。
医療田:
えっ^^;、そんな単純ミスを?
機械屋:
ええ。幻覚(ハルシネーション)も依然、問題です。
OpenAI の検証では、o3 は約33%、04-mini では48%の確率で事実と食い違う発言をしたそうです。
医療田:
三分の一も? それは、、医療データとかを扱うとなると怖いわね。
機械屋:
ええ。
だからこそ、数字や診断結果のようにミスが許されない場面では、AI の出力を必ず人間がダブルチェックする――これは今でも、絶対必要な人間の仕事ですね。
そのほか、これは私の個人的な感覚ですが、非常に賢い反面、出力がやや堅苦しい印象を受けますね。専門的な略語、医療で言ったら心臓カテーテル検査を、断りなくPCIと表現したり、といった、やや周到さに欠ける側面も見られます。
今後マイナーチェンジで改訂されていくかもしれませんが。