皆さん、こんにちは。植田です。
今日はAI界隈がかなりざわついてるニュースをひとつお届けします。 OpenAIが新しいモデル「GPT-5.4」を本日リリースしました。
「またアップデートか」と思う方もいるかもしれません。 でもね、今回のはちょっと意味合いが違うんです。
まず何が起きたかというと
OpenAIが「GPT-5.4」という新しいAIモデルを発表しました。 公式の説明では、「プロフェッショナルな仕事のための、最も有能で効率的なフロンティアモデル」だと。
フロンティアモデルっていうのは、つまり「最先端の、いちばん上のモデル」という意味です。 今あるAIの中で、仕事に使う性能としてはトップクラスですよ、ということですね。
ChatGPTの有料プラン(Plus、Team、Pro)のユーザーには「GPT-5.4 Thinking」という名前で順次使えるようになっています。
これって要するにどういうこと?
ポイントはひとつだけ。 「AIが仕事の現場でどこまで戦力になるか」という話が、一気に前に進んだということです。
面白いのはここで、OpenAIが今回前面に出してきたのが「現実の仕事に近いベンチマーク」のスコアなんですね。
GDPvalという、44種類の職種にまたがる仕事の質を評価するベンチマークがあるんですが、GPT-5.4はここで83.0%を記録しています。前のモデル(GPT-5.2)は70.9%だったので、かなりの伸びです。つまり、人間の専門家と比較して8割以上のケースで同等以上の仕事ができたということです。
もうひとつ。投資銀行のジュニアアナリストがやるようなスプレッドシート作業の評価では、68.4%から87.3%に跳ね上がっています。これ、もはやアシスタントじゃなくて「チームメンバー」ですよね。
「嘘をつきにくくなった」のも大きい
AIを仕事で使うとき、いちばん怖いのが「ハルシネーション」です。 わかりやすく言うと、AIがもっともらしいけど事実じゃないことを自信満々に答えちゃう現象のことですね。
今回のGPT-5.4では、前モデルと比べて回答全体のエラー率が18%改善、個々の事実誤認は33%低下したと報告されています。
3割も嘘が減ったというのは、ビジネスの現場で使う側からするとかなり大きな変化です。 もちろん「ゼロになった」わけではないので、最終チェックは人間がやる必要があります。でも、たたき台として任せられる安心感がだいぶ違ってくるなというふうに思っています。
人間よりPCの操作がうまい?
個人的にいちばん驚いたのはここです。
GPT-5.4は、ブラウザを自動で操作したり、画面を見ながらマウスやキーボードを動かしたりする「コンピュータ操作」の能力を持っています。
OSWorld-Verifiedという評価では、人間の成功率が72.4%だったタスクに対して、GPT-5.4は75.0%を記録しました。前モデルは47.3%だったので、ここの伸びは劇的です。
つまり、ある種の画面操作については、人間よりもミスなく安定してこなせるレベルに達してきたということです。なかなかすごい時代になりましたよね。
何を押さえておけばいいか
「うちにはまだ関係ないかな」と思った方もいるかもしれません。
でもね、だからこそ知っておいてほしいんです。
今回のGPT-5.4で見えてきたのは、「資料作成」「データ整理」「コーディング」「ブラウザ操作」といった、これまで人がやっていた作業のかなりの部分を、AIに任せられるフェーズに入ってきたということです。
大事なのは、「AIを使う・使わない」の話ではなく、「AIを前提にした仕事の組み立て方を考え始める」タイミングが来ているということだと思います。
たとえば、Excelのアドインとして「ChatGPT for Excel」のベータ版も同時にリリースされています。スプレッドシートの中で直接AIが使えるようになるわけですから、データ作業の効率は大きく変わってきます。
まとめ
GPT-5.4、正直なところ「ついにここまで来たか」という印象です。
ベンチマークの数字だけを見ても、仕事の質でいえば人間の専門家に匹敵するレベルに近づいてきていますし、ハルシネーションの改善も着実に進んでいます。
知っておくだけで差がつく情報だと思うので、今日シェアしました。 また面白い動きがあればお届けしますね。
