ナレッジ|S11.SearchEleven

【3分ニュース】OpenAI 『o3-mini』とは何か?主な特徴をもとに解説!

作成者: 仲山 隼人 (Hayato Nakayama)|25/02/17 10:08

▶ポイント 

 

▶o3-miniとは 

OpenAIは2025年1月31日に、最新のo3-miniモデルを発表しました。o3-miniは、前身モデルであるo1-miniの低コスト・低遅延という良さを維持したまま、STEM(科学、技術、工学、数学)分野での推論性能が飛躍的に向上しています。科学計算やプログラミングに特化しており、数式の計算やゲーム開発のサポートなど幅広く活用することができるでしょう。
ChatGPT上で無料ユーザーから有料プラン(Plus・Team・Pro)まで幅広く利用でき、APIとしても利用することができます。これほど高性能な推論モデルを誰しもが簡単に使える時代になっているのです。
 

▶o3-miniの特徴 

  1. 推論レベルの3段階調整 

    o3-miniはlow・medium・highの3段階の推論レベルを有しており、ユーザーが投げかける質問の難易度や、速度と精度のどちらを優先するかによって使い分けられる点が利点です。
    大学数学の問題やプログラムなどについての質問や、より正確な回答が欲しい際には「high」を選択し、シンプルな対話型の質問や素早く簡潔な回答が欲しい際には「low」を選択するといった対応ができます。
    ChatGPTで選択できる推論レベルは「medium」と「high」のみとなっていて、無料ユーザーはチャット画面で「reason(理由)」オプションを選択するか、回答を再生成する際にo3-miniを使うことができます。
    それに対してAPIではすべての推論レベルが選択できるため、用途に応じて柔軟な対応が可能です。

  2. 理数系・コーディングに強いモデル 

    o3-miniはo1-miniと同様にSTEM分野の推論に最適化されています。大学レベルの数学を解答解説付きで説明し、プログラミングのコードをチェックして改善案も提示してくれます。
     
    前身モデルもSTEM分野に特化していたなら、そこまで変化はないのではと思うかもしれませんが、そんなことはありません。各分野ごとで問題の正答率を前身モデルと比較した結果をご覧ください。数学はアメリカの数学オリンピック予選問題であるAIME、科学系は博士号レベルの生物・化学・物理に関するテストであるGPQA Diamond、プログラミングはロシア発祥のCodeforcesと呼ばれるプログラミングコンテストで正答率を調べたものです。
     
    数学において推論レベル「low」ではo1-miniと同等の正答率を、「middle」ではo1と同程度の正答率を出しています。推論レベル「high」に至っては、o1-miniとo1の両方を上回る正答率をたたき出しています。
     
     
     


    科学系ではどの推論レベルでもo1-miniの正答率を10%も上回る結果となっており、推論レベル「high」は「medium」では超えることのできなかったo1・o1previewの正答率も上回っています。



    プログラミングでもすべての推論レベルがo1-miniの結果よりも優れていました。Codeforcesは採点方法として問題の正誤だけでなく回答のスピードも考慮されるため、数学・科学系とは異なり回答速度も速くなったo3-miniが、o1にさえかなりの差をつけていることが目に見えてわかります。



  3. ウェブ検索機能との連携 


    o3-miniはウェブ検索と連携して、関連するウェブソースへのリンクを参照した回答を提示するようになりました。これにより最新のニュースや研究論文など、リアルタイムの情報を取得して回答に反映したり、特定の専門分野に関するデータをもとに、高度な要求にも対応できるようになっています。
     
    ChatGPTのチャット画面上で「検索する」オプションを選択することでウェブ検索機能を利用することができます。また、次の写真にもあるようにウェブ検索機能を利用した場合、参照した情報のリンクと類似した内容を掲載しているリンクも提示してくれます。自分でそのリンクに飛んでさらに深掘りすることもできるので非常に便利ですね!
     
     
  4. o1-miniよりも的確かつ高速な推論力 

    まず、o3-miniはo1-miniよりも回答の正確さが向上しています。先ほど記述したので、STEM 分野に対する回答の的確さは分かっていただけたと思います。それでは全体的に見た的確さはどうでしょうか。これを人がo1-miniとo3-miniのどちらの回答を好むかという点で見てみましょう。STEM分野の回答では平均約59%の確率で、STEM分野でない回答では平均約53%の確率でo3-miniの回答が好まれており、o3-miniの回答の方が的確であるといえますね。
     
     
    つづいて回答生成の速度ですが、o3-miniはA/Bテストでo1-miniよりも24%速く回答を生成し、最初のトークンを生成するまでの平均応答時間はo1-miniが10.16秒に対してo3-miniは7.7秒でした。ここまで回答速度が速くなったにもかかわらず、回答の質も良くなっているなんて信じられませんね。
     

▶まとめ 

この新モデルの登場は、生成AIの分野における画期的な進化を示しており、特にSTEM関連の技術開発や研究、さらにはビジネスにおける情報解析の効率化に大きな影響を与えると予測されます。従来よりも高速で的確な推論を実現するo3-miniは、企業や研究機関が様々な問題を迅速に解決するための強力なツールとなるでしょう。また、STEM分野の強化により、より生産性の高いアプリケーションやサービスの実現や研究の進歩が期待されます。このような革新的なモデルがChatGPTなら無料で試すことができるので、みなさんも最新のo3-miniをぜひ実際に体験してみてください!