OpenAI prezentuje przełomowy model o3. Te wyniki testów robią wrażenie

Ostatniego dnia wydarzenia “12 Days of OpenAI”, organizator – czyli OpenAI – ogłosił nadchodzącą rodzinę modeli o3. Podobnie jak istniejąca rodzina o1, rodzina o3 będzie obejmować modele o3 i o3 mini. Mają stanowić znaczący krok naprzód w adopcji SI do nowych zadań.
OpenAI
OpenAI

Nowy model o3 firmy OpenAI ma stanowić znaczący krok naprzód w zdolności AI do adaptacji do nowych zadań. To nie tylko stopniowa poprawa, ale prawdziwy przełom, oznaczający jakościową zmianę w możliwościach AI w porównaniu z wcześniejszymi ograniczeniami LLM.

Co potrafi o3?

o3 to system zdolny do adaptacji do zadań, z którymi nigdy wcześniej się nie zetknął, prawdopodobnie zbliżając się do wydajności na poziomie ludzkim w domenie ARC-AGI. Zapewni użytkownikom możliwość wyboru pomiędzy trzema poziomami rozumowania: High, Medium i Low. Poziom Low będzie najszybszy, ale mniej dokładny, podczas gdy poziom High będzie najwolniejszy, ale dokładniejszy.

OpenAI udostępniło także wyniki testów porównawczych dla modeli o3. O3 uzyskał przełomowy wynik 75,7% w teście ARC-AGI Semi-Private Evaluation:

  • w konfiguracji o3 o wysokiej mocy obliczeniowej uzyskał 87,5% w teście Semi-Private Eval.
  • w teście EpochAI Frontier Math o3 rozwiązało 25,2% problemów, podczas gdy istniejące modele rozwiązały tylko 2%;
  • w systemie SWE-Bench Verified o3 uzyskał wynik 71,7, czyli o 22,8 punktu więcej niż o1;
  • w Codeforces o3 osiągnął ranking ELO na poziomie 2727;
  • w teście AIME 2024 o3 uzyskał wynik 96,7%. Dla porównania, o1 uzyskał wynik 83,3%;
  • w rankingu GPQA Diamond, o3 uzyskało 87,7%. Dla porównania, o1 uzyskało 78%.

Czytaj też: OpenAI rusza na wojnę z Google. Chce konkurować z najpopularniejszym produktem giganta

OpenAI nie wydało jeszcze modeli o3, jednak zaczęło udostępniać je do testów bezpieczeństwa i ochrony. Zainteresowani badacze bezpieczeństwa i ochrony mogą również złożyć wniosek o dostęp do modeli o3 przed publicznym uruchomieniem. Oczekuje się, że modele o3 będą dostępne publicznie w 2025 r.