Newton byłby dumny. 300-letni algorytm, który może zmienić przyszłość AI

W 1680 r. angielski uczony nie tylko sformułował prawo powszechnego ciążenia, ale również zaproponował metodę przybliżonego rozwiązywania równań, znaną dziś jako metoda Newtona. Wykorzystując pochodne funkcji, jego algorytm pozwalał szybko zbliżać się do miejsc zerowych czy minimów funkcji, co przez wieki stanowiło fundament obliczeń w matematyce stosowanej.

Czytaj też: Alan Turing i nasiona chia. Nowy eksperyment przetestował twierdzenia słynnego matematyka

Choć algorytm ten był niezwykle skuteczny, miał swoje ograniczenia – przede wszystkim nie działał dobrze w przypadku złożonych funkcji nieliniowych, szczególnie tych o wielu zmiennych i wysokich stopniach. To, co przez dekady uznawano za barierę nie do pokonania, dziś staje się punktem wyjścia do nowej ery w analizie matematycznej.

Algorytm Ahmadiego, Chaudhry’ego i Zhanga to modyfikacja metody Newtona

Latem 2024 roku Amir Ali Ahmadi z Uniwersytetu Princeton oraz jego byli doktoranci – Abraar Chaudhry (obecnie na Georgia Institute of Technology) i Jeffrey Zhang (Yale University) – dokonali istotnego rozszerzenia metody Newtona. Ich wersja pozwala na efektywne znajdowanie minimów funkcji, nawet w przypadku bardzo złożonych układów i dowolnie wielu pochodnych.

Czytaj też: To matematyka steruje biologią! Coraz bliżej odkrycia największej tajemnicy życia

Poprzednie próby rozwoju tego podejścia, jak choćby metoda kubiczna Chebysheva z XIX wieku czy bardziej współczesna metoda Yurii Nesterova z 2021 roku, miały ograniczoną skuteczność w funkcjach wielowymiarowych lub o wyższych stopniach. Nowa propozycja Ahmadiego i jego zespołu idzie o krok dalej: zachowując efektywność, pozwala pracować z funkcjami zawierającymi dowolną liczbę zmiennych i pochodnych.

Kluczem do nowego algorytmu okazały się dwie własności funkcji, które radykalnie ułatwiają ich minimalizację: wypukłość (czyli tzw. kształt miski) oraz możliwość zapisania ich jako sumy kwadratów. Funkcje wypukłe mają tylko jedno minimum lokalne, co oznacza, że nie można “zablokować się” w fałszywej dolinie, zaś forma sumy kwadratów upraszcza proces optymalizacji.

Problem polegał na tym, że klasyczna metoda Newtona operuje na rozwinięciach Taylora, które rzadko naturalnie spełniają te warunki. Badacze postanowili więc zmodyfikować rozwinięcie Taylora w taki sposób, by nadać mu pożądane właściwości. Udało się im dodać do równania tzw. fudge factor – niewielką poprawkę, która przekształca funkcję w wypukłą sumę kwadratów, nie zmieniając jej sedna.

Efekt tych zmian jest zdumiewający: nowy algorytm nie tylko zachowuje gwarancję zbieżności, ale też może działać szybciej niż dotychczasowe metody – im więcej pochodnych zostanie uwzględnionych, tym szybciej algorytm dochodzi do minimum funkcji. Dla porównania, klasyczna metoda Newtona osiąga zbieżność kwadratową (czyli bardzo szybką), a ulepszona metoda zespołu Ahmadiego może jeszcze ją przyspieszyć, wykorzystując kolejne pochodne. To czyni nowy algorytm niezwykle atrakcyjnym narzędziem dla współczesnych i przyszłych zastosowań, zwłaszcza w dziedzinie uczenia maszynowego, gdzie funkcje optymalizacyjne są nieliniowe, złożone i wysoko wymiarowe.

Mimo obiecujących wyników, nowy algorytm nie trafi od razu do szerokiego użytku. Każda iteracja wymaga bowiem znacznie więcej mocy obliczeniowej niż prostsze, powszechnie stosowane metody, jak np. gradient descent. Dopiero wraz z rozwojem technologii sprzętowej – gdy koszty obliczeń spadną, a moc procesorów wzrośnie – nowa metoda ma szansę wejść do praktyki.