Numer: 04/2024 Str. 233
Autorzy: Konrad Niderla , Grzegorz Kłosowski :
Tytuł: Środowisko nauki ze wzmocnieniem do sterowania ramieniem robota przemysłowego
Streszczenie: W ostatnich latach wzrasta zainteresowanie wykorzystaniem uczenia ze wzmocnieniem w dziedzinie sterowania robotyki. W tym kontekście istotne jest badanie i porównanie różnych algorytmów RL, które mogą być efektywnie zastosowane do zadań sterowania robotami. W tym artykule porównano trzy popularne algorytmy RL: Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO) i Advantage Actor Critic (A2C), koncentrując się na ich zastosowaniu w sterowaniu ramieniem robota. Eksperymenty przeprowadzono w środowisku z symulowanym ramieniem robota wykorzystując szereg bibliotek i struktur programistycznych tzw. frameworków, a wyniki działania poszczególnych algorytmów zaprezentowano.
Słowa kluczowe: Reinforcement Learning, ramię robota, TRPO, PPO, A2C.