Numer: 08/2024 Str. 125
Autorzy: Souha Ayadi , Zied Lachiri :
Tytuł: Interferencja tempa uczenia się w celu przezwyciężenia nadmiernego dopasowania do rozpoznawania emocji dźwiękowych przy użyciu LSTM
Streszczenie: W artykule przedstawiono podejście oparte na architekturze sieci neuronowej umożliwiające rozpoznawanie ludzkich emocji na podstawie cech wyodrębnionych z utworu audio. Cechy używane do uczenia klasyfikatora są wyodrębniane przy użyciu współczynników cepstrum częstotliwości Mel (MFCC). Zaprezentowana architektura sieci neuronowej zbudowana jest w oparciu o sieć LSTM, ze względu na jej zdolność uczenia się zależności długoterminowych oraz prostą implementację, która pomaga podkreślić znaczenie hiperparametru szybkości uczenia się. Dostrajając szybkość uczenia się, sieć neuronowa śledzi ją regularnie za każdym razem, gdy wagi są zmieniane zaktualizowany. Co sprawdziło się doskonale, aby przezwyciężyć problem nadmiernego dopasowania i osiągnąć wynik dokładności 75,80%.
Słowa kluczowe: Rozpoznawanie emocji dźwiękowych, szybkość uczenia się, LSTM.