No/VOL: 08/2024 Page no. 125
Authors: Souha Ayadi , Zied Lachiri :
Title: Interferencja tempa uczenia się w celu przezwyciężenia nadmiernego dopasowania do rozpoznawania emocji dźwiękowych przy użyciu LSTM
Abstract: W artykule przedstawiono podejście oparte na architekturze sieci neuronowej umożliwiające rozpoznawanie ludzkich emocji na podstawie cech wyodrębnionych z utworu audio. Cechy używane do uczenia klasyfikatora są wyodrębniane przy użyciu współczynników cepstrum częstotliwości Mel (MFCC). Zaprezentowana architektura sieci neuronowej zbudowana jest w oparciu o sieć LSTM, ze względu na jej zdolność uczenia się zależności długoterminowych oraz prostą implementację, która pomaga podkreślić znaczenie hiperparametru szybkości uczenia się. Dostrajając szybkość uczenia się, sieć neuronowa śledzi ją regularnie za każdym razem, gdy wagi są zmieniane zaktualizowany. Co sprawdziło się doskonale, aby przezwyciężyć problem nadmiernego dopasowania i osiągnąć wynik dokładności 75,80%.
Key words: Rozpoznawanie emocji dźwiękowych, szybkość uczenia się, LSTM.