Numer: 07/2024 Str. 54
Autorzy: Souha Ayadi , Zied Lachiri :
Tytuł: Rozpoznawanie emocji dźwiękowych w oparciu o modalność utworu przy użyciu Conv1D i Conv2D
Streszczenie: Rozpoznawanie emocji dźwiękowych to bardzo zaawansowany proces wykrywania emocji na podstawie różnych form sygnałów. Formą modalności przedstawioną w tym artykule jest utwór audio. Celem jest stworzenie różnych architektur sieci neuronowych zdolnych do rozpoznawania emocji wykonawcy utworu. Bazą danych wykorzystywaną w tym celu jest baza danych RAVDESS. Porównaliśmy wydajność Conv1D z Conv2D, gdzie MFCC jest używane do ekstraktora cech dla obu architektur sieci neuronowych. Uzyskane dokładności wynoszą odpowiednio 83,95 i 82,47%. Lepszym z obu modeli jest Conv1D pod względem uzyskanego wyniku dokładności i złożoności modelu, gdzie wydaje się, że model Conv1D jest mniej złożony niż model Conv2D.
Słowa kluczowe: Rozpoznawanie emocji w utworze, Conv1D, Conv2D.