expand MFCC bit
[asr1617.git] / methods.tex
index c49c249..a15c421 100644 (file)
@@ -46,7 +46,7 @@ Lastly a band from Moscow is chosen bearing the name \emph{Who Dies in
 Siberian Slush}. This band is a little odd compared to the previous \gls{dm}
 bands because they create \gls{dom}. \gls{dom} is characterized by the very
 slow tempo and low tuned guitars. The vocalist has a very characteristic growl
-and performs in several moscovian bands. This band also stands out because it
+and performs in several Muscovite bands. This band also stands out because it
 uses piano's and synthesizers. The droning synthesizers often operate in the
 same frequency as the vocals.
 
@@ -54,7 +54,9 @@ same frequency as the vocals.
 The waveforms in itself are not very suitable to be used as features due to the
 high dimensionality and correlation. Therefore we use the often used
 \glspl{MFCC} feature vectors which has shown to be
-suitable\cite{rocamora_comparing_2007}. The actual conversion is done using the
+suitable\cite{rocamora_comparing_2007}. It has also been found that altering
+the mel scale to better suit singing does not yield a better
+performance\cite{you_comparative_2015}. The actual conversion is done using the
 \emph{python\_speech\_features}%
 \footnote{\url{https://github.com/jameslyons/python_speech_features}} package.
 
@@ -71,12 +73,14 @@ steps.
        \item The standard \gls{FT} gives a spectral representation that has
                linearly scaled frequencies. This scale is converted to the \gls{MS}
                using triangular overlapping windows.
-       \item
+       \item The log is taken of the Mel frequencies. This step is inspired by the
+               \emph{Weber-Fechner} law that describes how humans perceive physical
+               magnitudes\footnote{Fechner, Gustav Theodor (1860). Elemente der
+               Psychophysik}
+       \item To decorrelate the signal a \gls{DCT} is applied. The \gls{MFCC}
+               features are then the amplitudes of the spectrum.
 \end{enumerate}
 
-
-\todo{Explain why MFCC and which parameters}
-
 \section{\gls{ANN} Classifier}
 \todo{Spectrals might be enough, no decorrelation}