process last comments
[asr1617.git] / methods.tex
index 0f694c5..517ade5 100644 (file)
@@ -10,9 +10,9 @@ utilizing \emph{SoX}\footnote{\url{http://sox.sourceforge.net/}}. Every file
 is annotated using Praat~\cite{boersma_praat_2002} where the lyrics are
 manually aligned to the audio. Examples of utterances are shown in
 Figure~\ref{fig:bloodstained} and Figure~\ref{fig:abominations} where the
-waveform, $1-8000$Hz spectrals and annotations are shown. It is clearly visible
-that within the genre of death metal there are different spectral patterns
-visible over time.
+waveform, $1-8000$Hz spectrogram and annotations are shown. It is clearly
+visible that within the genre of death metal there are different spectral
+patterns visible over time.
 
 \begin{figure}[ht]
        \centering
@@ -49,9 +49,10 @@ performs in several Muscovite bands. This band also stands out because it uses
 piano's and synthesizers. The droning synthesizers often operate in the same
 frequency as the vocals.
 
-Additional details about the dataset are listed in Appendix~\ref{app:data}.
-The data is labeled as singing and instrumental and labeled per band. The
-distribution for this is shown in Table~\ref{tbl:distribution}.
+Additional details about the dataset such are listed in
+Appendix~\ref{app:data}.  The data is labeled as singing and instrumental and
+labeled per band. The distribution for this is shown in
+Table~\ref{tbl:distribution}.
 \begin{table}[H]
        \centering
        \begin{tabular}{lcc}
@@ -69,7 +70,7 @@ distribution for this is shown in Table~\ref{tbl:distribution}.
                0.59 & 0.16 & 0.19 & 0.06\\
                \bottomrule
        \end{tabular}
-       \caption{Data distribution}\label{tbl:distribution}
+       \caption{Proportional data distribution}\label{tbl:distribution}
 \end{table}
 
 \section{Mel-frequencey Cepstral Features}
@@ -90,9 +91,7 @@ created from a waveform incrementally using several steps:
                window with overlap. The width of the window and the step size are two
                important parameters in the system. In classical phonetic analysis
                window sizes of $25ms$ with a step of $10ms$ are often chosen because
-               they are small enough to contain just one subphone event. Singing for
-               $25ms$ is impossible so it might be necessary to increase the window
-               size.
+               they are small enough to contain just one subphone event.
        \item The standard \gls{FT} gives a spectral representation that has
                linearly scaled frequencies. This scale is converted to the \gls{MS}
                using triangular overlapping windows to get a more tonotopic
@@ -115,7 +114,7 @@ created from a waveform incrementally using several steps:
 The default number of \gls{MFCC} parameters is twelve. However, often a
 thirteenth value is added that represents the energy in the analysis window.
 The $c_0$ is chosen is this example. $c_0$ is the zeroth \gls{MFCC}. It
-represents the overall energy in the \gls{MS}. Another option would be
+represents the average over all \gls{MS} bands. Another option would be
 $\log{(E)}$ which is the logarithm of the raw energy of the sample.
 
 \section{Artificial Neural Network}
@@ -210,7 +209,22 @@ is the act of segmenting an audio signal into segments that are labeled either
 as \emph{Singing} or as \emph{Instrumental}. The input of the classifier is a
 feature vector and the output is the probability that singing is happening in
 the sample. This results in an \gls{ANN} of the shape described in
-Figure~\ref{fig:bcann}. The input dimension is thirteen and the output is one.
+Figure~\ref{fig:bcann}. The input dimension is thirteen and the output
+dimension is one.
+
+The \emph{crosstenopy} function is used as the loss function. The
+formula is shown in Equation~\ref{eq:bincross} where $p$ is the true
+distribution and $q$ is the classification. Acurracy is the mean of the
+absolute differences between prediction and true value. The formula is show in
+Equation~\ref{eq:binacc}.
+
+\begin{equation}\label{eq:bincross}
+       H(p,q) = -\sum_x p(x)\log{q(x)}
+\end{equation}
+
+\begin{equation}\label{eq:binacc}
+       \frac{1}{n}\sum^n_{i=1} abs (ypred_i-y_i)
+\end{equation}
 
 \subsection{\emph{Singer}-voice detection}
 The second type of experiment conducted is \emph{Singer}-voice detection. This
@@ -220,5 +234,15 @@ classifier is a feature vector and the outputs are probabilities for each of
 the singers and a probability for the instrumental label. This results in an
 \gls{ANN} of the shape described in Figure~\ref{fig:mcann}. The input dimension
 is yet again thirteen and the output dimension is the number of categories. The
-output is encoded in one-hot encoding. This means that the categories are
-labeled as \texttt{1000, 0100, 0010, 0001}.
+output is encoded in one-hot encoding. This means that the four categories in
+the experiments are labeled as \texttt{1000, 0100, 0010, 0001}.
+
+The loss function is the same as in \emph{Singing}-voice detection.
+The accuracy is calculated a little differenty since the output of the network
+is not one probability but a vector of probabilities. The accuracy is
+calculated of each sample by only taking into account the highest value in the
+one-hot encoded vector. This exact formula is shown in Equation~\ref{eq:catacc}.
+
+\begin{equation}\label{eq:catacc}
+       \frac{1}{n}\sum^n_{i=1} abs(argmax(ypred_i)-argmax(y_i))
+\end{equation}