elaborate on the conclusion
authorMart Lubbers <mart@martlubbers.net>
Tue, 30 May 2017 10:16:35 +0000 (12:16 +0200)
committerMart Lubbers <mart@martlubbers.net>
Tue, 30 May 2017 10:16:35 +0000 (12:16 +0200)
appendices.tex
asr.pre
conclusion.tex
img/alien1.png [new file with mode: 0644]
img/alien2.png [new file with mode: 0644]
methods.tex

index 4032971..ea59753 100644 (file)
@@ -1,7 +1,6 @@
 \chapter{Experimental data}\label{app:data}
-\begin{table}[H]
-       \centering
-       \begin{tabular}{cll}
+\begin{center}
+       \begin{longtable}{cll}
                \toprule
                Num. & Song & Duration (mm:ss.ss)\\
                \midrule
@@ -34,7 +33,9 @@
                21 & Ominous Sigils of Ungodly Ruin & 04:59.15\\
                \midrule
                & {\bf Total:} & 43:56.16\\
-               \midrule
+               \bottomrule
+               \pagebreak
+               \toprule
                \multicolumn{3}{l}{\bf Who Dies In Siberian Slush {-} Bitterness Of The Years That Are Lost}\\
                22 & Leave Me & 06:35.60\\
                23 & The Woman We Are Looking For & 06:53.63\\
                & {\bf Total:} & 45:45.09\\
                \midrule
                & {\bf Grand Total:} & 02:13:40\\
+               \midrule
+               \multicolumn{3}{l}{\bf Alien data}\\
+               \multicolumn{2}{l}{Godless Truth {-} Hatred} & 03:22.73\\
+               \multicolumn{2}{l}{Catacombs {-} Consigned to Flames of War} & 16:21.67\\
                \bottomrule
-       \end{tabular}
-       \caption{Experimental data}
-\end{table}
+       \end{longtable}
+\end{center}
diff --git a/asr.pre b/asr.pre
index 604494a..d396631 100644 (file)
--- a/asr.pre
+++ b/asr.pre
@@ -13,6 +13,7 @@
 \usepackage{csquotes}                % Typeset quotes
 \usepackage{subcaption}              % Subfigures and captions
 \usepackage{multirow}                % Multirow tables
+\usepackage{longtable}               % Long tables
 
 \graphicspath{{img/}}
 
index d1dd736..b71301b 100644 (file)
@@ -4,7 +4,10 @@ designed for regular singing voices also work respectably on extreme singing
 styles like grunting. With a standard \gls{ANN} classifier using \gls{MFCC}
 features a performance of $85\%$ can be achieved which is similar to the same
 techniques on regular singing. This means that it might be suitable as a
-pre-processing step for lyrics forced alignment.
+pre-processing step for lyrics forced alignment. The model performs pretty good
+on alien data that uses similar singing techniques as the trainingset. However,
+the model is not coping very good with different singing techniques or with
+data that contains a lot of atmospheric noise and accompaniment.
 
 Future interesting research includes doing the actual forced alignment. This
 probably requires entirely different models. The models used for real speech
@@ -16,18 +19,33 @@ discriminate a singing voice for all styles of singing including growling.
 Moreover, it is possible to investigate the performance of detecting growling
 on regular singing-voice trained models and the other way around.
 
+Another interesting research continuation would be to investigate whether the
+decorrelation step of the feature extraction is necessary. This transformation
+might be inefficient or unnatural. The first layer of weights in the model
+could be seen as a first processing step. If another layer is added that layer
+could take over the role of the decorrelating. The downside of this is that
+training the model is tougher because there are a many more weights to train.
+
+\emph{Singing}-voice detection and \emph{singer}-voice Singing-voice detection
+can be seen as a crude way of genre-detection. Therefore it might be
+interesting to figure out whether this is generalizable to general genre
+recognition. This requires more data from different genres to be added to the
+dataset and the models to be retrained.
+
+A lot of similar research on singing-voice detection uses \glspl{HMM} and
+existing phone models. It would be fruitful to try the same approach on extreme
+singing styles to see whether the phone models can say anything about a
+growling voice.
+
 %Discussion section
 \section{Discussion}
 The dataset used is not very big. Only three albums are annotated and used
 as training data. The albums chosen do represent the ends of the spectrum and
 therefore the resulting model can be very general. However, it could also mean
 that the model is able to recognize three islands in the entire space of
-grunting. This does not seem the case since the results show that totally alien
-data also has a good performance.
-
-The model clearly has trouble with pauses between singing.
-
-\emph{Singing}-voice detection and \emph{singer}-voice Singing-voice detection
-can be seen as a crude way of genre-discrimination. Therefore it be
-generalizable to extensive genre recognition
-might.
+grunting. This does not seem the case since the results show that almost all
+alien data also has a good performance. However, the data has been picked to
+represent the edges of the spectrum. While testing \emph{Catacombs} it seemed
+that this was not the case since the performance was very poor. Adding
+\emph{Catacombs} or a similar style to the training set can probably overcome
+this limitation.
diff --git a/img/alien1.png b/img/alien1.png
new file mode 100644 (file)
index 0000000..a64d46a
Binary files /dev/null and b/img/alien1.png differ
diff --git a/img/alien2.png b/img/alien2.png
new file mode 100644 (file)
index 0000000..7ea433e
Binary files /dev/null and b/img/alien2.png differ
index 0e557df..96365ae 100644 (file)
@@ -253,3 +253,33 @@ batch size of $32$.
 \end{table}
 
 \subsection{Alien data}
+To test the generalizability of the models the system is tested on alien data.
+The data was retrieved from the album \emph{The Desperation} by \emph{Godless
+Truth}. \emph{Godless Truth} is a so called old-school \gls{dm} band that has
+very raspy vocals and the vocals are very up front in the mastering. This means
+that the vocals are very prevalent in the recording and therefore no difficulty
+is expected for the classifier. Figure~\ref{fig:alien1} shows that indeed the
+classifier scores very accurately. Note that the spectogram settings have been
+adapted a little bit to make the picture more clear. The spectogram shows the
+frequency range from $0$ to $3000Hz$.
+
+\begin{figure}[H]
+       \centering
+       \includegraphics[width=.6\linewidth]{alien1}.
+       \caption{Plotting the classifier under similar alien data}\label{fig:alien1}
+\end{figure}
+
+To really test the limits a song from the highly atmospheric doom metal band
+called \emph{Catacombs} has been tested on the system. The album \emph{Echoes
+Through the Catacombs} is an album that has a lot of synthesizers, heavy
+droning guitars and bass lines. The vocals are not mixed in a way that makes
+them stand out. The models have never seen trainingsdata that is even remotely
+similar to this type of metal. Figure~\ref{fig:alien2} shows a segment of the
+data. Here it is clearly visible that the classifier can not distinguish
+singing from non singing.
+
+\begin{figure}[H]
+       \centering
+       \includegraphics[width=.6\linewidth]{alien1}.
+       \caption{Plotting the classifier under different alien data}\label{fig:alien2}
+\end{figure}