true final
[asr1617.git] / conclusion.tex
index 3cc834f..c2ea759 100644 (file)
@@ -1,25 +1,3 @@
-\section{Conclusion}
-This study shows that existing techniques for singing-voice detection
-designed for regular singing-voices also work on \gls{dm} and \gls{dom} that
-contain extreme singing styles like grunting. With a standard \gls{ANN}
-classifier using \gls{MFCC} features a performance of $85\%$ can be achieved
-which is similar to the same techniques used on regular singing. This means
-that it might also be suitable as a pre-processing step for lyrics forced
-alignment. Moreover, the \emph{singer}-voice recognition experiments scored
-similarly.
-
-To determine whether the model generalizes, alien data has been offered to the
-model to see how it performs. It was shown that for similar singing styles the
-models perform similar. The alien data offered containing different singing
-styles, atmospheric noise and accompaniment is classified worse.
-
-From the results we can conclude that the model generalizes well over the
-trainings set, even with little hidden nodes. The models with 3 or 5 hidden
-nodes score a little worse than their bigger brothers but there is hardly any
-difference between the performance of a model with 8 or 13 nodes. Moreover,
-contrary than expected the window size does not seem to be doing much in the
-performance.
-
 %Discussion section
 \section{Discussion}
 The dataset used only contains three albums and might not be considered varied.
@@ -28,13 +6,19 @@ Therefore the resulting model can be very general. On the other side, it could
 also result in a model that is overfitted to the three islands in the entire
 space of grunting voices.
 
-In this case it seems that the model generalizes well. The alien data --- similar
-to the training data --- offered to the model, results in a good performance.
-However, alien data that has a very different style does not perform as good.
-While testing \emph{Catacombs} the performance was very poor. Adding
-\emph{Catacombs} or a similar style to the training set can probably overcome
-this performance issue. Thus, the performance on alien data can probably be
-increased by having a bigger and more varied dataset.
+In this case it seems that the model generalizes well. The alien data ---
+similar to the training data --- offered to the model, results in a good
+performance. However, alien data that has a very different style does not
+perform as good. While testing \emph{Catacombs} the performance was very poor.
+Adding \emph{Catacombs} or a similar style to the training set can probably
+overcome this performance issue. Thus, the performance on alien data can
+probably be increased by having a bigger and more varied dataset that includes
+more outliers in the plane of growling voices.
+
+The performance reached in the experiments is very similar to the literature.
+This was expected because growling voices have different spectral
+characteristics but are still produced by the vocal tract and physically
+limited by it.
 
 \section{Future research}
 \paragraph{Forced alignment: }
@@ -57,7 +41,7 @@ investigate the performance of detecting one with the other. This means using
 existing models that were trained on regular singing voices to detect grunting.
 The same experiments can be done the other way around as well.
 
-\paragraph{Decorrelation }
+\paragraph{Decorrelation: }
 Adding another layer to the \gls{MLP} can be seen as applying an extra
 normalization step to the input data. It could be that the last step in
 converting the waveforms to \gls{MFCC} can be performed by the neural network.
@@ -74,7 +58,7 @@ be tackled using the methods used. In the literature, similar methods have been
 used to discriminate genres in regular music styles and it even has been
 attempted to discriminate genres within extreme music styles. Therefore it
 might be interesting to figure out whether this specific method is
-generalizable to general genre recognition.  This requires more data from
+generalizable to general genre recognition. This requires more data from
 different genres to be added to the dataset and the models to be retrained.
 Again, it would be interesting to see what comes out of the models when
 offering regular music and the other way around. Maybe the characteristics of
@@ -89,3 +73,24 @@ would be interesting to try using existing speech models on singing-voice
 recognition in extreme singing styles to see whether the phone models can say
 anything about a growling voice.
 
+\section{Conclusion}
+This study shows that existing techniques for singing-voice detection
+designed for regular singing-voices also work on \gls{dm} and \gls{dom} that
+contain extreme singing styles like grunting. With a standard \gls{ANN}
+classifier using \gls{MFCC} features a performance of $85\%$ can be achieved
+which is similar to the same techniques used on regular singing. This means
+that it might also be suitable as a pre-processing step for lyrics forced
+alignment. Moreover, the \emph{singer}-voice recognition experiments scored
+similarly.
+
+To determine whether the model generalizes, alien data has been offered to the
+model to see how it performs. It was shown that for similar singing styles the
+models perform similar. The alien data offered containing different singing
+styles, atmospheric noise and accompaniment is classified worse.
+
+From the results we can conclude that the model generalizes well over the
+trainings set, even with a small number of hidden nodes. The models with 3 or 5
+hidden nodes score a little worse than their bigger brothers but there is
+hardly any difference between the performance of a model with 8 or 13 nodes.
+Moreover, contrary than expected the window size does not seem to be doing much
+in the performance.