processed some of the comments
[asr1617.git] / intro.tex
index a1133e7..10be98f 100644 (file)
--- a/intro.tex
+++ b/intro.tex
@@ -23,16 +23,18 @@ not directly usable as data. Because of this interest it is very useful to
 device automatic techniques for segmenting instrumental and vocal parts of a
 song, apply forced alignment or even lyrics recognition on the audio file.
 
-Such techniques are heavily researched and working systems have been created.
-However, these techniques are designed to detect a clean singing voice and have
-not been testen on so-called \emph{extended vocal techniques} such as grunting
-or growling. Growling is heavily used in extreme metal genres such as \gls{dm}
-but it must be noted that grunting is not a technique only used in extreme
-metal styles. Similar or equal techniques have been used in \emph{Beijing
-opera}, Japanese \emph{Noh} and but also more western styles like jazz singing
-by Louis Armstrong\cite{sakakibara_growl_2004}. It might even be traced back
-to viking times. For example, an arab merchant visiting a village in Denmark
-wrote in the tenth century\cite{friis_vikings_2004}:
+These techniques are heavily researched and working systems have been created
+for segmenting audio and even forced alignment (e.g.\ LyricSynchronizer%
+\cite{fujihara_lyricsynchronizer:_2011}). However, these techniques are designed
+to detect a clean singing voice and have not been testen on so-called
+\emph{extended vocal techniques} such as grunting or growling. Growling is
+heavily used in extreme metal genres such as \gls{dm} but it must be noted that
+grunting is not a technique only used in extreme metal styles. Similar or equal
+techniques have been used in \emph{Beijing opera}, Japanese \emph{Noh} and but
+also more western styles like jazz singing by Louis
+Armstrong\cite{sakakibara_growl_2004}. It might even be traced back to viking
+times. For example, an arab merchant visiting a village in Denmark wrote in the
+tenth century\cite{friis_vikings_2004}:
 
 \begin{displayquote}
        Never before I have heard uglier songs than those of the Vikings in
@@ -61,14 +63,14 @@ separating speech from non-speech signals such as music. The data used was
 already segmented.
 
 Later, Berenzweig showed singing voice segments to be more useful for artist
-classification and used a \gls{MLP} using \gls{PLP} coefficients to separate
-detect singing voice\cite{berenzweig_using_2002}. Nwe et al.\ showed that there
-is not much difference in accuracy when using different features founded in
-speech processing. They tested several features and found accuracies differ
-less that a few percent. Moreover, they found that others have tried to tackle
-the problem using myriads of different approaches such as using \gls{ZCR},
-\gls{MFCC} and \gls{LPCC} as features and \glspl{HMM} or \glspl{GMM} as
-classifiers\cite{nwe_singing_2004}.
+classification and used a \gls{ANN} (\gls{MLP}) using \gls{PLP} coefficients to
+separate detect singing voice\cite{berenzweig_using_2002}. Nwe et al.\ showed
+that there is not much difference in accuracy when using different features
+founded in speech processing. They tested several features and found accuracies
+differ less that a few percent. Moreover, they found that others have tried to
+tackle the problem using myriads of different approaches such as using
+\gls{ZCR}, \gls{MFCC} and \gls{LPCC} as features and \glspl{HMM} or \glspl{GMM}
+as classifiers\cite{nwe_singing_2004}.
 
 Fujihara et al.\ took the idea to a next level by attempting to do \gls{FA} on
 music. Their approach is a three step approach. First step is reducing the