process comments of proofread
[asr1617.git] / intro.tex
index a64a9b2..1753534 100644 (file)
--- a/intro.tex
+++ b/intro.tex
@@ -1,7 +1,7 @@
 \section{Introduction}
 The primary medium for music distribution is rapidly changing from physical
 media to digital media. The \gls{IFPI} stated that about $43\%$ of music
-revenue rises from digital distribution. Another $39\%$ arises from the
+revenue arises from digital distribution. Another $39\%$ arises from the
 physical sale and the remaining $16\%$ is made through performance and
 synchronisation revenieus. The overtake of digital formats on physical formats
 took place somewhere in 2015. Moreover, ever since twenty years the music
@@ -11,7 +11,7 @@ again\footnote{\url{http://www.ifpi.org/facts-and-stats.php}}.
 There has always been an interest in lyrics to music alignment to be used in
 for example karaoke. As early as in the late 1980s karaoke machines were
 available for consumers. While the lyrics for the track are almost always
-available, a alignment is not and it involves manual labour to create such an
+available, an alignment is not and it involves manual labour to create such an
 alignment.
 
 A lot of this musical distribution goes via non-official channels such as
@@ -46,10 +46,11 @@ tenth century\cite{friis_vikings_2004}:
 \section{Related work}
 Applying speech related processing and classification techniques on music
 already started in the late 90s. Saunders et al.\ devised a technique to
-classify audio in the categories \emph{Music} and \emph{Speech}. It was found
+classify audio in the categories \emph{Music} and \emph{Speech}. They was found
 that music has different properties than speech. Music has more bandwidth,
 tonality and regularity. Multivariate Gaussian classifiers were used to
-discriminate the categories with an average performance of $90\%$.
+discriminate the categories with an average performance of $90\%%
+$\cite{saunders_real-time_1996}.
 
 Williams and Ellis were inspired by the aforementioned research and tried to
 separate the singing segments from the instrumental
@@ -61,24 +62,24 @@ separating speech from non-speech signals such as music. The data used was
 already segmented.
 
 Later, Berenzweig showed singing voice segments to be more useful for artist
-classification and used a \gls{ANN} (\gls{MLP}) using \gls{PLP} coefficients to
-separate detect singing voice\cite{berenzweig_using_2002}. Nwe et al.\ showed
-that there is not much difference in accuracy when using different features
-founded in speech processing. They tested several features and found accuracies
-differ less that a few percent. Moreover, they found that others have tried to
-tackle the problem using myriads of different approaches such as using
-\gls{ZCR}, \gls{MFCC} and \gls{LPCC} as features and \glspl{HMM} or \glspl{GMM}
-as classifiers\cite{nwe_singing_2004}.
+classification and used an \gls{ANN} (\gls{MLP}) using \gls{PLP} coefficients
+to detect a singing voice\cite{berenzweig_using_2002}. Nwe et al.\ showed that
+there is not much difference in accuracy when using different features founded
+in speech processing. They tested several features and found accuracies differ
+less that a few percent. Moreover, they found that others have tried to tackle
+the problem using myriads of different approaches such as using \gls{ZCR},
+\gls{MFCC} and \gls{LPCC} as features and \glspl{HMM} or \glspl{GMM} as
+classifiers\cite{nwe_singing_2004}.
 
 Fujihara et al.\ took the idea to a next level by attempting to do \gls{FA} on
-music. Their approach is a three step approach. First step is reducing the
-accompaniment levels, secondly the vocal segments are
-separated from the non-vocal segments using a simple two-state \gls{HMM}.
-The chain is concluded by applying \gls{Viterbi} alignment on the segregated
-signals with the lyrics. The system showed accuracy levels of $90\%$ on
-Japanese music\cite{fujihara_automatic_2006}. Later they improved
-hereupon\cite{fujihara_three_2008} and even made a ready to use karaoke
-application that can do the this online\cite{fujihara_lyricsynchronizer:_2011}.
+music. Their approach is a three step approach. The first step is reducing the
+accompaniment levels, secondly the vocal segments are separated from the
+non-vocal segments using a simple two-state \gls{HMM}. The chain is concluded
+by applying \gls{Viterbi} alignment on the segregated signals with the lyrics.
+The system showed accuracy levels of $90\%$ on Japanese music%
+\cite{fujihara_automatic_2006}. Later they improved hereupon%
+\cite{fujihara_three_2008} and even made a ready to use karaoke application
+that can do the this online\cite{fujihara_lyricsynchronizer:_2011}.
 
 Singing voice detection can also be seen as a binary genre recognition problem.
 Therefore the techniques used in that field might be of use.  Genre recognition
@@ -94,14 +95,14 @@ growling like vocals. Dzhambazov also tried aligning lyrics to audio in
 classical Turkish music\cite{dzhambazov_automatic_2014}.
 
 \section{Research question}
-It is discutable whether the aforementioned techniques work because the
+It is debatable whether the aforementioned techniques work because the
 spectral properties of a growling voice is different from the spectral
 properties of a clean singing voice. It has been found that growling voices
 have less prominent peaks in the frequency representation and are closer to
-noise then clean singing\cite{kato_acoustic_2013}. This leads us to the
+noise than clean singing\cite{kato_acoustic_2013}. This leads us to the
 research question:
 
 \begin{center}\em%
        Are standard \gls{ANN} based techniques for singing voice detection
-       suitable for non-standard musical genres like \gls{dm} and \gls{dom}.
+       suitable for non-standard musical genres like \gls{dm} and \gls{dom}?
 \end{center}