update rcrc2
[bsc-thesis1415.git] / thesis2 / 1.introduction.tex
index 652dcb3..ac6e9c5 100644 (file)
@@ -124,8 +124,8 @@ from the title of an entry in a RSS feed. The example has a clear structure and
 almost all information required is available directly from the entry.
 
 \begin{flushleft}
-       \texttt{2015-05-20, 18:00-23:00 - \textit{Foobar} presenting their new%
-CD in combination with a show. Location: small salon.}
+       \texttt{2015-05-20, 18:00-23:00 - \textit{Foobar} presenting their %
+new CD in combination with a show. Location: small salon.}
 \end{flushleft}
 
 An example of a terrible item could be for example the following text that
@@ -143,18 +143,19 @@ park tomorrow evening.}
 When the source has been determined and classified the next step is
 periodically crawling the source. At the moment the crawling happens using two
 main methods.\\
-\textbf{Manual crawling:} Manual crawling is basically letting an employee
-access the source and put the information directly in the database. This often
-happens with non digital sources and with very sudden events or event changes
-such as surprise concerts or event cancellation.\\
-\textbf{Automatic crawling:} Some sites are very structured and a programmer
-can create a program that can visit the website systematically and
-automatically to extract all the new information. Not all digital sources are
-suitable to be crawled automatically and will still need manual crawling. The
-programmed crawlers are always specifically created for one or a couple sources
-and when the source changes for example structure the programmer has to adapt
-the crawler which is costly. Information from the all the crawlers goes first
-to the \textit{Temporum}.
+\textbf{Manual crawling:}\\
+Manual crawling is basically letting an employee access the source and put the
+information directly in the database. This often happens with non digital
+sources and with very sudden events or event changes such as surprise concerts
+or event cancellation.\\
+\textbf{Automatic crawling:}\\
+Some sites are very structured and a programmer can create a program that can
+visit the website systematically and automatically to extract all the new
+information. Not all digital sources are suitable to be crawled automatically
+and will still need manual crawling. The programmed crawlers are always
+specifically created for one or a couple sources and when the source changes
+for example structure the programmer has to adapt the crawler which is costly.
+Information from the all the crawlers goes first to the \textit{Temporum}.
 
 \subsection*{Temporum}
 The \textit{Temporum} is a big bin that contains raw data extracted from
@@ -203,11 +204,11 @@ current feedback loop for crawlers.
 \begin{figure}[H]
        \label{feedbackloop}
        \centering
-       \includegraphics[scale=0.5]{feedbackloop.eps}
+       \includegraphics[width=0.8\linewidth]{feedbackloop.eps}
        \strut\\\strut\\
        \caption{Feedback loop for malfunctioning crawlers}
 \end{figure}
-
+\strut\\
 The goal of this project is specifically to relieve the programmer of repairing
 crawlers all the time and make the task of adapting, editing and removing
 crawlers doable for someone without programming experience. In practice this