typos in 1 and 2 fixed
authorMart Lubbers <mart@martlubbers.net>
Wed, 27 May 2015 10:28:09 +0000 (12:28 +0200)
committerMart Lubbers <mart@martlubbers.net>
Wed, 27 May 2015 10:28:09 +0000 (12:28 +0200)
thesis2/1.introduction.tex
thesis2/2.requirementsanddesign.tex
thesis2/abstract.tex

index 895de35..e28a1e4 100644 (file)
@@ -202,8 +202,8 @@ more.
 
 \section{Goal \& Research question}
 Maintaining the automated crawlers and the infrastructure that provides the
 
 \section{Goal \& Research question}
 Maintaining the automated crawlers and the infrastructure that provides the
-\textit{Temporum} and its matching aid automization are the parts within the
-dataflow that require the most amount of resources. Both of these parts require
+\textit{Temporum} and its matching aid automation are the parts within the
+data flow that require the most amount of resources. Both of these parts require
 a programmer to execute and therefore are costly. In the case of the automated
 crawlers it requires a programmer because the crawlers are scripts or programs
 created are website-specific. Changing such a script or program requires
 a programmer to execute and therefore are costly. In the case of the automated
 crawlers it requires a programmer because the crawlers are scripts or programs
 created are website-specific. Changing such a script or program requires
@@ -222,7 +222,7 @@ detected and the programmers have to be contacted. Finally the crawler will be
 adapted to the new structure and will produce good data again. This feedback
 loop, shown in Figure~\ref{feedbackloop}, can take days and can be the reason
 for gaps and faulty information in the database. The figure shows information
 adapted to the new structure and will produce good data again. This feedback
 loop, shown in Figure~\ref{feedbackloop}, can take days and can be the reason
 for gaps and faulty information in the database. The figure shows information
-flow with arrows. The solid and dotted lines form the current feedbackloop.
+flow with arrows. The solid and dotted lines form the current feedback loop.
 \begin{figure}[H]
 \label{feedbackloop}
        \centering
 \begin{figure}[H]
 \label{feedbackloop}
        \centering
@@ -234,8 +234,8 @@ The specific goal of this project is to relieve the programmer of spending a
 lot of time repairing
 crawlers and make the task of adapting, editing and removing
 crawlers feasible for someone without programming experience. In practice this
 lot of time repairing
 crawlers and make the task of adapting, editing and removing
 crawlers feasible for someone without programming experience. In practice this
-means shortening the feedbackloop. The shorter feedback loop is also shown in
-Figure~\ref{feedbackloop}. The dashed line shows the shorter feedbackloop that
+means shortening the feedback loop. The shorter feedback loop is also shown in
+Figure~\ref{feedbackloop}. The dashed line shows the shorter feedback loop that
 relieves the programmer.
 
 For this project a system has been developed that provides an
 relieves the programmer.
 
 For this project a system has been developed that provides an
@@ -380,8 +380,8 @@ marking. Graph $G$ accepts the words \textit{a,ab} and to simplify the graph
 node $n2$ and $n3$ are final. Finally $v_0$ describes the initial node, this is
 visualized in figures as an incoming arrow. Because of the property of labeled
 edges, data can be stored in a DAWG. When traversing a DAWG and saving all the
 node $n2$ and $n3$ are final. Finally $v_0$ describes the initial node, this is
 visualized in figures as an incoming arrow. Because of the property of labeled
 edges, data can be stored in a DAWG. When traversing a DAWG and saving all the
-edgelabels one can construct words. Using graph minimalization big sets of
-words can be stored using a small amouth of storage because edges can be
+edge labels one can construct words. Using graph minimisation big sets of
+words can be stored using a small amount of storage because edges can be
 re-used to specify transitions. For example the graph in
 Figure~\ref{exampledawg} can describe the language $L$ where all words $w$ that
 are accepted $w\in\{abd, bad, bae\}$. Testing if a word is present in the DAWG
 re-used to specify transitions. For example the graph in
 Figure~\ref{exampledawg} can describe the language $L$ where all words $w$ that
 are accepted $w\in\{abd, bad, bae\}$. Testing if a word is present in the DAWG
index a69ecdc..680a18b 100644 (file)
@@ -57,7 +57,7 @@ definitive requirements.
        \item[F2:] Export the data to a strict XML feed.
 
                This requirement is an adapted version of requirement I3, this
        \item[F2:] Export the data to a strict XML feed.
 
                This requirement is an adapted version of requirement I3, this
-               is als done to limit the scope. We chose to no interact
+               is also done to limit the scope. We chose to no interact
                directly with the database or the \textit{Temporum}. The
                application however is able to output XML data that is
                formatted following a string XSD scheme so that it is easy to
                directly with the database or the \textit{Temporum}. The
                application however is able to output XML data that is
                formatted following a string XSD scheme so that it is easy to
@@ -69,7 +69,7 @@ definitive requirements.
 
                This requirement is formed from I4. Initially the user
                interface for adding and training crawlers was done via a
 
                This requirement is formed from I4. Initially the user
                interface for adding and training crawlers was done via a
-               webinterface that was user friendly and usable by someone
+               web interface that was user friendly and usable by someone
                without a particular computer science background as the
                requirement stated. However in the first prototypes the control
                center that could test, edit and remove crawlers was a command
                without a particular computer science background as the
                requirement stated. However in the first prototypes the control
                center that could test, edit and remove crawlers was a command
@@ -86,7 +86,7 @@ definitive requirements.
                this can be due to any reason, a message is sent to the people
                using the program so that they can edit or remove the faulty
                crawler. Updating without the need of a programmer is essential
                this can be due to any reason, a message is sent to the people
                using the program so that they can edit or remove the faulty
                crawler. Updating without the need of a programmer is essential
-               in shortening the feedbackloop explained in
+               in shortening the feedback loop explained in
                Figure~\ref{feedbackloop}.
 \end{itemize}
 
                Figure~\ref{feedbackloop}.
 \end{itemize}
 
@@ -108,7 +108,7 @@ definitive requirements.
                extensions are discussed in Section~\ref{sec:discuss}.
        \item[N2:] Operate standalone on a server.
 
                extensions are discussed in Section~\ref{sec:discuss}.
        \item[N2:] Operate standalone on a server.
 
-               Non-functional requirement N1 is dropped because we want to
+               Non-functional requirement O1 is dropped because we want to
                keep the program as modular as possible and via an XML
                interface we still have a very intimate connection with the
                database without having to maintain a direct connection. The
                keep the program as modular as possible and via an XML
                interface we still have a very intimate connection with the
                database without having to maintain a direct connection. The
index 2cc2d04..9af70fe 100644 (file)
@@ -1,15 +1,14 @@
 When looking for an activity in a bar or trying to find a good movie to watch
 When looking for an activity in a bar or trying to find a good movie to watch
-it often seems difficult to find complete information about the event without
-empty or wrong data.  Hyperleap tries to solve problem of bad information
-giving by bundling the information from various sources and invest in good
-quality checking.  Currently information retrievel is performed using
-site-specific crawlers, when a crawler breaks the feedback loop for fixing the
-it contains of different steps and requires someone with a computer science
-background.  A crawler generation system has been created that uses directed
-acyclic word graphs that assist solving the feedback loop problem.  The system
-allows users with no particular computer science background to create, edit and
-test crawlers for \textit{RSS} feeds.  In this way the feedback loop for broken
-crawlers is shortened, new sources can be incorporated in the database quicker
-and, most importantly, the information about the latest movie show, theater
-production or conference will reach the people looking for it as fast as
-possible.
+it often seems difficult to find complete and correct information about the
+event. Hyperleap tries to solve problem of bad information giving by bundling
+the information from various sources and invest in good quality checking.
+Currently information retrieval is performed using site-specific crawlers, when
+a crawler breaks the feedback loop for fixing the it contains of different
+steps and requires someone with a computer science background. A crawler
+generation system has been created that uses directed acyclic word graphs to
+assist solving the feedback loop problem. The system allows users with no
+particular computer science background to create, edit and test crawlers for
+\textit{RSS} feeds. In this way the feedback loop for broken crawlers is
+shortened, new sources can be incorporated in the database quicker and, most
+importantly, the information about the latest movie show, theater production or
+conference will reach the people looking for it as fast as possible.