0.4
[bsc-thesis1415.git] / thesis2 / 1.introduction.tex
index a055d17..81f09fe 100644 (file)
@@ -56,16 +56,16 @@ As said before Hyperleap is the only in its kind with the high quality data.
 This is because a lot of time and resources are spend to crosscompare, match
 and check the data that enters the database. To achieve this the data is
 inserted in the database in several different steps described in
-Figure~\ref{fig:1.1.1}
+Figure~\ref{informationflow}
 
 \begin{figure}[H]
        \caption{Information flow Hyperleap database}
-       \label{fig:1.1.1}
+       \label{informationflow}
        \centering
        \scalebox{0.7}{
                \digraph[]{graph111}{
                        rankdir=TB;
-                       node [shape="rectangle",fontsize=10,nodesep=0.5,ranksep=0.75,width=1]
+                       node [shape="rectangle",fontsize=10,nodesep=0.7,ranksep=0.75,width=1]
                        edge [weight=5.]
                        i0 [label="Website"]
                        i1 [label="Email"]
@@ -159,11 +159,10 @@ different crawlers then goes to the \textit{Temporum}.
 \paragraph{Temporum}
 The \textit{Temporum} is a big bin that contains raw data extracted from
 different sources and has to be post processed to be suitable enough for the
-actual database. This processing encompasses several possible tasks.
-
-The first task is to check the validity of the entry. This is a very shallow
-test to check if the crawler is not malfunctioning and there is no nonsense in
-the data. Most of the data is not directly checked for validity, the data is
+actual database. This processing encompasses several possible tasks.  The first
+task is to check the validity of the entry. This is a very shallow test to
+check if the crawler is not malfunctioning and there is no nonsense in the
+data. Most of the data is not directly checked for validity, the data is
 skimmed for strange things but not every datapoint is checked.  The second step
 is matching the entry to several objects. For example the entry has to be
 matched to a certain venue when its source is a ticket vendor who sells tickets
@@ -198,7 +197,7 @@ take days and can be the reason for gaps or faulty information in the database.
        \caption{Feedback loop for malfunctioning crawlers}
        \label{feedbackloop}
        \centering
-       \scalebox{0.8}{
+       \scalebox{0.5}{
                \digraph[]{graph112}{
                        rankdir=LR;
                        node [shape="rectangle"]
@@ -311,11 +310,13 @@ Figure~\ref{graphexample} is specified as:
        \caption{Example Graph}
        \label{graphexample}
        \centering
-       \digraph[]{graphexample}{
-               rankdir=LR
-               n1 -> n2 [dir="none"]
-               n2 -> n3 [dir="none"]
-               n2 -> n3 [dir="none"]
+       \scalebox{0.7}{
+               \digraph[]{graphexample}{
+                       rankdir=LR
+                       n1 -> n2 [dir="none"]
+                       n2 -> n3 [dir="none"]
+                       n2 -> n3 [dir="none"]
+               }
        }
 \end{figure}
 
@@ -326,14 +327,31 @@ still the edges but the inherent difference is that the edges are ordered
 tuples in stead of not ordered. Adding this property gives the edges a
 direction. Every edge has a specific start and end and are therefore called
 directed edges. A directed graph would look the same as the graph in
-Figure~\ref{graphexample} but then the normal edges would be replaced by
-directional arrows that specifically go from one node to the other.
+Figure~\ref{graphexample} but then visualized with arrows instead of normal
+lines. The arrows specifically go from one node to the other and not the other
+way around. However bidirectional connection can occur. For example graph the
+graph shown in Figure~\ref{dgexample} is directional with a bidirectional
+connection.
+$$G=(\{n1, n2\}, \{(n1, n2), (n2, n1)\}$$
+
+\begin{figure}[H]
+       \caption{Example directed graph}
+       \label{dgexample}
+       \centering
+       \scalebox{0.7}{
+               \digraph[]{dgexample}{
+                       rankdir=LR
+                       n1 -> n2
+                       n2 -> n1
+               }
+       }
+\end{figure}
 
 \paragraph{Directed acyclic graphs}
 Directed Acyclic Graphs(DAGs) are a special kind of directed graphs. DAGs
 are also defined as $G=(V,E)$ but with a restriction on $E$. Namely that cycles
-are not allowed. Figure~\ref{dagexample} shows two graphs. The left graph
-contains a cycle and the right graph does not. Only the right graph is a valid
+are not allowed. Figure~\ref{dagexample} shows two graphs. The bottom graph
+ontains a cycle and the right graph does not. Only the top graph is a valid
 DAG. A cycle is defined by a sequence of edges where nodes are visited more
 then once. Adding the property of non-cyclicity to graphs lowers the
 computational complexity of checking if a node sequence is present in the
@@ -343,14 +361,16 @@ graph to $\mathcal{O}(L)$ where $L$ is the length of the sequence.
        \caption{Example DAG}
        \label{dagexample}
        \centering
-       \digraph[]{dagexample}{
-               rankdir=LR
-               n01 -> n02
-               n02 -> n03
-               n03 -> n01
-               n11 -> n12
-               n12 -> n13
-               n12 -> n14
+       \scalebox{0.7}{
+               \digraph[]{dagexample}{
+                       rankdir=LR
+                       n01 -> n02
+                       n02 -> n03
+                       n03 -> n01
+                       n11 -> n12
+                       n12 -> n13
+                       n12 -> n14
+               }
        }
 \end{figure}
 
@@ -383,16 +403,18 @@ length of the word.
        \caption{Example DAWG}
        \label{exampledawg}
        \centering
-       \digraph[]{graph21}{
-               rankdir=LR;
-               n1,n2,n3,n4,n5 [shape="circle"];
-               n6 [shape="doublecircle"];
-               n1 -> n2 [label="a"];
-               n2 -> n3 [label="b"];
-               n3 -> n6 [label="d"];
-               n1 -> n4 [label="b"];
-               n4 -> n5 [label="a"];
-               n5 -> n6 [label="d"];
-               n5 -> n6 [label="e"];
+       \scalebox{0.7}{
+               \digraph[]{graph21}{
+                       rankdir=LR;
+                       n1,n2,n3,n4,n5 [shape="circle"];
+                       n6 [shape="doublecircle"];
+                       n1 -> n2 [label="a"];
+                       n2 -> n3 [label="b"];
+                       n3 -> n6 [label="d"];
+                       n1 -> n4 [label="b"];
+                       n4 -> n5 [label="a"];
+                       n5 -> n6 [label="d"];
+                       n5 -> n6 [label="e"];
+               }
        }
 \end{figure}