index 545d807..652dcb3 100644 (file)
@@ -46,9 +46,9 @@ publishing and maintaining \textit{infotainment}. \textit{Infotainment} is a
 combination of the words \textit{information} and \textit{entertainment}. It
 represents a combination of factual information and subjectual information
 (entertainment) within a certain category or field. In the case of Hyperleap
 combination of the words \textit{information} and \textit{entertainment}. It
 represents a combination of factual information and subjectual information
 (entertainment) within a certain category or field. In the case of Hyperleap
-the category is the leisure industry, leisure industry encompasses all facets of
-entertainment going from cinemas, theaters, concerts to swimming pools, bridge
-competitions and conferences. Within the entertainment industry factual
+the category is the leisure industry, leisure industry encompasses all facets
+of entertainment going from cinemas, theaters, concerts to swimming pools,
+bridge competitions and conferences. Within the entertainment industry factual
 information includes, but is not limited to, information such as starting time,
 location, host or venue and duration. Subjectual information includes, but is
 not limited to, information such as reviews, previews, photos, background
 information includes, but is not limited to, information such as starting time,
 location, host or venue and duration. Subjectual information includes, but is
 not limited to, information such as reviews, previews, photos, background
@@ -100,7 +100,7 @@ theater show title, movie title, festival title and many more.\\
 The \textit{Where} field is the location of the event. The location is often
 omitted because the organization behind source presenting the information think
 The \textit{Where} field is the location of the event. The location is often
 omitted because the organization behind source presenting the information think
-it is obvious. This field can also include different sub locations.  For
+it is obvious. This field can also include different sub locations. For
 example when a pop concert venue has their own building but in the summer they
 organize a festival in some park. This data is often assumed to be trivial and
 inherent but in practice this is not the case. In this example for an outsider
 example when a pop concert venue has their own building but in the summer they
 organize a festival in some park. This data is often assumed to be trivial and
 inherent but in practice this is not the case. In this example for an outsider
@@ -129,7 +129,7 @@ CD in combination with a show. Location: small salon.}
 An example of a terrible item could be for example the following text that
 An example of a terrible item could be for example the following text that
-could originate from a flyer or social media post.  This example lacks a
+could originate from a flyer or social media post. This example lacks a
 precise date, time and location and is therefore hard for people to grasp at
 first, let alone for a machine. When someone wants to get the full information
 he has to tap in different resources which might not always be available. 
 precise date, time and location and is therefore hard for people to grasp at
 first, let alone for a machine. When someone wants to get the full information
 he has to tap in different resources which might not always be available. 
@@ -187,17 +187,19 @@ more.
 \section{Goal \& Research question}
 Crawling the sources and applying the preprocessing is the most expensive task
 \section{Goal \& Research question}
 Crawling the sources and applying the preprocessing is the most expensive task
-in the entire information flow because it requires a programmer to be hired.
-Only programmers currently can create crawlers and design preprocessing jobs
-because all current programs are specifically designed to do one thing, most of
-the time for one source. Because a big group of sources often changes this task
+in the entire information flow because it requires a programmer to perform
+these tasks. Programmers are needed because all the crawlers are scripts or
+programs that were created specifically for a website. Changing a crawler or
+preprocessing job means changing the code.
+A big group of sources often changes and that makes that this task
 becomes very expensive and has a long feedback loop. When a source changes the
 source is first preprocessed in the old way, send to the \textit{Temporum} and
 checked by a human and matched. The human then notices the error in the data
 becomes very expensive and has a long feedback loop. When a source changes the
 source is first preprocessed in the old way, send to the \textit{Temporum} and
 checked by a human and matched. The human then notices the error in the data
-and contacts the programmer. The programmer then has to reprogram the specific
-crawler to the new structure. This feedback loop, shown in
+and has to contact the programmer. The programmer then has to reprogram the
+specific crawler or job to the new structure. This feedback loop, shown in
 Figure~\ref{feedbackloop} can take days and can be the reason for gaps and
 Figure~\ref{feedbackloop} can take days and can be the reason for gaps and
-faulty information in the database. 
+faulty information in the database. In the figure the dotted arrows denote the
+current feedback loop for crawlers.
@@ -206,24 +208,26 @@ faulty information in the database.
        \caption{Feedback loop for malfunctioning crawlers}
        \caption{Feedback loop for malfunctioning crawlers}
-The goal of the project is to relieve the programmer of repairing crawlers all
-the time and make the task of adapting, editing and removing crawlers doable
-for someone without programming experience. In practice this means in
-Figure~\ref{feedbackloop} removing the dotted arrows by dashed arrow.
+The goal of this project is specifically to relieve the programmer of repairing
+crawlers all the time and make the task of adapting, editing and removing
+crawlers doable for someone without programming experience. In practice this
+means in Figure~\ref{feedbackloop} that the project will remove the replace
+part of the feedback loop that contains dotted arrows with the shorter loop
+with the dashed arrows.
 For this project an application has been developed that can provide an
 interface to a crawler generation system that is able to crawl RSS\cite{Rss}
 and Atom\cite{Atom} publishing feeds. The interface provides the user with
 point and click interfaces meaning that no computer science background is
 For this project an application has been developed that can provide an
 interface to a crawler generation system that is able to crawl RSS\cite{Rss}
 and Atom\cite{Atom} publishing feeds. The interface provides the user with
 point and click interfaces meaning that no computer science background is
-needed to use the interface, to create, modify, test and remove crawlers. The
-current Hyperleap backend system that handles the data can, via an interface,
+needed to use the interface and to create, modify, test and remove crawlers.
+The current Hyperleap backend system that handles the data can, via an query,
 generate XML feeds that contain the crawled data. The structure of the
 application is very modular and generic and therefore it is easy to change
 things in the program without having to know a lot about the programming
 generate XML feeds that contain the crawled data. The structure of the
 application is very modular and generic and therefore it is easy to change
 things in the program without having to know a lot about the programming
-language used. This is because for example all visual things like buttons are
-defined in a human readable text file. In practice it means that one person,
-not by definition a programmer, can be instructed to change the structure and
-this can also greatly reduce programmer intervention time. 
+language used. To achieve this all visual things such as buttons are defined in
+a human readable text files. In practice it means that one person, not by
+definition a programmer, can be instructed to change the structure and this can
+also greatly reduce programmer intervention time. 
 The actual problem statement then becomes:
 The actual problem statement then becomes:
@@ -248,59 +252,57 @@ Netherlands. As visible in the listing the similarities with XML are very
 clear. Every RSS feed contains a \texttt{channel} tag and within that tag there
 is some metadata and a list op \texttt{item} tags. Every \texttt{item} tag has
 a fixed number of different fields. The most important fields for RSS within
 clear. Every RSS feed contains a \texttt{channel} tag and within that tag there
 is some metadata and a list op \texttt{item} tags. Every \texttt{item} tag has
 a fixed number of different fields. The most important fields for RSS within
-the leisure industry are the \texttt{title} and the \texttt{description field}.
-       \caption{An example of a, partly truncated RSS feed of a well known dutch
-       venue}
-       \label{examplerss}
-       \xmlcode{exrss.xml}
-RSS feeds are mostly used by news sites to publish their articles, the feed
-then only contains the headlines and if the user that is reading the feed is
-interested he can click the so called deeplink and he is then sent to the full
-website containing the article. Users often use programs that bundle user
-specified RSS feeds into big summary feeds that can be used to sift through a
-lot of news feeds. The RSS feed reader uses the GUID to skip feeds that are
-already present in its internal database.
-Generating RSS feeds by hand is a tedious task but usually RSS feeds are
-generated by the Content Management Systems(CMS) the website runs on. With this
-automatic method the RSS feeds are generated using the content published on the
-website. Because the process is automatic the RSS feeds are generally very
-structured and consistent in its structure. In the entertainment industry
+the leisure industry are the \texttt{title} and the \texttt{description} field.
+\lstinputlisting[language=xml,label={examplerss},caption={An example of a,%
+partly truncated RSS feed of a well known dutch venue}]{exrss.xml}
+RSS feeds are mostly used by news sites to publish their articles. A RSS feed
+only contains the headlines of the entries. If the user, who reads the feed, is
+interested it can click the so called deeplink and will be sent to the full
+website containing the full entry or article. Users often use programs that
+bundle user specified RSS feeds into big combined feeds that can be used to
+sift through a lot of news feeds. The RSS feed reader uses the GUID to skip
+feeds that are already present in its internal database.
+Generating RSS feeds by hand is a tedious task but almost all RSS feeds are
+generated by a Content Management Systems(CMS) on which the website runs. With
+this automatic method the RSS feeds are generated for the content published
+on the website. Because the process is automatic the RSS feeds are generally
+very structured and consistent in its structure. In the entertainment industry
 venues often use a CMS for their website to allow users with no programming or
 venues often use a CMS for their website to allow users with no programming or
-website background be able to post news items and event information.
+website background be able to post news items and event information and thus
+should often have RSS feeds.
 \section{Why RSS?}
 We described a lot of different source formats like HTML, fax/email, RSS and
 XML. Because of the limited scope of the project and the time planned for it
 we had to remove some of the input formats because they all require different
 \section{Why RSS?}
 We described a lot of different source formats like HTML, fax/email, RSS and
 XML. Because of the limited scope of the project and the time planned for it
 we had to remove some of the input formats because they all require different
-techniques. For example when the input source is in HTML format, most probably
-a website, then there can be a great deal of information extraction be
-automated using the structural information which is characteristic for HTML.
-For fax/email however there is almost no structural information and most of the
-automation techniques require natural language processing. We chose RSS feeds
-because RSS feeds lack inherent structural information but are still very
-structured. This structure is because, as said above, the RSS feeds are
-generated and therefore almost always look the same. Also, in RSS feeds most
-venues use particular structural identifiers that are characters. They separate
-fields with vertical bars, commas, whitespace and more non text characters.
-These field separators and keywords can be hard for a computer to detect but
-people are very good in detecting these. With one look they can identify the
-characters and keywords and build a pattern in their head. Another reason we
-chose RSS is their temporal consistency, RSS feeds are almost always generated
-and because of that the structure of the entries is very unlikely to change.
-Basically the RSS feeds only change structure when the CMS that generates it
-changes the generation algorithm. This property is usefull because the crawlers
-then do not have to be retrained very often. Because the non inherent structure
-entirely new strategies had to be applied.
+techniques and approaches to tackle. For example when the input source is in
+HTML format, most probably a website, then there can be a great deal of
+information extraction be automated using the structural information which is a
+characteristic for HTML. For fax/email however there is almost no structural
+information and most of the automation techniques require natural language
+processing. We chose RSS feeds because RSS feeds lack inherent structural
+information but are still very structured. This structure is because, as said
+above, the RSS feeds are generated and therefore almost always look the same.
+Also, in RSS feeds most venues use particular structural identifiers that are
+characters. They separate fields with vertical bars, commas, whitespace and
+more non text characters. These field separators and keywords can be hard for
+a computer to detect but people are very good in detecting these. With one look
+they can identify the characters and keywords and build a pattern in their
+head. Another reason we chose RSS is their temporal consistency, RSS feeds are
+almost always generated and because of that the structure of the entries is
+very unlikely to change. Basically the RSS feeds only change structure when
+the CMS that generates it changes the generation algorithm. This property is
+useful because the crawlers then do not have to be retrained very often.
+To detect the structures we propose a technique using subword matching using
 \section{Directed Acyclic Graphs}
 \paragraph{Directed graphs}
 \section{Directed Acyclic Graphs}
 \paragraph{Directed graphs}
-Directed graphs are a mathematical structure that can describe relations
+Directed graphs(DG) are a mathematical structure that can describe relations
 between nodes. A directed graph $G$ is be defined as the tuple $(V,E)$ where
 $V$ is a set of named nodes and $E$ is the set of edges defined by $E\subseteq
 V\times V$. An edge $e\in E$ can be seen as $(v1, v2)$ where $v1,v2\in V$ and
 between nodes. A directed graph $G$ is be defined as the tuple $(V,E)$ where
 $V$ is a set of named nodes and $E$ is the set of edges defined by $E\subseteq
 V\times V$. An edge $e\in E$ can be seen as $(v1, v2)$ where $v1,v2\in V$ and
@@ -311,16 +313,9 @@ $$G=(\{n1, n2, n3, n4\}, \{(n1, n2), (n2, n1), (n2, n3), (n3, n4), (n1, n4)\}$$
-       \scalebox{0.7}{
-               \digraph[]{graphexample}{
-                       rankdir=LR;
-                       n1->n2;
-                       n2->n1;
-                       n2->n3;
-                       n3->n4;
-                       n1->n4;
-               }
-       }
+       \centering
+       \includegraphics[scale=0.7]{graphexample.eps}
+       \strut\\\strut\\
        \caption{Example DG}
        \caption{Example DG}
@@ -328,7 +323,7 @@ $$G=(\{n1, n2, n3, n4\}, \{(n1, n2), (n2, n1), (n2, n3), (n3, n4), (n1, n4)\}$$
 Directed Acyclic Graphs(DAGs) are a special kind of directed graphs. DAGs
 are also defined as $G=(V,E)$ but with a restriction on $E$. Namely that cycles
 are not allowed. Figure~\ref{dagexample} shows two graphs. The bottom graph
 Directed Acyclic Graphs(DAGs) are a special kind of directed graphs. DAGs
 are also defined as $G=(V,E)$ but with a restriction on $E$. Namely that cycles
 are not allowed. Figure~\ref{dagexample} shows two graphs. The bottom graph
-ontains a cycle and the right graph does not. Only the top graph is a valid
+contains a cycle and the right graph does not. Only the top graph is a valid
 DAG. A cycle can be defined as follows:
 Say $e\in E$ can be seen as $(v_1,v_2)\in E$ or $v_1\rightarrow v2$ then
 DAG. A cycle can be defined as follows:
 Say $e\in E$ can be seen as $(v_1,v_2)\in E$ or $v_1\rightarrow v2$ then
@@ -343,17 +338,8 @@ $\mathcal{O}(L)$ where $L$ is the length of the path.
-       \scalebox{0.7}{
-               \digraph[]{dagexample}{
-                       rankdir=LR;
-                       n01 -> n02;
-                       n02 -> n03;
-                       n03 -> n01;
-                       n11 -> n12;
-                       n12 -> n13;
-                       n12 -> n14;
-               }
-       }
+       \includegraphics[scale=0.7]{dagexample.eps}
+       \strut\\\strut\\
        \caption{Example DAG}
        \caption{Example DAG}
@@ -389,21 +375,7 @@ This means that it grows linearly with the length of the word.
-       \scalebox{0.7}{
-               \digraph[]{graph21}{
-                       rankdir=LR;
-                       node [shape="circle"]; n1 n2 n3 n4 n5;
-                       n6 [shape="doublecircle"];
-                       n [style=invis];
-                       n -> n1;
-                       n1 -> n2 [label="a"];
-                       n2 -> n3 [label="b"];
-                       n3 -> n6 [label="d"];
-                       n1 -> n4 [label="b"];
-                       n4 -> n5 [label="a"];
-                       n5 -> n6 [label="d"];
-                       n5 -> n6 [label="e"];
-               }
-       }
+       \includegraphics[scale=0.7]{dawgexample.eps}
+       \strut\\\strut\\
        \caption{Example DAWG}
        \caption{Example DAWG}
index b98fce0..997e63d 100644 (file)
@@ -157,76 +157,10 @@ results in subgraph SG4 which is the final DAWG containing only the words
-       \caption{Step 1}
-       \digraph[scale=0.4]{inccons}{
-               rankdir=LR;
-               n4 [style=invis];
-               q40 [label="q0"];
-               q41 [label="q1"];
-               q42 [label="q2"];
-               q43 [label="q3"];
-               q44 [label="q4" shape=doublecircle];
-               q45 [label="q5"];
-               q46 [label="q6"];
-               n4 -> q40[label="SG4"];
-               q40 -> q41[label="a"];
-               q41 -> q42[label="b"];
-               q42 -> q43[label="c"];
-               q43 -> q44[label="d"];
-               q41 -> q45[label="e"];
-               q45 -> q46[label="c"];
-               q46 -> q44[label="d"];
-               q46 -> q44[label="f"];
-               n3 [style=invis];
-               q30 [label="q0"];
-               q31 [label="q1"];
-               q32 [label="q2"];
-               q33 [label="q3"];
-               q34 [label="q4" shape=doublecircle];
-               q35 [label="q5"];
-               n3 -> q30[label="SG3"];
-               q30 -> q31[label="a"];
-               q31 -> q32[label="b"];
-               q32 -> q33[label="c"];
-               q33 -> q34[label="d"];
-               q33 -> q34[label="f" constraint=false];
-               q31 -> q35[label="e"];
-               q35 -> q33[label="c"];
-               n2 [style=invis];
-               q20 [label="q0"];
-               q21 [label="q1"];
-               q22 [label="q2"];
-               q23 [label="q3"];
-               q24 [label="q4" shape=doublecircle];
-               q25 [label="q5"];
-               n2 -> q20[label="SG2"];
-               q20 -> q21[label="a"];
-               q21 -> q22[label="b"];
-               q22 -> q23[label="c"];
-               q23 -> q24[label="d"];
-               q21 -> q25[label="e"];
-               q25 -> q23[label="c"];
-               n1 [style=invis];
-               q10 [label="q0"];
-               q11 [label="q1"];
-               q12 [label="q2"];
-               q13 [label="q3"];
-               q14 [label="q4" shape=doublecircle];
-               n1 -> q10[label="SG1"];
-               q10 -> q11[label="a"];
-               q11 -> q12[label="b"];
-               q12 -> q13[label="c"];
-               q13 -> q14[label="d"];
-               n [style=invis];
-               q0 [label="q0"];
-               n -> q0[label="SG0"];
-       }
+       \includegraphics[scale=0.4]{inccons.eps}
+       \caption{Incrementally constructing a DAWG}
 \subsection{Appliance on extraction of patterns}
 \subsection{Appliance on extraction of patterns}
index 5614e5a..1ab0de1 100644 (file)
@@ -1,7 +1,5 @@
-%      \KwData{this text}
-%      \KwResult{how to write algorithm with \LaTeX2e }
        register := $\emptyset$\;
        \While{there is another word}{%
        register := $\emptyset$\;
        \While{there is another word}{%
@@ -33,8 +31,8 @@
+\lstinputlisting[language=XML,label={scheme.xsd},caption={XSD scheme for XML%
index 6a377fa..38fb5c3 100644 (file)
@@ -1,22 +1,12 @@
-SOURCES:=1.introduction.tex 2.requirementsanddesign.tex 3.methods.tex\
- 4.discussion.tex 5.appendices.tex abstract.tex thesis.tex scheme1.xsd\
- scheme2.xsd exrss.xml
-GRAPHS:=appoverview.eps backend.eps dagexample.eps graphexample.eps\
- inccons.eps nddawg.eps nodelistexample.eps informationflow.eps\
- feedbackloop.eps
+SOURCES:=$(shell ls *.tex) scheme.xsd exrss.xml
+GRAPHS:=$(addsuffix .eps,$(basename $(shell ls *.dot)))
-.PHONY: all clean clobber graphs
+.PHONY: clobber graphs
 all: graphs thesis.pdf
 all: graphs thesis.pdf
-scheme1.xsd: scheme.xsd
-       head -50 $< > $@
-scheme2.xsd: scheme.xsd
-       tail -n +49 $< > $@
        dot -Teps < $< > $@
        dot -Teps < $< > $@
@@ -32,7 +22,7 @@ scheme2.xsd: scheme.xsd
 graphs: $(GRAPHS)
 graphs: $(GRAPHS)
-       @$(RM) -v *.{eps,aux,bbl,blg,dvi,log,out,toc,ps,pyg} scheme[12].xsd
+       @$(RM) -v *.{eps,aux,bbl,blg,dvi,log,out,toc}
 clobber: clean
        @$(RM) -v *.pdf
 clobber: clean
        @$(RM) -v *.pdf
@@ -1,50 +1,32 @@
@@ -1,50 +1,32 @@
+\usepackage{algorithm2e}                       % Pseudocode
+\usepackage{a4wide}                            % Paper size
+\usepackage{graphicx}                          % Eps inclusion
+\usepackage{float}                             % Floating placement of figures
+\usepackage{listings}                          % Source code formatting
+\usepackage{setspace}                          % Line spacing abstract
+\usepackage[dvipdfmx,hidelinks]{hyperref}      % Hyperlinks
+\usepackage{amssymb}                           % nexists and much more
+\usepackage{amsmath}                           % Rightarrow and much more
+\usepackage{marvosym}                          % For euro sign
-% Set listings settings
-       bgcolor=mintedbackground,
-       fontfamily=tt,
-       fontsize=\scriptsize,
-       frame=leftline,
-       framerule=0.4pt,
-       framesep=2mm,
-       funcnamehighlighting=true,
-       gobble=0,
-       linenos=true,
-       mathescape=false
-       numberblanklines=true,
-       numbersep=10pt,
-       numbersep=5pt,
-       obeytabs=false,
-       showspaces=false,
-       samepage=false,
-       showtabs =false,
-       tabsize=1,
-       texcl=false,
+       basicstyle=\footnotesize,
+       numbers=left,
+       numberstyle=\tiny,
+       breaklines=true,
+       tabsize=2,
-\newcommand{\cvartitle}{Adaptable crawler specification generation system for
+\newcommand{\cvartitle}{Adaptable crawler specification generation system for%
 leisure activity RSS feeds}
 leisure activity RSS feeds}
 % Setup hyperlink formatting
        pdfauthor={Mart Lubbers},
 % Setup hyperlink formatting
        pdfauthor={Mart Lubbers},
-       pdfsubject={Artificial Intelligence},
+       pdfsubject={Artificial Intelligence}
 % Describe the frontpage
 % Describe the frontpage
@@ -55,7 +37,7 @@ leisure activity RSS feeds}
        Radboud University Nijmegen\\
        External supervisor: Alessandro Paula\\
        Radboud University Nijmegen\\
        External supervisor: Alessandro Paula\\
-       Internal supervisor: Franc Grootjen\\
+       Internal supervisor: Franc Grootjen
@@ -93,7 +75,7 @@ leisure activity RSS feeds}