some errors fixed
authorMart Lubbers <mart@martlubbers.net>
Tue, 2 Dec 2014 14:52:06 +0000 (15:52 +0100)
committerMart Lubbers <mart@martlubbers.net>
Tue, 2 Dec 2014 14:52:06 +0000 (15:52 +0100)
thesis2/1.introduction.tex
thesis2/thesis.tex

index 81f09fe..c9c359c 100644 (file)
@@ -2,12 +2,14 @@
 What do people do when they want to grab a movie? Attend a concert? Find out
 which theater shows play in their town theater?
 
-In the early days of the internet information about entertainment was gathered
-from flyers, books, posters, radio/tv advertisements. People had to look pretty
-hard for the information and you could easily miss a show just because it
-didn't cross paths with you. When the internet grew to what it is now we would
-think that missing an event is impossible because of the loads of information
-that you receive every day. The opposite is true.
+When the internet was in its early days and it started to be accessible to most
+of the people information about entertainment was still obtained almost
+exclusively from flyers, books, posters, radio/tv advertisements. People had to
+look pretty hard for the information and you could easily miss a show just
+because it didn't cross paths with you. 
+Today the internet is used by almost everyone in the westen society on a daily
+basis and we would think that missing an event would be impossible because of
+the loads of information you receive every day. The opposite is true.
 
 Nowadays information about entertainment is offered via two main channels on
 the internet namely individual venues and combined websites.
@@ -15,48 +17,59 @@ the internet namely individual venues and combined websites.
 Individual venues put a lot of effort and resources in building a beautiful,
 fast and most of all modern website that bundles their information with nice
 graphics, animations and gimmicks. There also exist companies that bundle the
-information from different websites. Because the information that is bundled
-ofter comes from the individual websites the information is most of the time
-not complete. Individual organisations tend to think it is obvious what the
-address of their venue is, that their ticket price is always fixed to
+information from different websites. Information bundling websites often have
+the individual venue website as the source for their information and therefore
+the information is most of the time not complete.
+Individual organisations tend to think, for example, that it is obvious what
+the address of their venue is, that their ticket price is always fixed to
 \EURdig$5.-$ and that you need a membership to attend the events. Individual
-organizations usually put this in a disclaimer or another page.
-
-Combined websites want to bundle this information, for every event they want
-all the details and information for an event. This shows to be a hard task
-because these websites don't have the resources and time to combine the
-different sources to get a good and complete information overview of an event.
-Because of this, there are not many websites that bundle entertainment
-information so that the entire database is complete and consistent.
-Hyperleap\footnote{\url{http://hyperleap.nl}} tries to achieve this goal.
+organizations usually put this non specific information in a disclaimer or a
+separate page and information bundling website miss out on these types of
+information a lot.
+
+Combining the information from the different data source turns out to be a hard
+task for such information bundling websites. It is a hard task because
+information bundling websites do not have the resources and time reserved for
+these tasks and therefore often also serve incomplete information.  Because of
+the complexity of complete information there are not many websites trying to
+bundle entertainment information into a complete and consistent databese.
+Hyperleap\footnote{\url{http://hyperleap.nl}} tries to achieve goal of serving
+complete and consistent information.
 
 \section{Hyperleap \& Infotainment}
 Hyperleap is a internet company that existed in the time that internet was not
 widespread. Hyperleap, active since 1995, is specialized in producing,
 publishing and maintaining \textit{infotainment}. \textit{Infotainment} is a
 combination of the words \textit{information} and \textit{entertainment}. It
-means a combination of factual information and subjectual information about a
-certain category. In the case of Hyperleap the category is entertainment
-industry, entertainment industry encompasses all facets going from cinemas,
-theaters, concerts, conferences and so on. The factual information includes
-things such as the date, time, host or location. The subjectual information can
-be reviews, previews, photos or background information.
+means a combination of factual information and subjectual information
+(entertainment) within a certain category. In the case of Hyperleap the
+category is the entertainment industry, entertainment industry encompasses all
+facets of entertainment going from cinemas, theaters, concerts to swimming
+pools, bridge matches and conferences.  Within the entertainment industry
+factual information includes, but is not limited to, information such as
+starting time, location, host or venue and location. Subjectual information
+includes, but is not limited to, things such as reviews, previews, photos and
+background information or trivia. 
 
 Hyperleap manages the largest database containing \textit{infotainment} about
-the entertainment industry. The database contains over $10.000$ events per week
-on average and their venue database contains over $54.000$ venues delivering
-the entertainment. All the subjectual information is gathered or created by
-Hyperleap. All subjectual information is gathered from different sources and
-quality checked and therefore very reliable. Hyperleap is the only in its kind
-that has such high quality information. The \textit{infotainment} is presented
-via several websites specialized per genre or category.
+the entertainment industry. The database contains over $10.000$ categorized
+events per week on average and their venue database contains over $54.000$
+venues delivering the entertainment ranging from theaters and music venues to
+petting zoos and fastfood restaurants. All the subjectual information is
+obtained or created by Hyperleap and all factual information is gathered from
+different sources and quality checked and therefore very reliable. Hyperleap is
+the only company in its kind that has such high quality information. The
+\textit{infotainment} is presented via several websites specialized per genre
+or category and some sites attract over $500.000$ visitors per month.
 
 \section{Information flow}
-As said before Hyperleap is the only in its kind with the high quality data.
-This is because a lot of time and resources are spend to crosscompare, match
-and check the data that enters the database. To achieve this the data is
-inserted in the database in several different steps described in
-Figure~\ref{informationflow}
+The reason why Hyperleap is the only in its kind with the high quality data is
+because Hyperleap spends a lot of time and resources on quality checking, cross
+comparing and consistency checking before the data enters the database. To
+achieve this the data is inserted in the database in several different stages
+that are visualized in Figure~\ref{informationflow} as an information flow
+diagram using nodes as processing or publishing steps and arrows are
+information flow.
 
 \begin{figure}[H]
        \caption{Information flow Hyperleap database}
@@ -71,7 +84,7 @@ Figure~\ref{informationflow}
                        i1 [label="Email"]
                        i2 [label="Fax"]
                        i3 [label="RSS/Atom"]
-                       p1 [label="Crawler: Preproccessing"]
+                       p1 [label="Preproccessing"]
                        p2 [label="Temporum: Postproccesing"]
                        o1 [label="Database: Insertion"]
                        o2 [label="TheAgenda"]
@@ -93,16 +106,17 @@ Figure~\ref{informationflow}
 
 \paragraph{Sources}
 The information that enters the database has to be quality checked. There are
-several criteria the information has to comply to before it can enter in the
-database. Hyperleap wants at minimum the following fields filled before any
-event can enter the database:
+several criteria the information and the source have to comply to before any of
+them can enter the database. For example the source has to be reliable,
+consistent and free by licence whereas the event entries have to have at least
+the following fields:
 \begin{itemize}
        \item[What]
-               The \textit{What:} field is the field that states the content, content is a
-               very broad definition. In practice it can contain the concert tour, theater
-               show name, movie title, festival title and many more.
+               The \textit{What} field is the field that describes the content, content is
+               a very broad definition. In practice it can be describing the concert tour
+               name, theater show title, movie title, festival title and many more.
        \item[Where]
-               The \textit{Where:} field is the location of the event. This is ofter
+               The \textit{Where} field is the location of the event. This is ofter
                omitted because the organization think it is obvious. This field can also
                include different sublocations. For example when a pop concert venue has
                their own building but in the summer they organize a festival in some park.
@@ -110,7 +124,7 @@ event can enter the database:
                is not the case. In this example for an outsider only the name of the park
                is often not enough.
        \item[When]
-               The \textit{When:} field is the time and date of the event. Hyperleap wants
+               The \textit{When} field is the time and date of the event. Hyperleap wants
                to have at minimum the date, start time and end time. In the field end
                times are often omitted because they are not fixed or the organization
                think it is obvious.
index 0893fcf..7ab74fe 100644 (file)
@@ -1,15 +1,16 @@
-\documentclass[a4paper]{book}
+\documentclass[twopage,a4paper,titlepage]{book}
 
-\usepackage[british]{babel}
+%\usepackage[british]{babel}
 
 \usepackage{courier}
-\usepackage{graphicx}  % Images
-\usepackage{float}     % Better placement float figures
+\usepackage{graphicx}
+\usepackage{float}
 \usepackage{minted}
-\usepackage[dvipdfmx,hidelinks]{hyperref}  % Hyperlinks
-\usepackage{graphviz}  % For the DAG diagrams
+\usepackage[dvipdfmx,hidelinks]{hyperref}
+\usepackage{graphviz}
 \usepackage{amssymb}
 \usepackage{marvosym}
+\usepackage{lipsum}
 
 % Set listings settings
 \definecolor{mintedbackground}{rgb}{0.95,0.95,0.95}