part of algo explained
authorMart Lubbers <mart@martlubbers.net>
Wed, 29 Oct 2014 15:29:20 +0000 (16:29 +0100)
committerMart Lubbers <mart@martlubbers.net>
Wed, 29 Oct 2014 15:29:20 +0000 (16:29 +0100)
thesis2/2.methods.tex

index 477190d..3f67cb3 100644 (file)
@@ -23,3 +23,25 @@ Generate xml
 \subsection{Interface}
 
 \subsection{Algorithm}
+\subsection{Preprocessing}
+When the data is received by the crawler the data is embedded as POST data in a
+HTTP request. The POST data consists of several fields with information about
+the feed and a container that has the table with the user markers embedded.
+After that the entries are extracted and processed line by line.
+
+The line processing converts the raw string of html data from a table row to a
+string. The string is stripped of all the html tags and is accompanied by a
+list of marker items.
+
+The entries that don't contain any markers are left out in the next step of
+processing. All data, including entries without user markers, is stored in the
+object too for possible later reference, for example for editing the patterns.
+
+The last step is when the entries with markers are then processed to build
+node-lists. Node-lists are basically strings where the user markers are
+replaced by patterns so that the variable data, the isolated data, is not used
+in the node-lists. 
+
+\subsection{Directed acyclic graphs}
+
+