4 also corrected
[bsc-thesis1415.git] / thesis2 / 4.discussion.tex
index 86b616c..5e3d10d 100644 (file)
@@ -10,8 +10,10 @@ can shorten the loop for repairing and adding crawlers which our system. The
 system we have built is tested and can provide the necessary tools for a user
 with no particular programming skills to generate crawlers and thus the number
 of interventions where a programmer is needed is greatly reduced. Although we
-have solved the problem we stated the results are not strictly positive. For a
-problem to be solved the problem must be present.
+have solved the problem we stated the results are not strictly positive. This
+is because a if the problem space is not large the interest of solving the
+problem is also not large, this basically means that there is not much data to
+apply the solution on.
 
 Although the research question is answered the underlying goal of the project
 has not been completely achieved. The application is an intuitive system that
@@ -43,21 +45,22 @@ to lack of key information in the expected fields and by that lower overall
 extraction performance.
 
 The second most occurring common misuse is to use HTML formatted text in the RSS
-feeds text fields. Our algorithm is designed to detect and extract information
+feeds text fields. The algorithm is designed to detect and extract information
 via patterns in plain text and the performance on HTML is very bad compared to
 plain text. A text field with HTML is almost useless to gather information
-from. Via a small study on available RSS feeds we found that about $50\%$ of
-the RSS feeds misuse the protocol in such a way that extraction of data is
-almost impossible. This reduces the domain of good RSS feeds to less then $5\%$
-of the venues.
+from because they usually include all kinds of information in other modalities
+then text. Via a small study on a selecteion of RSS feeds($N=10$) we found that
+about $50\%$ of the RSS feeds misuse the protocol in such a way that extraction
+of data is almost impossible. This reduces the domain of good RSS feeds to less
+then $5\%$ of the venues.
 
 \section{Discussion \& Future Research}
 \label{sec:discuss}
 % low level stuff
-The application we created does not apply any techniques on the isolated
-chunks. The application is built only to extract and not to process the labeled
-chunks of text. When we would combine the information about the global
-structure and information about structure in a marked area we increase
+The application we created does not apply any techniques on the extracted
+data fields. The application is built only to extract and not to process the
+labeled data fields with text. When we would combine the information about the
+global structure and information about structure in a marked area we increase
 performance in two ways. A higher levels of performance are reached due to the
 structural information of marked areas. Hereby extra knowledge as extra
 constraint while matching the data in marked areas. The second increase in