lex.icl

   1 implementation module lex
   2
   3 import Control.Monad, Control.Applicative
   4 import Data.Either, Data.Func, Data.Maybe, Data.Functor
   5 from StdFunc import o
   6 import StdBool
   7 import StdList
   8 import StdChar
   9 import StdString
  10
  11 from Text import class Text(textSize,concat), instance Text String
  12
  13 import yard
  14
  15 lexer :: [Char] -> LexerOutput
  16 lexer r = case runParser (lexProgram 1 1) r of
  17         (Right p, _) = Right p
  18         (Left e, _) = Left e
  19
  20 lexProgram :: Int Int -> Parser Char [Token]
  21 lexProgram line column = lexToken >>= \t->case t of
  22                 LexEOF = pure []
  23                 (LexItemError e) = fail <?>
  24                         PositionalError line column ("LexerError: " +++ e)
  25                 (LexToken c t) = lexProgram line (column+c)
  26                         >>= \rest->pure [{line=line, column=column, token=t}:rest]
  27                 LexNL = lexProgram (line+1) 1
  28                 (LexSpace l c) = lexProgram (line+l) (column+c)
  29
  30 :: LexItem
  31         = LexToken Int TokenValue
  32         | LexSpace Int Int
  33         | LexNL
  34         | LexEOF
  35         | LexItemError String
  36
  37 lexToken :: Parser Char LexItem
  38 lexToken =
  39         //Comments
  40         lexBlockComment <|> lexComment <|>
  41         //Keyword tokens
  42         lexKw "var" VarToken <|> lexKw "Void" VoidToken <|>
  43         lexKw "return" ReturnToken <|> lexKw "if" IfToken <|>
  44         lexKw "else" ElseToken <|> lexKw "while" WhileToken <|>
  45         lexKw "True" TrueToken <|> lexKw "False" FalseToken <|>
  46         lexKw "Int" IntTypeToken <|> lexKw "Bool" BoolTypeToken <|>
  47         lexKw "Char" CharTypeToken <|>
  48         //Character tokens
  49         lexEscape <|> lexCharacter <|>
  50         //Two char ops tokens
  51         lexWord "::" DoubleColonToken <|> lexWord "!=" NotEqualToken <|>
  52         lexWord "<=" LesserEqToken <|> lexWord ">=" GreaterEqToken <|>
  53         lexWord "==" EqualsToken <|> lexWord "&&" AmpersandsToken <|>
  54         lexWord "||" PipesToken <|> lexWord "[]" EmptyListToken <|>
  55         lexWord "->" ArrowToken <|>
  56         //One char ops tokens
  57     lexWord "(" BraceOpenToken <|>
  58         lexWord ")" BraceCloseToken <|> lexWord "{" CBraceOpenToken <|>
  59         lexWord "}" CBraceCloseToken <|> lexWord "[" SquareOpenToken <|>
  60         lexWord "]" SquareCloseToken <|> lexWord "," CommaToken <|>
  61         lexWord ":" ColonToken <|> lexWord ";" SColonToken <|>
  62         lexWord "." DotToken <|> lexWord "+" PlusToken <|>
  63         lexWord "*" StarToken <|> lexWord "/" SlashToken <|>
  64         lexWord "%" PercentToken <|> lexWord "=" AssignmentToken <|>
  65         lexWord "<" LesserToken <|> lexWord ">" BiggerToken <|>
  66         lexWord "!" ExclamationToken <|> lexWord "-" DashToken <|>
  67         //Number and identifier tokens
  68         lexNumber <|> lexIdentifier <|>
  69         (item '\n' >>| pure LexNL) <|>
  70         (satisfy isSpace >>| (pure $ LexSpace 0 1)) <|>
  71         (eof >>| pure LexEOF)
  72         where
  73                 lexWord :: String TokenValue -> Parser Char LexItem
  74                 lexWord s tv = list (fromString s) >>| pure (LexToken (textSize s) tv)
  75
  76                 lexKw :: String TokenValue -> Parser Char LexItem
  77                 lexKw kw tv = lexWord kw tv <* check (not o isIdentChar)
  78
  79                 lexUntilNL = top until (eof <|> (item '\n' >>| pure Void))
  80
  81                 lexComment :: Parser Char LexItem
  82         lexComment = list (fromString "//") >>| lexUntilNL
  83                         >>= \chars->pure LexNL
  84
  85                 lexBlockComment :: Parser Char LexItem
  86                 lexBlockComment = list (fromString "/*")
  87                         >>| (top until (list (fromString "*/")))
  88                         >>= \chars->pure $ widthHeight chars 0 0
  89                         where
  90                                 widthHeight :: [Char] Int Int -> LexItem
  91                                 widthHeight [] l c = LexSpace l c
  92                                 widthHeight ['\n':xs] l _ = widthHeight xs (l+1) 0
  93                                 widthHeight [x:xs] l c = widthHeight xs l (c+1)
  94
  95                 lexNumber :: Parser Char LexItem
  96                 lexNumber = toString <$> some (satisfy isDigit)
  97                         >>= \si->pure $ LexToken (textSize si) (NumberToken $ toInt si)
  98
  99                 lexIdentifier :: Parser Char LexItem
 100                 lexIdentifier = toString <$> some (satisfy isIdentChar)
 101                         >>= \si->pure $ LexToken (textSize si) (IdentToken si)
 102
 103                 isIdentChar c = isAlphanum c || c == '_'
 104
 105                 lexCharacter :: Parser Char LexItem
 106                 lexCharacter = item '\'' *> satisfy ((<>) '\'') <* item '\''
 107                         >>= \char->pure $ LexToken 3 (CharToken char)
 108
 109                 lexEscape :: Parser Char LexItem
 110                 lexEscape = item '\'' *> item '\\' *> top <* item '\''
 111                         >>= \char->pure case char of
 112                                 'a' = LexToken 4 (CharToken $ toChar 7)
 113                                 'b' = LexToken 4 (CharToken '\b')
 114                                 'b' = LexToken 4 (CharToken '\b')
 115                                 'f' = LexToken 4 (CharToken '\f')
 116                                 'n' = LexToken 4 (CharToken '\n')
 117                                 'r' = LexToken 4 (CharToken '\t')
 118                                 'v' = LexToken 4 (CharToken '\v')
 119                                 '\'' =LexToken 4 (CharToken '\'')
 120                                 c = (LexItemError $ "Unknown escape: " +++ toString c)