capture working, fix bug in from to, group start end could emit spaces

fyears · fyears · commit 0fcc594c0089 · 2016-09-26T18:53:30.000-07:00
diff --git a/include/spre/ast.hpp b/include/spre/ast.hpp
@@ -200,6 +200,27 @@ inline string AnchorExprAST::get_val() const
 {
     return val_;
 }
+
+
+class EOFExprAST : public ExprAST
+{
+public:
+    EOFExprAST();
+    string get_val() const override;
+
+private:
+};
+
+EOFExprAST::EOFExprAST()
+{
 }
 
+inline string EOFExprAST::get_val() const
+{
+    return "";
+}
+
+}
+
+
 #endif // !SIMPLEREGEXLANGUAGE_AST_H_
diff --git a/include/spre/generator.hpp b/include/spre/generator.hpp
@@ -16,30 +16,51 @@ namespace spre
 class Generator
 {
   public:
-    explicit Generator(Parser &parser);
+    explicit Generator(Parser &parser, bool show_error = true);
     ~Generator();
+    bool has_error() const;
+    void report_error() const;
     string generate();
 
   private:
     Parser parser_;
+    bool error_flag_;
+    string error_msg_;
+    const bool show_error_;
 };
 
-Generator::Generator(Parser &parser) : parser_(parser)
+Generator::Generator(Parser &parser, bool show_error) : parser_(parser), show_error_(show_error)
 {
 }
 
 Generator::~Generator()
 {
 }
 
+inline bool Generator::has_error() const
+{
+    return error_flag_;
+}
+
+inline void Generator::report_error() const
+{
+    if (!has_error())
+    {
+        return;
+    }
+    fprintf(stderr, "generator error: ");
+    fprintf(stderr, "%s", error_msg_.c_str());
+    fprintf(stderr, "\n");
+}
+
 inline string Generator::generate()
 {
     string res;
     vector<unique_ptr<ExprAST>> h = parser_.parse();
-
+    std::cout << "asts length: " << h.size() << "\n";
     for (const auto &iter : h)
     {
-        string k = iter->get_val();
+        string k = iter == nullptr ? "nullptr" : iter->get_val();
         res.append(k);
     }
 
diff --git a/include/spre/lexer.hpp b/include/spre/lexer.hpp
@@ -165,9 +165,9 @@ inline Token Lexer::get_next_token()
         return token_;
     }
 
-    if (curr_char_ == ')')
+    if (curr_char_ == '(' || curr_char_ == ')')
     {
-        // the char before ")" may not be whitespace, so try it here
+        // the char before "(" and ")" may not be whitespace, so try it here
         state_ = State::IDENTIFIER;
         handle_identifier_state();
         return token_;
@@ -277,6 +277,7 @@ inline void Lexer::handle_identifier_state()
             token_ = Token(buffer_, TokenType::CHARACTER, TokenValue::TO);
             buffer_.clear();
             state_ = State::NONE;
+            move_to_next_char();
             return;
         }
         else
diff --git a/include/spre/parser.hpp b/include/spre/parser.hpp
@@ -38,6 +38,7 @@ class Parser
     unique_ptr<LookAroundExprAST> parse_lookaround(const TokenValue &token_value);
     unique_ptr<FlagExprAST> parse_flag(const TokenValue &token_value);
     unique_ptr<AnchorExprAST> parse_anchor(const TokenValue &token_value);
+    unique_ptr<EOFExprAST> parse_eof(const TokenValue &token_value);
 };
 
 Parser::Parser(Lexer &lexer, bool show_error) : lexer_(lexer), error_flag_(false), show_error_(show_error)
@@ -108,8 +109,7 @@ inline unique_ptr<ExprAST> Parser::parse_token(const Token &token)
         ptr = std::move(parse_anchor(token.get_token_value()));
         break;
     case TokenType::END_OF_FILE:
-        // we are good
-        //eof = true;
+        ptr = std::move(parse_eof(token.get_token_value()));
         break;
     case TokenType::UNDEFINED:
         error_flag_ = true;
@@ -130,6 +130,7 @@ inline unique_ptr<ExprAST> Parser::parse_token(const Token &token)
 inline unique_ptr<CharacterExprAST> Parser::parse_character(const TokenValue &token_value)
 {
     unique_ptr<CharacterExprAST> ptr = nullptr;
+
     if (token_value == TokenValue::LITERALLY || token_value == TokenValue::ONE_OF || token_value == TokenValue::RAW)
     {
         // expect string literal following
@@ -138,56 +139,34 @@ inline unique_ptr<CharacterExprAST> Parser::parse_character(const TokenValue &to
         {
             error_flag_ = true;
             error_msg_ = "missing string literal";
+            return ptr;
         }
-        else
+
+        string val;
+        switch (token_value)
         {
-            string val;
-            switch (token_value)
-            {
-            case TokenValue::LITERALLY:
-                val = "(?:" + next_token.get_value() + ")";
-                break;
-            case TokenValue::ONE_OF:
-                val = "[" + next_token.get_value() + "]";
-                break;
-            case TokenValue::RAW:
-                val = next_token.get_value();
-                break;
-            default:
-                break;
-            }
-            ptr = make_unique<CharacterExprAST>(val);
-            lexer_.get_next_token(); // so we eat the leagal token
+        case TokenValue::LITERALLY:
+            val = "(?:" + next_token.get_value() + ")";
+            break;
+        case TokenValue::ONE_OF:
+            val = "[" + next_token.get_value() + "]";
+            break;
+        case TokenValue::RAW:
+            val = next_token.get_value();
+            break;
+        default:
+            break;
         }
+        ptr = make_unique<CharacterExprAST>(val);
+        lexer_.get_next_token(); // so we eat the leagal token
+        return ptr;
     }
 
-    else if (token_value == TokenValue::LETTER || token_value == TokenValue::UPPERCASE_LETTER || token_value == TokenValue::DIGIT)
+    if (token_value == TokenValue::LETTER || token_value == TokenValue::UPPERCASE_LETTER || token_value == TokenValue::DIGIT)
     {
-        Token next_token = lexer_.get_next_token();
+        Token guess_from = lexer_.get_next_token();
 
-        if (next_token.get_token_value() == TokenValue::FROM)
-        {
-            Token next_next_token = lexer_.get_next_token();
-            if (next_next_token.get_token_value() == TokenValue::TO)
-            {
-                // so we have the modifier
-                string az = next_next_token.get_value();
-                if (az.length() == 2)
-                {
-                    az.insert(1, "-");
-                    az.insert(0, "[");
-                    az.append("]");
-                    ptr = make_unique<CharacterExprAST>(az);
-                    lexer_.get_next_token(); // so we eat the leagal tokens from and to
-                }
-            }
-            else
-            {
-                error_flag_ = true;
-                error_msg_ = "\"from\" found, but \"to\" not found";
-            }
-        }
-        else
+        if (guess_from.get_token_value() != TokenValue::FROM)
         {
             string val;
             switch (token_value)
@@ -205,50 +184,76 @@ inline unique_ptr<CharacterExprAST> Parser::parse_character(const TokenValue &to
                 break;
             }
             ptr = make_unique<CharacterExprAST>(val);
-            lexer_.get_next_token(); // so we eat the leagal token
+            // now we already at the one after letter/digit/...
+            // because we already move to here for guessing from
+            return ptr;
         }
-    }
-    else
-    {
-        string val;
-        switch (token_value)
-        {
-        case TokenValue::ANY_CHARACTER:
-            val = "\\w";
-            break;
-        case TokenValue::NO_CHARACTER:
-            val = "\\W";
-            break;
-        case TokenValue::ANYTHING:
-            val = ".";
-            break;
-        case TokenValue::NEW_LINE:
-            val = "\\n";
-            break;
-        case TokenValue::WHITESPACE:
-            val = "\\s";
-            break;
-        case TokenValue::NO_WHITESPACE:
-            val = "\\S";
-            break;
-        case TokenValue::TAB:
-            val = "\\t";
-            break;
-        default:
-            break;
-        }
-        if (val.length() != 0)
+
+        Token guess_to = lexer_.get_next_token();
+
+        if (guess_from.get_token_value() != TokenValue::FROM)
         {
-            ptr = make_unique<CharacterExprAST>(val);
-            lexer_.get_next_token(); // so we eat the leagal token
+            error_flag_ = true;
+            error_msg_ = "\"from\" found, but \"to\" not found";
+            return ptr;
         }
-        else
+
+        string az = guess_to.get_value();
+
+        if (az.length() != 2)
         {
             error_flag_ = true;
-            error_msg_ = "unknown error";
+            error_msg_ = "the range \"from\" and \"to\" is not well defined";
+            return ptr;
         }
+
+        az.insert(1, "-");
+        az.insert(0, "[");
+        az.append("]");
+        ptr = make_unique<CharacterExprAST>(az);
+        lexer_.get_next_token(); // so we eat the leagal token to
+        return ptr;
+    }
+
+    string val;
+    switch (token_value)
+    {
+    case TokenValue::ANY_CHARACTER:
+        val = "\\w";
+        break;
+    case TokenValue::NO_CHARACTER:
+        val = "\\W";
+        break;
+    case TokenValue::ANYTHING:
+        val = ".";
+        break;
+    case TokenValue::NEW_LINE:
+        val = "\\n";
+        break;
+    case TokenValue::WHITESPACE:
+        val = "\\s";
+        break;
+    case TokenValue::NO_WHITESPACE:
+        val = "\\S";
+        break;
+    case TokenValue::TAB:
+        val = "\\t";
+        break;
+    default:
+        break;
+    }
+    if (val.length() != 0)
+    {
+        ptr = make_unique<CharacterExprAST>(val);
+        lexer_.get_next_token(); // so we eat the leagal token
+    }
+    else
+    {
+        error_flag_ = true;
+        error_msg_ = "unknown error";
     }
 
+
     return std::move(ptr);
 }
 
@@ -400,7 +405,7 @@ inline unique_ptr<GroupExprAST> Parser::parse_group(const TokenValue &token_valu
             && lexer_.get_token().get_token_type() != TokenType::END_OF_FILE
             && lexer_.get_token().get_token_type() != TokenType::UNDEFINED);
         // after parsing the sub_query_ptr_vec, current token should be ")"!!!
-        std::cout << "now tokn []"<< lexer_.get_token().get_value() << "[]\n";
+        
         if (lexer_.get_token().get_token_value() != TokenValue::GROUP_END)
         {
             ptr = nullptr;
@@ -579,6 +584,13 @@ inline unique_ptr<AnchorExprAST> Parser::parse_anchor(const TokenValue &token_va
 
     return std::move(ptr);
 }
+
+inline unique_ptr<EOFExprAST> Parser::parse_eof(const TokenValue &token_value)
+{
+    // maybe we check the value in the future?
+    return make_unique<EOFExprAST>();
+}
+
 }
 
 #endif // !SIMPLEREGEXLANGUAGE_PARSER_H_
diff --git a/test/spre_test.cpp b/test/spre_test.cpp
@@ -3,7 +3,9 @@
 #include "spre/spre.hpp"
 
 int main() {
-	spre::SRL srl("whitespace, literally \"haha\", digit");
+    string src = "literally \"haha\", capture(capture(digit from a to z whitespace) as \"inner\") as \"outer\"";
+    std::cout << "original string:\n" << src << std::endl;
+	spre::SRL srl(src);
     std::cout << "final result:\n" << srl.get_pattern() << std::endl;
 
     return 0;

Original file line number	Diff line number	Diff line change
`@@ -165,9 +165,9 @@ inline Token Lexer::get_next_token()`
`165`	`165`	`return token_;`
`166`	`166`	`}`
`167`	`167`
`168`		`- if (curr_char_ == ')')`
	`168`	`+ if (curr_char_ == '(' \|\| curr_char_ == ')')`
`169`	`169`	`{`
`170`		`- // the char before ")" may not be whitespace, so try it here`
	`170`	`+ // the char before "(" and ")" may not be whitespace, so try it here`
`171`	`171`	`state_ = State::IDENTIFIER;`
`172`	`172`	`handle_identifier_state();`
`173`	`173`	`return token_;`
`@@ -277,6 +277,7 @@ inline void Lexer::handle_identifier_state()`
`277`	`277`	`token_ = Token(buffer_, TokenType::CHARACTER, TokenValue::TO);`
`278`	`278`	`buffer_.clear();`
`279`	`279`	`state_ = State::NONE;`
	`280`	`+ move_to_next_char();`
`280`	`281`	`return;`
`281`	`282`	`}`
`282`	`283`	`else`