d/dmd/lexer.d

1.1  mrg /**
1.1  mrg  * Implements the lexical analyzer, which converts source code into lexical tokens.
1.1  mrg  *
1.1  mrg  * Specification: $(LINK2 https://dlang.org/spec/lex.html, Lexical)
1.1  mrg  *
1.1  mrg  * Copyright:   Copyright (C) 1999-2022 by The D Language Foundation, All Rights Reserved
1.1  mrg  * Authors:     $(LINK2 https://www.digitalmars.com, Walter Bright)
1.1  mrg  * License:     $(LINK2 https://www.boost.org/LICENSE_1_0.txt, Boost License 1.0)
1.1  mrg  * Source:      $(LINK2 https://github.com/dlang/dmd/blob/master/src/dmd/lexer.d, _lexer.d)
1.1  mrg  * Documentation:  https://dlang.org/phobos/dmd_lexer.html
1.1  mrg  * Coverage:    https://codecov.io/gh/dlang/dmd/src/master/src/dmd/lexer.d
1.1  mrg  */
1.1  mrg
1.1  mrg module dmd.lexer;
1.1  mrg
1.1  mrg import core.stdc.ctype;
1.1  mrg import core.stdc.errno;
1.1  mrg import core.stdc.stdarg;
1.1  mrg import core.stdc.stdio;
1.1  mrg import core.stdc.stdlib : getenv;
1.1  mrg import core.stdc.string;
1.1  mrg import core.stdc.time;
1.1  mrg
1.1  mrg import dmd.entity;
1.1  mrg import dmd.errors;
1.1  mrg import dmd.globals;
1.1  mrg import dmd.id;
1.1  mrg import dmd.identifier;
1.1  mrg import dmd.root.array;
1.1  mrg import dmd.root.ctfloat;
1.1  mrg import dmd.common.outbuffer;
1.1  mrg import dmd.root.port;
1.1  mrg import dmd.root.rmem;
1.1  mrg import dmd.root.string;
1.1  mrg import dmd.root.utf;
1.1  mrg import dmd.tokens;
1.1  mrg import dmd.utils;
1.1  mrg
1.1  mrg nothrow:
1.1  mrg
1.1  mrg version (DMDLIB)
1.1  mrg {
1.1  mrg     version = LocOffset;
1.1  mrg }
1.1  mrg
1.1  mrg /***********************************************************
1.1  mrg  */
1.1  mrg class Lexer
1.1  mrg {
1.1  mrg     private __gshared OutBuffer stringbuffer;
1.1  mrg
1.1  mrg     Loc scanloc;            // for error messages
1.1  mrg     Loc prevloc;            // location of token before current
1.1  mrg
1.1  mrg     const(char)* p;         // current character
1.1  mrg
1.1  mrg     Token token;
1.1  mrg
1.1  mrg     // For ImportC
1.1  mrg     bool Ccompile;              /// true if compiling ImportC
1.1  mrg
1.1  mrg     // The following are valid only if (Ccompile == true)
1.1  mrg     ubyte boolsize;             /// size of a C _Bool, default 1
1.1  mrg     ubyte shortsize;            /// size of a C short, default 2
1.1  mrg     ubyte intsize;              /// size of a C int, default 4
1.1  mrg     ubyte longsize;             /// size of C long, 4 or 8
1.1  mrg     ubyte long_longsize;        /// size of a C long long, default 8
1.1  mrg     ubyte long_doublesize;      /// size of C long double, 8 or D real.sizeof
1.1  mrg     ubyte wchar_tsize;          /// size of C wchar_t, 2 or 4
1.1  mrg
1.1  mrg     private
1.1  mrg     {
1.1  mrg         const(char)* base;      // pointer to start of buffer
1.1  mrg         const(char)* end;       // pointer to last element of buffer
1.1  mrg         const(char)* line;      // start of current line
1.1  mrg
1.1  mrg         bool doDocComment;      // collect doc comment information
1.1  mrg         bool anyToken;          // seen at least one token
1.1  mrg         bool commentToken;      // comments are TOK.comment's
1.1  mrg         bool tokenizeNewlines;  // newlines are turned into TOK.endOfLine's
1.1  mrg
1.1  mrg         version (DMDLIB)
1.1  mrg         {
1.1  mrg             bool whitespaceToken;   // tokenize whitespaces
1.1  mrg         }
1.1  mrg
1.1  mrg         int inTokenStringConstant; // can be larger than 1 when in nested q{} strings
1.1  mrg         int lastDocLine;        // last line of previous doc comment
1.1  mrg
1.1  mrg         Token* tokenFreelist;
1.1  mrg     }
1.1  mrg
1.1  mrg   nothrow:
1.1  mrg
1.1  mrg     /*********************
1.1  mrg      * Creates a Lexer for the source code base[begoffset..endoffset+1].
1.1  mrg      * The last character, base[endoffset], must be null (0) or EOF (0x1A).
1.1  mrg      *
1.1  mrg      * Params:
1.1  mrg      *  filename = used for error messages
1.1  mrg      *  base = source code, must be terminated by a null (0) or EOF (0x1A) character
1.1  mrg      *  begoffset = starting offset into base[]
1.1  mrg      *  endoffset = the last offset to read into base[]
1.1  mrg      *  doDocComment = handle documentation comments
1.1  mrg      *  commentToken = comments become TOK.comment's
1.1  mrg      */
1.1  mrg     this(const(char)* filename, const(char)* base, size_t begoffset,
1.1  mrg         size_t endoffset, bool doDocComment, bool commentToken) pure
1.1  mrg     {
1.1  mrg         scanloc = Loc(filename, 1, 1);
1.1  mrg         // debug printf("Lexer::Lexer(%p)\n", base);
1.1  mrg         // debug printf("lexer.filename = %s\n", filename);
1.1  mrg         token = Token.init;
1.1  mrg         this.base = base;
1.1  mrg         this.end = base + endoffset;
1.1  mrg         p = base + begoffset;
1.1  mrg         line = p;
1.1  mrg         this.doDocComment = doDocComment;
1.1  mrg         this.commentToken = commentToken;
1.1  mrg         this.tokenizeNewlines = false;
1.1  mrg         this.inTokenStringConstant = 0;
1.1  mrg         this.lastDocLine = 0;
1.1  mrg         //initKeywords();
1.1  mrg         /* If first line starts with '#!', ignore the line
1.1  mrg          */
1.1  mrg         if (p && p[0] == '#' && p[1] == '!')
1.1  mrg         {
1.1  mrg             p += 2;
1.1  mrg             while (1)
1.1  mrg             {
1.1  mrg                 char c = *p++;
1.1  mrg                 switch (c)
1.1  mrg                 {
1.1  mrg                 case 0:
1.1  mrg                 case 0x1A:
1.1  mrg                     p--;
1.1  mrg                     goto case;
1.1  mrg                 case '\n':
1.1  mrg                     break;
1.1  mrg                 default:
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             endOfLine();
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     version (DMDLIB)
1.1  mrg     {
1.1  mrg         this(const(char)* filename, const(char)* base, size_t begoffset, size_t endoffset,
1.1  mrg             bool doDocComment, bool commentToken, bool whitespaceToken)
1.1  mrg         {
1.1  mrg             this(filename, base, begoffset, endoffset, doDocComment, commentToken);
1.1  mrg             this.whitespaceToken = whitespaceToken;
1.1  mrg         }
1.1  mrg
1.1  mrg         bool empty() const pure @property @nogc @safe
1.1  mrg         {
1.1  mrg             return front() == TOK.endOfFile;
1.1  mrg         }
1.1  mrg
1.1  mrg         TOK front() const pure @property @nogc @safe
1.1  mrg         {
1.1  mrg             return token.value;
1.1  mrg         }
1.1  mrg
1.1  mrg         void popFront()
1.1  mrg         {
1.1  mrg             nextToken();
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     /// Returns: a newly allocated `Token`.
1.1  mrg     Token* allocateToken() pure nothrow @safe
1.1  mrg     {
1.1  mrg         if (tokenFreelist)
1.1  mrg         {
1.1  mrg             Token* t = tokenFreelist;
1.1  mrg             tokenFreelist = t.next;
1.1  mrg             t.next = null;
1.1  mrg             return t;
1.1  mrg         }
1.1  mrg         return new Token();
1.1  mrg     }
1.1  mrg
1.1  mrg     /// Frees the given token by returning it to the freelist.
1.1  mrg     private void releaseToken(Token* token) pure nothrow @nogc @safe
1.1  mrg     {
1.1  mrg         if (mem.isGCEnabled)
1.1  mrg             *token = Token.init;
1.1  mrg         token.next = tokenFreelist;
1.1  mrg         tokenFreelist = token;
1.1  mrg     }
1.1  mrg
1.1  mrg     final TOK nextToken()
1.1  mrg     {
1.1  mrg         prevloc = token.loc;
1.1  mrg         if (token.next)
1.1  mrg         {
1.1  mrg             Token* t = token.next;
1.1  mrg             memcpy(&token, t, Token.sizeof);
1.1  mrg             releaseToken(t);
1.1  mrg         }
1.1  mrg         else
1.1  mrg         {
1.1  mrg             scan(&token);
1.1  mrg         }
1.1  mrg         //printf(token.toChars());
1.1  mrg         return token.value;
1.1  mrg     }
1.1  mrg
1.1  mrg     /***********************
1.1  mrg      * Look ahead at next token's value.
1.1  mrg      */
1.1  mrg     final TOK peekNext()
1.1  mrg     {
1.1  mrg         return peek(&token).value;
1.1  mrg     }
1.1  mrg
1.1  mrg     /***********************
1.1  mrg      * Look 2 tokens ahead at value.
1.1  mrg      */
1.1  mrg     final TOK peekNext2()
1.1  mrg     {
1.1  mrg         Token* t = peek(&token);
1.1  mrg         return peek(t).value;
1.1  mrg     }
1.1  mrg
1.1  mrg     /****************************
1.1  mrg      * Turn next token in buffer into a token.
1.1  mrg      * Params:
1.1  mrg      *  t = the token to set the resulting Token to
1.1  mrg      */
1.1  mrg     final void scan(Token* t)
1.1  mrg     {
1.1  mrg         const lastLine = scanloc.linnum;
1.1  mrg         Loc startLoc;
1.1  mrg         t.blockComment = null;
1.1  mrg         t.lineComment = null;
1.1  mrg
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             t.ptr = p;
1.1  mrg             //printf("p = %p, *p = '%c'\n",p,*p);
1.1  mrg             t.loc = loc();
1.1  mrg             switch (*p)
1.1  mrg             {
1.1  mrg             case 0:
1.1  mrg             case 0x1A:
1.1  mrg                 t.value = TOK.endOfFile; // end of file
1.1  mrg                 // Intentionally not advancing `p`, such that subsequent calls keep returning TOK.endOfFile.
1.1  mrg                 return;
1.1  mrg             case ' ':
1.1  mrg                 // Skip 4 spaces at a time after aligning 'p' to a 4-byte boundary.
1.1  mrg                 while ((cast(size_t)p) % uint.sizeof)
1.1  mrg                 {
1.1  mrg                     if (*p != ' ')
1.1  mrg                         goto LendSkipFourSpaces;
1.1  mrg                     p++;
1.1  mrg                 }
1.1  mrg                 while (*(cast(uint*)p) == 0x20202020) // ' ' == 0x20
1.1  mrg                     p += 4;
1.1  mrg                 // Skip over any remaining space on the line.
1.1  mrg                 while (*p == ' ')
1.1  mrg                     p++;
1.1  mrg             LendSkipFourSpaces:
1.1  mrg                 version (DMDLIB)
1.1  mrg                 {
1.1  mrg                     if (whitespaceToken)
1.1  mrg                     {
1.1  mrg                         t.value = TOK.whitespace;
1.1  mrg                         return;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 continue; // skip white space
1.1  mrg             case '\t':
1.1  mrg             case '\v':
1.1  mrg             case '\f':
1.1  mrg                 p++;
1.1  mrg                 version (DMDLIB)
1.1  mrg                 {
1.1  mrg                     if (whitespaceToken)
1.1  mrg                     {
1.1  mrg                         t.value = TOK.whitespace;
1.1  mrg                         return;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 continue; // skip white space
1.1  mrg             case '\r':
1.1  mrg                 p++;
1.1  mrg                 if (*p != '\n') // if CR stands by itself
1.1  mrg                 {
1.1  mrg                     endOfLine();
1.1  mrg                     if (tokenizeNewlines)
1.1  mrg                     {
1.1  mrg                         t.value = TOK.endOfLine;
1.1  mrg                         tokenizeNewlines = false;
1.1  mrg                         return;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 version (DMDLIB)
1.1  mrg                 {
1.1  mrg                     if (whitespaceToken)
1.1  mrg                     {
1.1  mrg                         t.value = TOK.whitespace;
1.1  mrg                         return;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 continue; // skip white space
1.1  mrg             case '\n':
1.1  mrg                 p++;
1.1  mrg                 endOfLine();
1.1  mrg                 if (tokenizeNewlines)
1.1  mrg                 {
1.1  mrg                     t.value = TOK.endOfLine;
1.1  mrg                     tokenizeNewlines = false;
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 version (DMDLIB)
1.1  mrg                 {
1.1  mrg                     if (whitespaceToken)
1.1  mrg                     {
1.1  mrg                         t.value = TOK.whitespace;
1.1  mrg                         return;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 continue; // skip white space
1.1  mrg             case '0':
1.1  mrg                 if (!isZeroSecond(p[1]))        // if numeric literal does not continue
1.1  mrg                 {
1.1  mrg                     ++p;
1.1  mrg                     t.unsvalue = 0;
1.1  mrg                     t.value = TOK.int32Literal;
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 goto Lnumber;
1.1  mrg
1.1  mrg             case '1': .. case '9':
1.1  mrg                 if (!isDigitSecond(p[1]))       // if numeric literal does not continue
1.1  mrg                 {
1.1  mrg                     t.unsvalue = *p - '0';
1.1  mrg                     ++p;
1.1  mrg                     t.value = TOK.int32Literal;
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg             Lnumber:
1.1  mrg                 t.value = number(t);
1.1  mrg                 return;
1.1  mrg
1.1  mrg             case '\'':
1.1  mrg                 if (issinglechar(p[1]) && p[2] == '\'')
1.1  mrg                 {
1.1  mrg                     t.unsvalue = p[1];        // simple one character literal
1.1  mrg                     t.value = TOK.charLiteral;
1.1  mrg                     p += 3;
1.1  mrg                 }
1.1  mrg                 else if (Ccompile)
1.1  mrg                 {
1.1  mrg                     clexerCharConstant(*t, 0);
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                 {
1.1  mrg                     t.value = charConstant(t);
1.1  mrg                 }
1.1  mrg                 return;
1.1  mrg
1.1  mrg             case 'u':
1.1  mrg             case 'U':
1.1  mrg             case 'L':
1.1  mrg                 if (!Ccompile)
1.1  mrg                     goto case_ident;
1.1  mrg                 if (p[1] == '\'')       // C wide character constant
1.1  mrg                 {
1.1  mrg                     char c = *p;
1.1  mrg                     if (c == 'L')       // convert L to u or U
1.1  mrg                         c = (wchar_tsize == 4) ? 'u' : 'U';
1.1  mrg                     ++p;
1.1  mrg                     clexerCharConstant(*t, c);
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 else if (p[1] == '\"')  // C wide string literal
1.1  mrg                 {
1.1  mrg                     const c = *p;
1.1  mrg                     ++p;
1.1  mrg                     escapeStringConstant(t);
1.1  mrg                     t.postfix = c == 'L' ? (wchar_tsize == 2 ? 'w' : 'd') :
1.1  mrg                                 c == 'u' ? 'w' :
1.1  mrg                                 'd';
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 else if (p[1] == '8' && p[2] == '\"') // C UTF-8 string literal
1.1  mrg                 {
1.1  mrg                     p += 2;
1.1  mrg                     escapeStringConstant(t);
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 goto case_ident;
1.1  mrg
1.1  mrg             case 'r':
1.1  mrg                 if (Ccompile || p[1] != '"')
1.1  mrg                     goto case_ident;
1.1  mrg                 p++;
1.1  mrg                 goto case '`';
1.1  mrg             case '`':
1.1  mrg                 if (Ccompile)
1.1  mrg                     goto default;
1.1  mrg                 wysiwygStringConstant(t);
1.1  mrg                 return;
1.1  mrg             case 'q':
1.1  mrg                 if (Ccompile)
1.1  mrg                     goto case_ident;
1.1  mrg                 if (p[1] == '"')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     delimitedStringConstant(t);
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 else if (p[1] == '{')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     tokenStringConstant(t);
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     goto case_ident;
1.1  mrg             case '"':
1.1  mrg                 escapeStringConstant(t);
1.1  mrg                 return;
1.1  mrg             case 'a':
1.1  mrg             case 'b':
1.1  mrg             case 'c':
1.1  mrg             case 'd':
1.1  mrg             case 'e':
1.1  mrg             case 'f':
1.1  mrg             case 'g':
1.1  mrg             case 'h':
1.1  mrg             case 'i':
1.1  mrg             case 'j':
1.1  mrg             case 'k':
1.1  mrg             case 'l':
1.1  mrg             case 'm':
1.1  mrg             case 'n':
1.1  mrg             case 'o':
1.1  mrg             case 'p':
1.1  mrg                 /*case 'q': case 'r':*/
1.1  mrg             case 's':
1.1  mrg             case 't':
1.1  mrg             //case 'u':
1.1  mrg             case 'v':
1.1  mrg             case 'w':
1.1  mrg             case 'x':
1.1  mrg             case 'y':
1.1  mrg             case 'z':
1.1  mrg             case 'A':
1.1  mrg             case 'B':
1.1  mrg             case 'C':
1.1  mrg             case 'D':
1.1  mrg             case 'E':
1.1  mrg             case 'F':
1.1  mrg             case 'G':
1.1  mrg             case 'H':
1.1  mrg             case 'I':
1.1  mrg             case 'J':
1.1  mrg             case 'K':
1.1  mrg             //case 'L':
1.1  mrg             case 'M':
1.1  mrg             case 'N':
1.1  mrg             case 'O':
1.1  mrg             case 'P':
1.1  mrg             case 'Q':
1.1  mrg             case 'R':
1.1  mrg             case 'S':
1.1  mrg             case 'T':
1.1  mrg             //case 'U':
1.1  mrg             case 'V':
1.1  mrg             case 'W':
1.1  mrg             case 'X':
1.1  mrg             case 'Y':
1.1  mrg             case 'Z':
1.1  mrg             case '_':
1.1  mrg             case_ident:
1.1  mrg                 {
1.1  mrg                     while (1)
1.1  mrg                     {
1.1  mrg                         const c = *++p;
1.1  mrg                         if (isidchar(c))
1.1  mrg                             continue;
1.1  mrg                         else if (c & 0x80)
1.1  mrg                         {
1.1  mrg                             const s = p;
1.1  mrg                             const u = decodeUTF();
1.1  mrg                             if (isUniAlpha(u))
1.1  mrg                                 continue;
1.1  mrg                             error("char 0x%04x not allowed in identifier", u);
1.1  mrg                             p = s;
1.1  mrg                         }
1.1  mrg                         break;
1.1  mrg                     }
1.1  mrg                     Identifier id = Identifier.idPool(cast(char*)t.ptr, cast(uint)(p - t.ptr));
1.1  mrg                     t.ident = id;
1.1  mrg                     t.value = cast(TOK)id.getValue();
1.1  mrg
1.1  mrg                     anyToken = 1;
1.1  mrg
1.1  mrg                     /* Different keywords for C and D
1.1  mrg                      */
1.1  mrg                     if (Ccompile)
1.1  mrg                     {
1.1  mrg                         if (t.value != TOK.identifier)
1.1  mrg                         {
1.1  mrg                             t.value = Ckeywords[t.value];  // filter out D keywords
1.1  mrg                         }
1.1  mrg                     }
1.1  mrg                     else if (t.value >= FirstCKeyword)
1.1  mrg                         t.value = TOK.identifier;       // filter out C keywords
1.1  mrg
1.1  mrg                     else if (*t.ptr == '_') // if special identifier token
1.1  mrg                     {
1.1  mrg                         // Lazy initialization
1.1  mrg                         TimeStampInfo.initialize(t.loc);
1.1  mrg
1.1  mrg                         if (id == Id.DATE)
1.1  mrg                         {
1.1  mrg                             t.ustring = TimeStampInfo.date.ptr;
1.1  mrg                             goto Lstr;
1.1  mrg                         }
1.1  mrg                         else if (id == Id.TIME)
1.1  mrg                         {
1.1  mrg                             t.ustring = TimeStampInfo.time.ptr;
1.1  mrg                             goto Lstr;
1.1  mrg                         }
1.1  mrg                         else if (id == Id.VENDOR)
1.1  mrg                         {
1.1  mrg                             t.ustring = global.vendor.xarraydup.ptr;
1.1  mrg                             goto Lstr;
1.1  mrg                         }
1.1  mrg                         else if (id == Id.TIMESTAMP)
1.1  mrg                         {
1.1  mrg                             t.ustring = TimeStampInfo.timestamp.ptr;
1.1  mrg                         Lstr:
1.1  mrg                             t.value = TOK.string_;
1.1  mrg                             t.postfix = 0;
1.1  mrg                             t.len = cast(uint)strlen(t.ustring);
1.1  mrg                         }
1.1  mrg                         else if (id == Id.VERSIONX)
1.1  mrg                         {
1.1  mrg                             t.value = TOK.int64Literal;
1.1  mrg                             t.unsvalue = global.versionNumber();
1.1  mrg                         }
1.1  mrg                         else if (id == Id.EOFX)
1.1  mrg                         {
1.1  mrg                             t.value = TOK.endOfFile;
1.1  mrg                             // Advance scanner to end of file
1.1  mrg                             while (!(*p == 0 || *p == 0x1A))
1.1  mrg                                 p++;
1.1  mrg                         }
1.1  mrg                     }
1.1  mrg                     //printf("t.value = %d\n",t.value);
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg             case '/':
1.1  mrg                 p++;
1.1  mrg                 switch (*p)
1.1  mrg                 {
1.1  mrg                 case '=':
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.divAssign;
1.1  mrg                     return;
1.1  mrg                 case '*':
1.1  mrg                     p++;
1.1  mrg                     startLoc = loc();
1.1  mrg                     while (1)
1.1  mrg                     {
1.1  mrg                         while (1)
1.1  mrg                         {
1.1  mrg                             const c = *p;
1.1  mrg                             switch (c)
1.1  mrg                             {
1.1  mrg                             case '/':
1.1  mrg                                 break;
1.1  mrg                             case '\n':
1.1  mrg                                 endOfLine();
1.1  mrg                                 p++;
1.1  mrg                                 continue;
1.1  mrg                             case '\r':
1.1  mrg                                 p++;
1.1  mrg                                 if (*p != '\n')
1.1  mrg                                     endOfLine();
1.1  mrg                                 continue;
1.1  mrg                             case 0:
1.1  mrg                             case 0x1A:
1.1  mrg                                 error("unterminated /* */ comment");
1.1  mrg                                 p = end;
1.1  mrg                                 t.loc = loc();
1.1  mrg                                 t.value = TOK.endOfFile;
1.1  mrg                                 return;
1.1  mrg                             default:
1.1  mrg                                 if (c & 0x80)
1.1  mrg                                 {
1.1  mrg                                     const u = decodeUTF();
1.1  mrg                                     if (u == PS || u == LS)
1.1  mrg                                         endOfLine();
1.1  mrg                                 }
1.1  mrg                                 p++;
1.1  mrg                                 continue;
1.1  mrg                             }
1.1  mrg                             break;
1.1  mrg                         }
1.1  mrg                         p++;
1.1  mrg                         if (p[-2] == '*' && p - 3 != t.ptr)
1.1  mrg                             break;
1.1  mrg                     }
1.1  mrg                     if (commentToken)
1.1  mrg                     {
1.1  mrg                         t.loc = startLoc;
1.1  mrg                         t.value = TOK.comment;
1.1  mrg                         return;
1.1  mrg                     }
1.1  mrg                     else if (doDocComment && t.ptr[2] == '*' && p - 4 != t.ptr)
1.1  mrg                     {
1.1  mrg                         // if /** but not /**/
1.1  mrg                         getDocComment(t, lastLine == startLoc.linnum, startLoc.linnum - lastDocLine > 1);
1.1  mrg                         lastDocLine = scanloc.linnum;
1.1  mrg                     }
1.1  mrg                     continue;
1.1  mrg                 case '/': // do // style comments
1.1  mrg                     startLoc = loc();
1.1  mrg                     while (1)
1.1  mrg                     {
1.1  mrg                         const c = *++p;
1.1  mrg                         switch (c)
1.1  mrg                         {
1.1  mrg                         case '\n':
1.1  mrg                             break;
1.1  mrg                         case '\r':
1.1  mrg                             if (p[1] == '\n')
1.1  mrg                                 p++;
1.1  mrg                             break;
1.1  mrg                         case 0:
1.1  mrg                         case 0x1A:
1.1  mrg                             if (commentToken)
1.1  mrg                             {
1.1  mrg                                 p = end;
1.1  mrg                                 t.loc = startLoc;
1.1  mrg                                 t.value = TOK.comment;
1.1  mrg                                 return;
1.1  mrg                             }
1.1  mrg                             if (doDocComment && t.ptr[2] == '/')
1.1  mrg                             {
1.1  mrg                                 getDocComment(t, lastLine == startLoc.linnum, startLoc.linnum - lastDocLine > 1);
1.1  mrg                                 lastDocLine = scanloc.linnum;
1.1  mrg                             }
1.1  mrg                             p = end;
1.1  mrg                             t.loc = loc();
1.1  mrg                             t.value = TOK.endOfFile;
1.1  mrg                             return;
1.1  mrg                         default:
1.1  mrg                             if (c & 0x80)
1.1  mrg                             {
1.1  mrg                                 const u = decodeUTF();
1.1  mrg                                 if (u == PS || u == LS)
1.1  mrg                                     break;
1.1  mrg                             }
1.1  mrg                             continue;
1.1  mrg                         }
1.1  mrg                         break;
1.1  mrg                     }
1.1  mrg                     if (commentToken)
1.1  mrg                     {
1.1  mrg                         version (DMDLIB) {}
1.1  mrg                         else
1.1  mrg                         {
1.1  mrg                             p++;
1.1  mrg                             endOfLine();
1.1  mrg                         }
1.1  mrg                         t.loc = startLoc;
1.1  mrg                         t.value = TOK.comment;
1.1  mrg                         return;
1.1  mrg                     }
1.1  mrg                     if (doDocComment && t.ptr[2] == '/')
1.1  mrg                     {
1.1  mrg                         getDocComment(t, lastLine == startLoc.linnum, startLoc.linnum - lastDocLine > 1);
1.1  mrg                         lastDocLine = scanloc.linnum;
1.1  mrg                     }
1.1  mrg                     p++;
1.1  mrg                     endOfLine();
1.1  mrg                     continue;
1.1  mrg                 case '+':
1.1  mrg                     if (!Ccompile)
1.1  mrg                     {
1.1  mrg                         int nest;
1.1  mrg                         startLoc = loc();
1.1  mrg                         p++;
1.1  mrg                         nest = 1;
1.1  mrg                         while (1)
1.1  mrg                         {
1.1  mrg                             char c = *p;
1.1  mrg                             switch (c)
1.1  mrg                             {
1.1  mrg                             case '/':
1.1  mrg                                 p++;
1.1  mrg                                 if (*p == '+')
1.1  mrg                                 {
1.1  mrg                                     p++;
1.1  mrg                                     nest++;
1.1  mrg                                 }
1.1  mrg                                 continue;
1.1  mrg                             case '+':
1.1  mrg                                 p++;
1.1  mrg                                 if (*p == '/')
1.1  mrg                                 {
1.1  mrg                                     p++;
1.1  mrg                                     if (--nest == 0)
1.1  mrg                                         break;
1.1  mrg                                 }
1.1  mrg                                 continue;
1.1  mrg                             case '\r':
1.1  mrg                                 p++;
1.1  mrg                                 if (*p != '\n')
1.1  mrg                                     endOfLine();
1.1  mrg                                 continue;
1.1  mrg                             case '\n':
1.1  mrg                                 endOfLine();
1.1  mrg                                 p++;
1.1  mrg                                 continue;
1.1  mrg                             case 0:
1.1  mrg                             case 0x1A:
1.1  mrg                                 error("unterminated /+ +/ comment");
1.1  mrg                                 p = end;
1.1  mrg                                 t.loc = loc();
1.1  mrg                                 t.value = TOK.endOfFile;
1.1  mrg                                 return;
1.1  mrg                             default:
1.1  mrg                                 if (c & 0x80)
1.1  mrg                                 {
1.1  mrg                                     uint u = decodeUTF();
1.1  mrg                                     if (u == PS || u == LS)
1.1  mrg                                         endOfLine();
1.1  mrg                                 }
1.1  mrg                                 p++;
1.1  mrg                                 continue;
1.1  mrg                             }
1.1  mrg                             break;
1.1  mrg                         }
1.1  mrg                         if (commentToken)
1.1  mrg                         {
1.1  mrg                             t.loc = startLoc;
1.1  mrg                             t.value = TOK.comment;
1.1  mrg                             return;
1.1  mrg                         }
1.1  mrg                         if (doDocComment && t.ptr[2] == '+' && p - 4 != t.ptr)
1.1  mrg                         {
1.1  mrg                             // if /++ but not /++/
1.1  mrg                             getDocComment(t, lastLine == startLoc.linnum, startLoc.linnum - lastDocLine > 1);
1.1  mrg                             lastDocLine = scanloc.linnum;
1.1  mrg                         }
1.1  mrg                         continue;
1.1  mrg                     }
1.1  mrg                     break;
1.1  mrg                 default:
1.1  mrg                     break;
1.1  mrg                 }
1.1  mrg                 t.value = TOK.div;
1.1  mrg                 return;
1.1  mrg             case '.':
1.1  mrg                 p++;
1.1  mrg                 if (isdigit(*p))
1.1  mrg                 {
1.1  mrg                     /* Note that we don't allow ._1 and ._ as being
1.1  mrg                      * valid floating point numbers.
1.1  mrg                      */
1.1  mrg                     p--;
1.1  mrg                     t.value = inreal(t);
1.1  mrg                 }
1.1  mrg                 else if (p[0] == '.')
1.1  mrg                 {
1.1  mrg                     if (p[1] == '.')
1.1  mrg                     {
1.1  mrg                         p += 2;
1.1  mrg                         t.value = TOK.dotDotDot;
1.1  mrg                     }
1.1  mrg                     else
1.1  mrg                     {
1.1  mrg                         p++;
1.1  mrg                         t.value = TOK.slice;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.dot;
1.1  mrg                 return;
1.1  mrg             case '&':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.andAssign;
1.1  mrg                 }
1.1  mrg                 else if (*p == '&')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.andAnd;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.and;
1.1  mrg                 return;
1.1  mrg             case '|':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.orAssign;
1.1  mrg                 }
1.1  mrg                 else if (*p == '|')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.orOr;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.or;
1.1  mrg                 return;
1.1  mrg             case '-':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.minAssign;
1.1  mrg                 }
1.1  mrg                 else if (*p == '-')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.minusMinus;
1.1  mrg                 }
1.1  mrg                 else if (*p == '>')
1.1  mrg                 {
1.1  mrg                     ++p;
1.1  mrg                     t.value = TOK.arrow;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.min;
1.1  mrg                 return;
1.1  mrg             case '+':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.addAssign;
1.1  mrg                 }
1.1  mrg                 else if (*p == '+')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.plusPlus;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.add;
1.1  mrg                 return;
1.1  mrg             case '<':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.lessOrEqual; // <=
1.1  mrg                 }
1.1  mrg                 else if (*p == '<')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     if (*p == '=')
1.1  mrg                     {
1.1  mrg                         p++;
1.1  mrg                         t.value = TOK.leftShiftAssign; // <<=
1.1  mrg                     }
1.1  mrg                     else
1.1  mrg                         t.value = TOK.leftShift; // <<
1.1  mrg                 }
1.1  mrg                 else if (*p == ':' && Ccompile)
1.1  mrg                 {
1.1  mrg                     ++p;
1.1  mrg                     t.value = TOK.leftBracket;  // <:
1.1  mrg                 }
1.1  mrg                 else if (*p == '%' && Ccompile)
1.1  mrg                 {
1.1  mrg                     ++p;
1.1  mrg                     t.value = TOK.leftCurly;    // <%
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.lessThan; // <
1.1  mrg                 return;
1.1  mrg             case '>':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.greaterOrEqual; // >=
1.1  mrg                 }
1.1  mrg                 else if (*p == '>')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     if (*p == '=')
1.1  mrg                     {
1.1  mrg                         p++;
1.1  mrg                         t.value = TOK.rightShiftAssign; // >>=
1.1  mrg                     }
1.1  mrg                     else if (*p == '>')
1.1  mrg                     {
1.1  mrg                         p++;
1.1  mrg                         if (*p == '=')
1.1  mrg                         {
1.1  mrg                             p++;
1.1  mrg                             t.value = TOK.unsignedRightShiftAssign; // >>>=
1.1  mrg                         }
1.1  mrg                         else
1.1  mrg                             t.value = TOK.unsignedRightShift; // >>>
1.1  mrg                     }
1.1  mrg                     else
1.1  mrg                         t.value = TOK.rightShift; // >>
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.greaterThan; // >
1.1  mrg                 return;
1.1  mrg             case '!':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.notEqual; // !=
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.not; // !
1.1  mrg                 return;
1.1  mrg             case '=':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.equal; // ==
1.1  mrg                 }
1.1  mrg                 else if (*p == '>')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.goesTo; // =>
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.assign; // =
1.1  mrg                 return;
1.1  mrg             case '~':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.concatenateAssign; // ~=
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.tilde; // ~
1.1  mrg                 return;
1.1  mrg             case '^':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '^')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     if (*p == '=')
1.1  mrg                     {
1.1  mrg                         p++;
1.1  mrg                         t.value = TOK.powAssign; // ^^=
1.1  mrg                     }
1.1  mrg                     else
1.1  mrg                         t.value = TOK.pow; // ^^
1.1  mrg                 }
1.1  mrg                 else if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.xorAssign; // ^=
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.xor; // ^
1.1  mrg                 return;
1.1  mrg             case '(':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.leftParenthesis;
1.1  mrg                 return;
1.1  mrg             case ')':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.rightParenthesis;
1.1  mrg                 return;
1.1  mrg             case '[':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.leftBracket;
1.1  mrg                 return;
1.1  mrg             case ']':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.rightBracket;
1.1  mrg                 return;
1.1  mrg             case '{':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.leftCurly;
1.1  mrg                 return;
1.1  mrg             case '}':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.rightCurly;
1.1  mrg                 return;
1.1  mrg             case '?':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.question;
1.1  mrg                 return;
1.1  mrg             case ',':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.comma;
1.1  mrg                 return;
1.1  mrg             case ';':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.semicolon;
1.1  mrg                 return;
1.1  mrg             case ':':
1.1  mrg                 p++;
1.1  mrg                 if (*p == ':')
1.1  mrg                 {
1.1  mrg                     ++p;
1.1  mrg                     t.value = TOK.colonColon;
1.1  mrg                 }
1.1  mrg                 else if (*p == '>' && Ccompile)
1.1  mrg                 {
1.1  mrg                     ++p;
1.1  mrg                     t.value = TOK.rightBracket;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.colon;
1.1  mrg                 return;
1.1  mrg             case '$':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.dollar;
1.1  mrg                 return;
1.1  mrg             case '@':
1.1  mrg                 p++;
1.1  mrg                 t.value = TOK.at;
1.1  mrg                 return;
1.1  mrg             case '*':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.mulAssign;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.mul;
1.1  mrg                 return;
1.1  mrg             case '%':
1.1  mrg                 p++;
1.1  mrg                 if (*p == '=')
1.1  mrg                 {
1.1  mrg                     p++;
1.1  mrg                     t.value = TOK.modAssign;
1.1  mrg                 }
1.1  mrg                 else if (*p == '>' && Ccompile)
1.1  mrg                 {
1.1  mrg                     ++p;
1.1  mrg                     t.value = TOK.rightCurly;
1.1  mrg                 }
1.1  mrg                 else if (*p == ':' && Ccompile)
1.1  mrg                 {
1.1  mrg                     goto case '#';      // %: means #
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                     t.value = TOK.mod;
1.1  mrg                 return;
1.1  mrg             case '#':
1.1  mrg                 {
1.1  mrg                     // https://issues.dlang.org/show_bug.cgi?id=22825
1.1  mrg                     // Special token sequences are terminated by newlines,
1.1  mrg                     // and should not be skipped over.
1.1  mrg                     this.tokenizeNewlines = true;
1.1  mrg                     p++;
1.1  mrg                     if (parseSpecialTokenSequence())
1.1  mrg                         continue;
1.1  mrg                     t.value = TOK.pound;
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg             default:
1.1  mrg                 {
1.1  mrg                     dchar c = *p;
1.1  mrg                     if (c & 0x80)
1.1  mrg                     {
1.1  mrg                         c = decodeUTF();
1.1  mrg                         // Check for start of unicode identifier
1.1  mrg                         if (isUniAlpha(c))
1.1  mrg                             goto case_ident;
1.1  mrg                         if (c == PS || c == LS)
1.1  mrg                         {
1.1  mrg                             endOfLine();
1.1  mrg                             p++;
1.1  mrg                             if (tokenizeNewlines)
1.1  mrg                             {
1.1  mrg                                 t.value = TOK.endOfLine;
1.1  mrg                                 tokenizeNewlines = false;
1.1  mrg                                 return;
1.1  mrg                             }
1.1  mrg                             continue;
1.1  mrg                         }
1.1  mrg                     }
1.1  mrg                     if (c < 0x80 && isprint(c))
1.1  mrg                         error("character '%c' is not a valid token", c);
1.1  mrg                     else
1.1  mrg                         error("character 0x%02x is not a valid token", c);
1.1  mrg                     p++;
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg             }
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     final Token* peek(Token* ct)
1.1  mrg     {
1.1  mrg         Token* t;
1.1  mrg         if (ct.next)
1.1  mrg             t = ct.next;
1.1  mrg         else
1.1  mrg         {
1.1  mrg             t = allocateToken();
1.1  mrg             scan(t);
1.1  mrg             ct.next = t;
1.1  mrg         }
1.1  mrg         return t;
1.1  mrg     }
1.1  mrg
1.1  mrg     /*********************************
1.1  mrg      * tk is on the opening (.
1.1  mrg      * Look ahead and return token that is past the closing ).
1.1  mrg      */
1.1  mrg     final Token* peekPastParen(Token* tk)
1.1  mrg     {
1.1  mrg         //printf("peekPastParen()\n");
1.1  mrg         int parens = 1;
1.1  mrg         int curlynest = 0;
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             tk = peek(tk);
1.1  mrg             //tk.print();
1.1  mrg             switch (tk.value)
1.1  mrg             {
1.1  mrg             case TOK.leftParenthesis:
1.1  mrg                 parens++;
1.1  mrg                 continue;
1.1  mrg             case TOK.rightParenthesis:
1.1  mrg                 --parens;
1.1  mrg                 if (parens)
1.1  mrg                     continue;
1.1  mrg                 tk = peek(tk);
1.1  mrg                 break;
1.1  mrg             case TOK.leftCurly:
1.1  mrg                 curlynest++;
1.1  mrg                 continue;
1.1  mrg             case TOK.rightCurly:
1.1  mrg                 if (--curlynest >= 0)
1.1  mrg                     continue;
1.1  mrg                 break;
1.1  mrg             case TOK.semicolon:
1.1  mrg                 if (curlynest)
1.1  mrg                     continue;
1.1  mrg                 break;
1.1  mrg             case TOK.endOfFile:
1.1  mrg                 break;
1.1  mrg             default:
1.1  mrg                 continue;
1.1  mrg             }
1.1  mrg             return tk;
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     /*******************************************
1.1  mrg      * Parse escape sequence.
1.1  mrg      */
1.1  mrg     private uint escapeSequence()
1.1  mrg     {
1.1  mrg         return Lexer.escapeSequence(token.loc, p, Ccompile);
1.1  mrg     }
1.1  mrg
1.1  mrg     /********
1.1  mrg      * Parse the given string literal escape sequence into a single character.
1.1  mrg      * D https://dlang.org/spec/lex.html#escape_sequences
1.1  mrg      * C11 6.4.4.4
1.1  mrg      * Params:
1.1  mrg      *  loc = location to use for error messages
1.1  mrg      *  sequence = pointer to string with escape sequence to parse. Updated to
1.1  mrg      *             point past the end of the escape sequence
1.1  mrg      *  Ccompile = true for compile C11 escape sequences
1.1  mrg      * Returns:
1.1  mrg      *  the escape sequence as a single character
1.1  mrg      */
1.1  mrg     private static dchar escapeSequence(const ref Loc loc, ref const(char)* sequence, bool Ccompile)
1.1  mrg     {
1.1  mrg         const(char)* p = sequence; // cache sequence reference on stack
1.1  mrg         scope(exit) sequence = p;
1.1  mrg
1.1  mrg         uint c = *p;
1.1  mrg         int ndigits;
1.1  mrg         switch (c)
1.1  mrg         {
1.1  mrg         case '\'':
1.1  mrg         case '"':
1.1  mrg         case '?':
1.1  mrg         case '\\':
1.1  mrg         Lconsume:
1.1  mrg             p++;
1.1  mrg             break;
1.1  mrg         case 'a':
1.1  mrg             c = 7;
1.1  mrg             goto Lconsume;
1.1  mrg         case 'b':
1.1  mrg             c = 8;
1.1  mrg             goto Lconsume;
1.1  mrg         case 'f':
1.1  mrg             c = 12;
1.1  mrg             goto Lconsume;
1.1  mrg         case 'n':
1.1  mrg             c = 10;
1.1  mrg             goto Lconsume;
1.1  mrg         case 'r':
1.1  mrg             c = 13;
1.1  mrg             goto Lconsume;
1.1  mrg         case 't':
1.1  mrg             c = 9;
1.1  mrg             goto Lconsume;
1.1  mrg         case 'v':
1.1  mrg             c = 11;
1.1  mrg             goto Lconsume;
1.1  mrg         case 'u':
1.1  mrg             ndigits = 4;
1.1  mrg             goto Lhex;
1.1  mrg         case 'U':
1.1  mrg             ndigits = 8;
1.1  mrg             goto Lhex;
1.1  mrg         case 'x':
1.1  mrg             ndigits = 2;
1.1  mrg         Lhex:
1.1  mrg             p++;
1.1  mrg             c = *p;
1.1  mrg             if (ishex(cast(char)c))
1.1  mrg             {
1.1  mrg                 uint v = 0;
1.1  mrg                 int n = 0;
1.1  mrg                 if (Ccompile && ndigits == 2)
1.1  mrg                 {
1.1  mrg                     /* C11 6.4.4.4-7 one to infinity hex digits
1.1  mrg                      */
1.1  mrg                     do
1.1  mrg                     {
1.1  mrg                         if (isdigit(cast(char)c))
1.1  mrg                             c -= '0';
1.1  mrg                         else if (islower(c))
1.1  mrg                             c -= 'a' - 10;
1.1  mrg                         else
1.1  mrg                             c -= 'A' - 10;
1.1  mrg                         v = v * 16 + c;
1.1  mrg                         c = *++p;
1.1  mrg                     } while (ishex(cast(char)c));
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                 {
1.1  mrg                     while (1)
1.1  mrg                     {
1.1  mrg                         if (isdigit(cast(char)c))
1.1  mrg                             c -= '0';
1.1  mrg                         else if (islower(c))
1.1  mrg                             c -= 'a' - 10;
1.1  mrg                         else
1.1  mrg                             c -= 'A' - 10;
1.1  mrg                         v = v * 16 + c;
1.1  mrg                         c = *++p;
1.1  mrg                         if (++n == ndigits)
1.1  mrg                             break;
1.1  mrg                         if (!ishex(cast(char)c))
1.1  mrg                         {
1.1  mrg                             .error(loc, "escape hex sequence has %d hex digits instead of %d", n, ndigits);
1.1  mrg                             break;
1.1  mrg                         }
1.1  mrg                     }
1.1  mrg                     if (ndigits != 2 && !utf_isValidDchar(v))
1.1  mrg                     {
1.1  mrg                         .error(loc, "invalid UTF character \\U%08x", v);
1.1  mrg                         v = '?'; // recover with valid UTF character
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 c = v;
1.1  mrg             }
1.1  mrg             else
1.1  mrg             {
1.1  mrg                 .error(loc, "undefined escape hex sequence \\%c%c", sequence[0], c);
1.1  mrg                 p++;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         case '&':
1.1  mrg             if (Ccompile)
1.1  mrg                 goto default;
1.1  mrg
1.1  mrg             // named character entity
1.1  mrg             for (const idstart = ++p; 1; p++)
1.1  mrg             {
1.1  mrg                 switch (*p)
1.1  mrg                 {
1.1  mrg                 case ';':
1.1  mrg                     c = HtmlNamedEntity(idstart, p - idstart);
1.1  mrg                     if (c == ~0)
1.1  mrg                     {
1.1  mrg                         .error(loc, "unnamed character entity &%.*s;", cast(int)(p - idstart), idstart);
1.1  mrg                         c = '?';
1.1  mrg                     }
1.1  mrg                     p++;
1.1  mrg                     break;
1.1  mrg                 default:
1.1  mrg                     if (isalpha(*p) || (p != idstart && isdigit(*p)))
1.1  mrg                         continue;
1.1  mrg                     .error(loc, "unterminated named entity &%.*s;", cast(int)(p - idstart + 1), idstart);
1.1  mrg                     c = '?';
1.1  mrg                     break;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         case 0:
1.1  mrg         case 0x1A:
1.1  mrg             // end of file
1.1  mrg             c = '\\';
1.1  mrg             break;
1.1  mrg         default:
1.1  mrg             if (isoctal(cast(char)c))
1.1  mrg             {
1.1  mrg                 uint v = 0;
1.1  mrg                 int n = 0;
1.1  mrg                 do
1.1  mrg                 {
1.1  mrg                     v = v * 8 + (c - '0');
1.1  mrg                     c = *++p;
1.1  mrg                 }
1.1  mrg                 while (++n < 3 && isoctal(cast(char)c));
1.1  mrg                 c = v;
1.1  mrg                 if (c > 0xFF)
1.1  mrg                     .error(loc, "escape octal sequence \\%03o is larger than \\377", c);
1.1  mrg             }
1.1  mrg             else
1.1  mrg             {
1.1  mrg                 .error(loc, "undefined escape sequence \\%c", c);
1.1  mrg                 p++;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         }
1.1  mrg         return c;
1.1  mrg     }
1.1  mrg
1.1  mrg     /**
1.1  mrg     Lex a wysiwyg string. `p` must be pointing to the first character before the
1.1  mrg     contents of the string literal. The character pointed to by `p` will be used as
1.1  mrg     the terminating character (i.e. backtick or double-quote).
1.1  mrg     Params:
1.1  mrg         result = pointer to the token that accepts the result
1.1  mrg     */
1.1  mrg     private void wysiwygStringConstant(Token* result)
1.1  mrg     {
1.1  mrg         result.value = TOK.string_;
1.1  mrg         Loc start = loc();
1.1  mrg         auto terminator = p[0];
1.1  mrg         p++;
1.1  mrg         stringbuffer.setsize(0);
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             dchar c = p[0];
1.1  mrg             p++;
1.1  mrg             switch (c)
1.1  mrg             {
1.1  mrg             case '\n':
1.1  mrg                 endOfLine();
1.1  mrg                 break;
1.1  mrg             case '\r':
1.1  mrg                 if (p[0] == '\n')
1.1  mrg                     continue; // ignore
1.1  mrg                 c = '\n'; // treat EndOfLine as \n character
1.1  mrg                 endOfLine();
1.1  mrg                 break;
1.1  mrg             case 0:
1.1  mrg             case 0x1A:
1.1  mrg                 error("unterminated string constant starting at %s", start.toChars());
1.1  mrg                 result.setString();
1.1  mrg                 // rewind `p` so it points to the EOF character
1.1  mrg                 p--;
1.1  mrg                 return;
1.1  mrg             default:
1.1  mrg                 if (c == terminator)
1.1  mrg                 {
1.1  mrg                     result.setString(stringbuffer);
1.1  mrg                     stringPostfix(result);
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 else if (c & 0x80)
1.1  mrg                 {
1.1  mrg                     p--;
1.1  mrg                     const u = decodeUTF();
1.1  mrg                     p++;
1.1  mrg                     if (u == PS || u == LS)
1.1  mrg                         endOfLine();
1.1  mrg                     stringbuffer.writeUTF8(u);
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             stringbuffer.writeByte(c);
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     /**
1.1  mrg     Lex a delimited string. Some examples of delimited strings are:
1.1  mrg     ---
1.1  mrg     q"(foo(xxx))"      // "foo(xxx)"
1.1  mrg     q"[foo$(LPAREN)]"  // "foo$(LPAREN)"
1.1  mrg     q"/foo]/"          // "foo]"
1.1  mrg     q"HERE
1.1  mrg     foo
1.1  mrg     HERE"              // "foo\n"
1.1  mrg     ---
1.1  mrg     It is assumed that `p` points to the opening double-quote '"'.
1.1  mrg     Params:
1.1  mrg         result = pointer to the token that accepts the result
1.1  mrg     */
1.1  mrg     private void delimitedStringConstant(Token* result)
1.1  mrg     {
1.1  mrg         result.value = TOK.string_;
1.1  mrg         Loc start = loc();
1.1  mrg         dchar delimleft = 0;
1.1  mrg         dchar delimright = 0;
1.1  mrg         uint nest = 1;
1.1  mrg         uint nestcount = ~0; // dead assignment, needed to suppress warning
1.1  mrg         Identifier hereid = null;
1.1  mrg         uint blankrol = 0;
1.1  mrg         uint startline = 0;
1.1  mrg         p++;
1.1  mrg         stringbuffer.setsize(0);
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             dchar c = *p++;
1.1  mrg             //printf("c = '%c'\n", c);
1.1  mrg             switch (c)
1.1  mrg             {
1.1  mrg             case '\n':
1.1  mrg             Lnextline:
1.1  mrg                 endOfLine();
1.1  mrg                 startline = 1;
1.1  mrg                 if (blankrol)
1.1  mrg                 {
1.1  mrg                     blankrol = 0;
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 if (hereid)
1.1  mrg                 {
1.1  mrg                     stringbuffer.writeUTF8(c);
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             case '\r':
1.1  mrg                 if (*p == '\n')
1.1  mrg                     continue; // ignore
1.1  mrg                 c = '\n'; // treat EndOfLine as \n character
1.1  mrg                 goto Lnextline;
1.1  mrg             case 0:
1.1  mrg             case 0x1A:
1.1  mrg                 error("unterminated delimited string constant starting at %s", start.toChars());
1.1  mrg                 result.setString();
1.1  mrg                 // decrement `p`, because it needs to point to the next token (the 0 or 0x1A character is the TOK.endOfFile token).
1.1  mrg                 p--;
1.1  mrg                 return;
1.1  mrg             default:
1.1  mrg                 if (c & 0x80)
1.1  mrg                 {
1.1  mrg                     p--;
1.1  mrg                     c = decodeUTF();
1.1  mrg                     p++;
1.1  mrg                     if (c == PS || c == LS)
1.1  mrg                         goto Lnextline;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             if (delimleft == 0)
1.1  mrg             {
1.1  mrg                 delimleft = c;
1.1  mrg                 nest = 1;
1.1  mrg                 nestcount = 1;
1.1  mrg                 if (c == '(')
1.1  mrg                     delimright = ')';
1.1  mrg                 else if (c == '{')
1.1  mrg                     delimright = '}';
1.1  mrg                 else if (c == '[')
1.1  mrg                     delimright = ']';
1.1  mrg                 else if (c == '<')
1.1  mrg                     delimright = '>';
1.1  mrg                 else if (isalpha(c) || c == '_' || (c >= 0x80 && isUniAlpha(c)))
1.1  mrg                 {
1.1  mrg                     // Start of identifier; must be a heredoc
1.1  mrg                     Token tok;
1.1  mrg                     p--;
1.1  mrg                     scan(&tok); // read in heredoc identifier
1.1  mrg                     if (tok.value != TOK.identifier)
1.1  mrg                     {
1.1  mrg                         error("identifier expected for heredoc, not %s", tok.toChars());
1.1  mrg                         delimright = c;
1.1  mrg                     }
1.1  mrg                     else
1.1  mrg                     {
1.1  mrg                         hereid = tok.ident;
1.1  mrg                         //printf("hereid = '%s'\n", hereid.toChars());
1.1  mrg                         blankrol = 1;
1.1  mrg                     }
1.1  mrg                     nest = 0;
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                 {
1.1  mrg                     delimright = c;
1.1  mrg                     nest = 0;
1.1  mrg                     if (isspace(c))
1.1  mrg                         error("delimiter cannot be whitespace");
1.1  mrg                 }
1.1  mrg             }
1.1  mrg             else
1.1  mrg             {
1.1  mrg                 if (blankrol)
1.1  mrg                 {
1.1  mrg                     error("heredoc rest of line should be blank");
1.1  mrg                     blankrol = 0;
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 if (nest == 1)
1.1  mrg                 {
1.1  mrg                     if (c == delimleft)
1.1  mrg                         nestcount++;
1.1  mrg                     else if (c == delimright)
1.1  mrg                     {
1.1  mrg                         nestcount--;
1.1  mrg                         if (nestcount == 0)
1.1  mrg                             goto Ldone;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 else if (c == delimright)
1.1  mrg                     goto Ldone;
1.1  mrg                 if (startline && (isalpha(c) || c == '_' || (c >= 0x80 && isUniAlpha(c))) && hereid)
1.1  mrg                 {
1.1  mrg                     Token tok;
1.1  mrg                     auto psave = p;
1.1  mrg                     p--;
1.1  mrg                     scan(&tok); // read in possible heredoc identifier
1.1  mrg                     //printf("endid = '%s'\n", tok.ident.toChars());
1.1  mrg                     if (tok.value == TOK.identifier && tok.ident is hereid)
1.1  mrg                     {
1.1  mrg                         /* should check that rest of line is blank
1.1  mrg                          */
1.1  mrg                         goto Ldone;
1.1  mrg                     }
1.1  mrg                     p = psave;
1.1  mrg                 }
1.1  mrg                 stringbuffer.writeUTF8(c);
1.1  mrg                 startline = 0;
1.1  mrg             }
1.1  mrg         }
1.1  mrg     Ldone:
1.1  mrg         if (*p == '"')
1.1  mrg             p++;
1.1  mrg         else if (hereid)
1.1  mrg             error("delimited string must end in `%s\"`", hereid.toChars());
1.1  mrg         else if (isspace(delimright))
1.1  mrg             error("delimited string must end in `\"`");
1.1  mrg         else
1.1  mrg             error("delimited string must end in `%c\"`", delimright);
1.1  mrg         result.setString(stringbuffer);
1.1  mrg         stringPostfix(result);
1.1  mrg     }
1.1  mrg
1.1  mrg     /**
1.1  mrg     Lex a token string. Some examples of token strings are:
1.1  mrg     ---
1.1  mrg     q{ foo(xxx) }    // " foo(xxx) "
1.1  mrg     q{foo$(LPAREN)}  // "foo$(LPAREN)"
1.1  mrg     q{{foo}"}"}      // "{foo}"}""
1.1  mrg     ---
1.1  mrg     It is assumed that `p` points to the opening curly-brace.
1.1  mrg     Params:
1.1  mrg         result = pointer to the token that accepts the result
1.1  mrg     */
1.1  mrg     private void tokenStringConstant(Token* result)
1.1  mrg     {
1.1  mrg         result.value = TOK.string_;
1.1  mrg
1.1  mrg         uint nest = 1;
1.1  mrg         const start = loc();
1.1  mrg         const pstart = ++p;
1.1  mrg         inTokenStringConstant++;
1.1  mrg         scope(exit) inTokenStringConstant--;
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             Token tok;
1.1  mrg             scan(&tok);
1.1  mrg             switch (tok.value)
1.1  mrg             {
1.1  mrg             case TOK.leftCurly:
1.1  mrg                 nest++;
1.1  mrg                 continue;
1.1  mrg             case TOK.rightCurly:
1.1  mrg                 if (--nest == 0)
1.1  mrg                 {
1.1  mrg                     result.setString(pstart, p - 1 - pstart);
1.1  mrg                     stringPostfix(result);
1.1  mrg                     return;
1.1  mrg                 }
1.1  mrg                 continue;
1.1  mrg             case TOK.endOfFile:
1.1  mrg                 error("unterminated token string constant starting at %s", start.toChars());
1.1  mrg                 result.setString();
1.1  mrg                 return;
1.1  mrg             default:
1.1  mrg                 continue;
1.1  mrg             }
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     /**
1.1  mrg     Scan a quoted string while building the processed string value by
1.1  mrg     handling escape sequences. The result is returned in the given `t` token.
1.1  mrg     This function assumes that `p` currently points to the opening quote
1.1  mrg     of the string.
1.1  mrg     Params:
1.1  mrg         t = the token to set the resulting string to
1.1  mrg     * References:
1.1  mrg     *   D https://dlang.org/spec/lex.html#double_quoted_strings
1.1  mrg     *   ImportC C11 6.4.5
1.1  mrg     */
1.1  mrg     private void escapeStringConstant(Token* t)
1.1  mrg     {
1.1  mrg         t.value = TOK.string_;
1.1  mrg
1.1  mrg         const start = loc();
1.1  mrg         const tc = *p++;        // opening quote
1.1  mrg         stringbuffer.setsize(0);
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             dchar c = *p++;
1.1  mrg             switch (c)
1.1  mrg             {
1.1  mrg             case '\\':
1.1  mrg                 switch (*p)
1.1  mrg                 {
1.1  mrg                 case '&':
1.1  mrg                     if (Ccompile)
1.1  mrg                         goto default;
1.1  mrg                     goto case;
1.1  mrg
1.1  mrg                 case 'u':
1.1  mrg                 case 'U':
1.1  mrg                     c = escapeSequence();
1.1  mrg                     stringbuffer.writeUTF8(c);
1.1  mrg                     continue;
1.1  mrg                 default:
1.1  mrg                     c = escapeSequence();
1.1  mrg                     break;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             case '\n':
1.1  mrg                 endOfLine();
1.1  mrg                 if (Ccompile)
1.1  mrg                     goto Lunterminated;
1.1  mrg                 break;
1.1  mrg             case '\r':
1.1  mrg                 if (*p == '\n')
1.1  mrg                     continue; // ignore
1.1  mrg                 c = '\n'; // treat EndOfLine as \n character
1.1  mrg                 endOfLine();
1.1  mrg                 if (Ccompile)
1.1  mrg                     goto Lunterminated;
1.1  mrg                 break;
1.1  mrg             case '\'':
1.1  mrg             case '"':
1.1  mrg                 if (c != tc)
1.1  mrg                     goto default;
1.1  mrg                 t.setString(stringbuffer);
1.1  mrg                 if (!Ccompile)
1.1  mrg                     stringPostfix(t);
1.1  mrg                 return;
1.1  mrg             case 0:
1.1  mrg             case 0x1A:
1.1  mrg                 // decrement `p`, because it needs to point to the next token (the 0 or 0x1A character is the TOK.endOfFile token).
1.1  mrg                 p--;
1.1  mrg             Lunterminated:
1.1  mrg                 error("unterminated string constant starting at %s", start.toChars());
1.1  mrg                 t.setString();
1.1  mrg                 return;
1.1  mrg             default:
1.1  mrg                 if (c & 0x80)
1.1  mrg                 {
1.1  mrg                     p--;
1.1  mrg                     c = decodeUTF();
1.1  mrg                     if (c == LS || c == PS)
1.1  mrg                     {
1.1  mrg                         c = '\n';
1.1  mrg                         endOfLine();
1.1  mrg                         if (Ccompile)
1.1  mrg                             goto Lunterminated;
1.1  mrg                     }
1.1  mrg                     p++;
1.1  mrg                     stringbuffer.writeUTF8(c);
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             stringbuffer.writeByte(c);
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     /**************************************
1.1  mrg      * Reference:
1.1  mrg      *    https://dlang.org/spec/lex.html#characterliteral
1.1  mrg      */
1.1  mrg     private TOK charConstant(Token* t)
1.1  mrg     {
1.1  mrg         TOK tk = TOK.charLiteral;
1.1  mrg         //printf("Lexer::charConstant\n");
1.1  mrg         p++;
1.1  mrg         dchar c = *p++;
1.1  mrg         switch (c)
1.1  mrg         {
1.1  mrg         case '\\':
1.1  mrg             switch (*p)
1.1  mrg             {
1.1  mrg             case 'u':
1.1  mrg                 t.unsvalue = escapeSequence();
1.1  mrg                 tk = TOK.wcharLiteral;
1.1  mrg                 break;
1.1  mrg             case 'U':
1.1  mrg             case '&':
1.1  mrg                 t.unsvalue = escapeSequence();
1.1  mrg                 tk = TOK.dcharLiteral;
1.1  mrg                 break;
1.1  mrg             default:
1.1  mrg                 t.unsvalue = escapeSequence();
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         case '\n':
1.1  mrg         L1:
1.1  mrg             endOfLine();
1.1  mrg             goto case;
1.1  mrg         case '\r':
1.1  mrg             goto case '\'';
1.1  mrg         case 0:
1.1  mrg         case 0x1A:
1.1  mrg             // decrement `p`, because it needs to point to the next token (the 0 or 0x1A character is the TOK.endOfFile token).
1.1  mrg             p--;
1.1  mrg             goto case;
1.1  mrg         case '\'':
1.1  mrg             error("unterminated character constant");
1.1  mrg             t.unsvalue = '?';
1.1  mrg             return tk;
1.1  mrg         default:
1.1  mrg             if (c & 0x80)
1.1  mrg             {
1.1  mrg                 p--;
1.1  mrg                 c = decodeUTF();
1.1  mrg                 p++;
1.1  mrg                 if (c == LS || c == PS)
1.1  mrg                     goto L1;
1.1  mrg                 if (c < 0xD800 || (c >= 0xE000 && c < 0xFFFE))
1.1  mrg                     tk = TOK.wcharLiteral;
1.1  mrg                 else
1.1  mrg                     tk = TOK.dcharLiteral;
1.1  mrg             }
1.1  mrg             t.unsvalue = c;
1.1  mrg             break;
1.1  mrg         }
1.1  mrg         if (*p != '\'')
1.1  mrg         {
1.1  mrg             while (*p != '\'' && *p != 0x1A && *p != 0 && *p != '\n' &&
1.1  mrg                     *p != '\r' && *p != ';' && *p != ')' && *p != ']' && *p != '}')
1.1  mrg             {
1.1  mrg                 if (*p & 0x80)
1.1  mrg                 {
1.1  mrg                     const s = p;
1.1  mrg                     c = decodeUTF();
1.1  mrg                     if (c == LS || c == PS)
1.1  mrg                     {
1.1  mrg                         p = s;
1.1  mrg                         break;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 p++;
1.1  mrg             }
1.1  mrg
1.1  mrg             if (*p == '\'')
1.1  mrg             {
1.1  mrg                 error("character constant has multiple characters");
1.1  mrg                 p++;
1.1  mrg             }
1.1  mrg             else
1.1  mrg                 error("unterminated character constant");
1.1  mrg             t.unsvalue = '?';
1.1  mrg             return tk;
1.1  mrg         }
1.1  mrg         p++;
1.1  mrg         return tk;
1.1  mrg     }
1.1  mrg
1.1  mrg     /***************************************
1.1  mrg      * Lex C character constant.
1.1  mrg      * Parser is on the opening quote.
1.1  mrg      * Params:
1.1  mrg      *  t = token to fill in
1.1  mrg      *  prefix = one of `u`, `U` or 0.
1.1  mrg      * Reference:
1.1  mrg      *  C11 6.4.4.4
1.1  mrg      */
1.1  mrg     private void clexerCharConstant(ref Token t, char prefix)
1.1  mrg     {
1.1  mrg         escapeStringConstant(&t);
1.1  mrg         const(char)[] str = t.ustring[0 .. t.len];
1.1  mrg         const n = str.length;
1.1  mrg         const loc = t.loc;
1.1  mrg         if (n == 0)
1.1  mrg         {
1.1  mrg             error(loc, "empty character constant");
1.1  mrg             t.value = TOK.semicolon;
1.1  mrg             return;
1.1  mrg         }
1.1  mrg
1.1  mrg         uint u;
1.1  mrg         switch (prefix)
1.1  mrg         {
1.1  mrg             case 0:
1.1  mrg                 if (n == 1) // fast case
1.1  mrg                 {
1.1  mrg                     u = str[0];
1.1  mrg                 }
1.1  mrg                 else if (n > 4)
1.1  mrg                     error(loc, "max number of chars in character literal is 4, had %d",
1.1  mrg                         cast(int)n);
1.1  mrg                 else
1.1  mrg                 {
1.1  mrg                     foreach (i, c; str)
1.1  mrg                         (cast(char*)&u)[n - 1 - i] = c;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case 'u':
1.1  mrg                 dchar d1;
1.1  mrg                 size_t idx;
1.1  mrg                 auto msg = utf_decodeChar(str, idx, d1);
1.1  mrg                 dchar d2 = 0;
1.1  mrg                 if (idx < n && !msg)
1.1  mrg                     msg = utf_decodeChar(str, idx, d2);
1.1  mrg                 if (msg)
1.1  mrg                     error(loc, "%s", msg);
1.1  mrg                 else if (idx < n)
1.1  mrg                     error(loc, "max number of chars in 16 bit character literal is 2, had %d",
1.1  mrg                         (n + 1) >> 1);
1.1  mrg                 else if (d1 > 0x1_0000)
1.1  mrg                     error(loc, "%d does not fit in 16 bits", d1);
1.1  mrg                 else if (d2 > 0x1_0000)
1.1  mrg                     error(loc, "%d does not fit in 16 bits", d2);
1.1  mrg                 u = d1;
1.1  mrg                 if (d2)
1.1  mrg                     u = (d1 << 16) | d2;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case 'U':
1.1  mrg                 dchar d;
1.1  mrg                 size_t idx;
1.1  mrg                 auto msg = utf_decodeChar(str, idx, d);
1.1  mrg                 if (msg)
1.1  mrg                     error(loc, "%s", msg);
1.1  mrg                 else if (idx < n)
1.1  mrg                     error(loc, "max number of chars in 32 bit character literal is 1, had %d",
1.1  mrg                         (n + 3) >> 2);
1.1  mrg                 u = d;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             default:
1.1  mrg                 assert(0);
1.1  mrg         }
1.1  mrg         t.value = n == 1 ? TOK.charLiteral : TOK.int32Literal;
1.1  mrg         t.unsvalue = u;
1.1  mrg     }
1.1  mrg
1.1  mrg     /***************************************
1.1  mrg      * Get postfix of string literal.
1.1  mrg      */
1.1  mrg     private void stringPostfix(Token* t) pure @nogc
1.1  mrg     {
1.1  mrg         switch (*p)
1.1  mrg         {
1.1  mrg         case 'c':
1.1  mrg         case 'w':
1.1  mrg         case 'd':
1.1  mrg             t.postfix = *p;
1.1  mrg             p++;
1.1  mrg             break;
1.1  mrg         default:
1.1  mrg             t.postfix = 0;
1.1  mrg             break;
1.1  mrg         }
1.1  mrg     }
1.1  mrg
1.1  mrg     /**************************************
1.1  mrg      * Read in a number.
1.1  mrg      * If it's an integer, store it in tok.TKutok.Vlong.
1.1  mrg      *      integers can be decimal, octal or hex
1.1  mrg      *      Handle the suffixes U, UL, LU, L, etc.
1.1  mrg      * If it's double, store it in tok.TKutok.Vdouble.
1.1  mrg      * Returns:
1.1  mrg      *      TKnum
1.1  mrg      *      TKdouble,...
1.1  mrg      */
1.1  mrg     private TOK number(Token* t)
1.1  mrg     {
1.1  mrg         int base = 10;
1.1  mrg         const start = p;
1.1  mrg         uinteger_t n = 0; // unsigned >=64 bit integer type
1.1  mrg         int d;
1.1  mrg         bool err = false;
1.1  mrg         bool overflow = false;
1.1  mrg         bool anyBinaryDigitsNoSingleUS = false;
1.1  mrg         bool anyHexDigitsNoSingleUS = false;
1.1  mrg         char errorDigit = 0;
1.1  mrg         dchar c = *p;
1.1  mrg         if (c == '0')
1.1  mrg         {
1.1  mrg             ++p;
1.1  mrg             c = *p;
1.1  mrg             switch (c)
1.1  mrg             {
1.1  mrg             case '0':
1.1  mrg             case '1':
1.1  mrg             case '2':
1.1  mrg             case '3':
1.1  mrg             case '4':
1.1  mrg             case '5':
1.1  mrg             case '6':
1.1  mrg             case '7':
1.1  mrg                 base = 8;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case '8':
1.1  mrg             case '9':
1.1  mrg                 errorDigit = cast(char) c;
1.1  mrg                 base = 8;
1.1  mrg                 break;
1.1  mrg             case 'x':
1.1  mrg             case 'X':
1.1  mrg                 ++p;
1.1  mrg                 base = 16;
1.1  mrg                 break;
1.1  mrg             case 'b':
1.1  mrg             case 'B':
1.1  mrg                 if (Ccompile)
1.1  mrg                     error("binary constants not allowed");
1.1  mrg                 ++p;
1.1  mrg                 base = 2;
1.1  mrg                 break;
1.1  mrg             case '.':
1.1  mrg                 if (p[1] == '.')
1.1  mrg                     goto Ldone; // if ".."
1.1  mrg                 if (isalpha(p[1]) || p[1] == '_' || p[1] & 0x80)
1.1  mrg                 {
1.1  mrg                     if (Ccompile && (p[1] == 'f' || p[1] == 'F' || p[1] == 'l' || p[1] == 'L'))
1.1  mrg                         goto Lreal;  // if `0.f` or `0.L`
1.1  mrg                     goto Ldone; // if ".identifier" or ".unicode"
1.1  mrg                 }
1.1  mrg                 goto Lreal; // '.' is part of current token
1.1  mrg             case 'i':
1.1  mrg             case 'f':
1.1  mrg             case 'F':
1.1  mrg                 goto Lreal;
1.1  mrg             case '_':
1.1  mrg                 if (Ccompile)
1.1  mrg                     error("embedded `_` not allowed");
1.1  mrg                 ++p;
1.1  mrg                 base = 8;
1.1  mrg                 break;
1.1  mrg             case 'L':
1.1  mrg                 if (p[1] == 'i')
1.1  mrg                     goto Lreal;
1.1  mrg                 break;
1.1  mrg             default:
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg         }
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             c = *p;
1.1  mrg             switch (c)
1.1  mrg             {
1.1  mrg             case '0':
1.1  mrg             case '1':
1.1  mrg             case '2':
1.1  mrg             case '3':
1.1  mrg             case '4':
1.1  mrg             case '5':
1.1  mrg             case '6':
1.1  mrg             case '7':
1.1  mrg             case '8':
1.1  mrg             case '9':
1.1  mrg                 ++p;
1.1  mrg                 d = c - '0';
1.1  mrg                 break;
1.1  mrg             case 'a':
1.1  mrg             case 'b':
1.1  mrg             case 'c':
1.1  mrg             case 'd':
1.1  mrg             case 'e':
1.1  mrg             case 'f':
1.1  mrg             case 'A':
1.1  mrg             case 'B':
1.1  mrg             case 'C':
1.1  mrg             case 'D':
1.1  mrg             case 'E':
1.1  mrg             case 'F':
1.1  mrg                 ++p;
1.1  mrg                 if (base != 16)
1.1  mrg                 {
1.1  mrg                     if (c == 'e' || c == 'E' || c == 'f' || c == 'F')
1.1  mrg                         goto Lreal;
1.1  mrg                 }
1.1  mrg                 if (c >= 'a')
1.1  mrg                     d = c + 10 - 'a';
1.1  mrg                 else
1.1  mrg                     d = c + 10 - 'A';
1.1  mrg                 break;
1.1  mrg             case 'L':
1.1  mrg                 if (p[1] == 'i')
1.1  mrg                     goto Lreal;
1.1  mrg                 goto Ldone;
1.1  mrg             case '.':
1.1  mrg                 if (p[1] == '.')
1.1  mrg                     goto Ldone; // if ".."
1.1  mrg                 if (base <= 10 && n > 0 && (isalpha(p[1]) || p[1] == '_' || p[1] & 0x80))
1.1  mrg                 {
1.1  mrg                     if (Ccompile && base == 10 &&
1.1  mrg                         (p[1] == 'e' || p[1] == 'E' || p[1] == 'f' || p[1] == 'F' || p[1] == 'l' || p[1] == 'L'))
1.1  mrg                         goto Lreal;  // if `1.e6` or `1.f` or `1.L`
1.1  mrg                     goto Ldone; // if ".identifier" or ".unicode"
1.1  mrg                 }
1.1  mrg                 if (base == 16 && (!ishex(p[1]) || p[1] == '_' || p[1] & 0x80))
1.1  mrg                     goto Ldone; // if ".identifier" or ".unicode"
1.1  mrg                 if (base == 2)
1.1  mrg                     goto Ldone; // if ".identifier" or ".unicode"
1.1  mrg                 goto Lreal; // otherwise as part of a floating point literal
1.1  mrg             case 'p':
1.1  mrg             case 'P':
1.1  mrg             case 'i':
1.1  mrg             Lreal:
1.1  mrg                 p = start;
1.1  mrg                 return inreal(t);
1.1  mrg             case '_':
1.1  mrg                 if (Ccompile)
1.1  mrg                     goto default;
1.1  mrg                 ++p;
1.1  mrg                 continue;
1.1  mrg             default:
1.1  mrg                 goto Ldone;
1.1  mrg             }
1.1  mrg             // got a digit here, set any necessary flags, check for errors
1.1  mrg             anyHexDigitsNoSingleUS = true;
1.1  mrg             anyBinaryDigitsNoSingleUS = true;
1.1  mrg             if (!errorDigit && d >= base)
1.1  mrg             {
1.1  mrg                 errorDigit = cast(char) c;
1.1  mrg             }
1.1  mrg             // Avoid expensive overflow check if we aren't at risk of overflow
1.1  mrg             if (n <= 0x0FFF_FFFF_FFFF_FFFFUL)
1.1  mrg                 n = n * base + d;
1.1  mrg             else
1.1  mrg             {
1.1  mrg                 import core.checkedint : mulu, addu;
1.1  mrg
1.1  mrg                 n = mulu(n, base, overflow);
1.1  mrg                 n = addu(n, d, overflow);
1.1  mrg             }
1.1  mrg         }
1.1  mrg     Ldone:
1.1  mrg         if (errorDigit)
1.1  mrg         {
1.1  mrg             error("%s digit expected, not `%c`", base == 2 ? "binary".ptr :
1.1  mrg                                                  base == 8 ? "octal".ptr :
1.1  mrg                                                  "decimal".ptr, errorDigit);
1.1  mrg             err = true;
1.1  mrg         }
1.1  mrg         if (overflow && !err)
1.1  mrg         {
1.1  mrg             error("integer overflow");
1.1  mrg             err = true;
1.1  mrg         }
1.1  mrg         if ((base == 2 && !anyBinaryDigitsNoSingleUS) ||
1.1  mrg             (base == 16 && !anyHexDigitsNoSingleUS))
1.1  mrg             error("`%.*s` isn't a valid integer literal, use `%.*s0` instead", cast(int)(p - start), start, 2, start);
1.1  mrg
1.1  mrg         t.unsvalue = n;
1.1  mrg
1.1  mrg         if (Ccompile)
1.1  mrg             return cnumber(base, n);
1.1  mrg
1.1  mrg         enum FLAGS : int
1.1  mrg         {
1.1  mrg             none = 0,
1.1  mrg             decimal = 1, // decimal
1.1  mrg             unsigned = 2, // u or U suffix
1.1  mrg             long_ = 4, // L suffix
1.1  mrg         }
1.1  mrg
1.1  mrg         FLAGS flags = (base == 10) ? FLAGS.decimal : FLAGS.none;
1.1  mrg         // Parse trailing 'u', 'U', 'l' or 'L' in any combination
1.1  mrg         const psuffix = p;
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             FLAGS f;
1.1  mrg             switch (*p)
1.1  mrg             {
1.1  mrg             case 'U':
1.1  mrg             case 'u':
1.1  mrg                 f = FLAGS.unsigned;
1.1  mrg                 goto L1;
1.1  mrg             case 'l':
1.1  mrg                 f = FLAGS.long_;
1.1  mrg                 error("lower case integer suffix 'l' is not allowed. Please use 'L' instead");
1.1  mrg                 goto L1;
1.1  mrg             case 'L':
1.1  mrg                 f = FLAGS.long_;
1.1  mrg             L1:
1.1  mrg                 p++;
1.1  mrg                 if ((flags & f) && !err)
1.1  mrg                 {
1.1  mrg                     error("unrecognized token");
1.1  mrg                     err = true;
1.1  mrg                 }
1.1  mrg                 flags = cast(FLAGS)(flags | f);
1.1  mrg                 continue;
1.1  mrg             default:
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         }
1.1  mrg         if (base == 8 && n >= 8)
1.1  mrg         {
1.1  mrg             if (err)
1.1  mrg                 // can't translate invalid octal value, just show a generic message
1.1  mrg                 error("octal literals larger than 7 are no longer supported");
1.1  mrg             else
1.1  mrg                 error("octal literals `0%llo%.*s` are no longer supported, use `std.conv.octal!\"%llo%.*s\"` instead",
1.1  mrg                     n, cast(int)(p - psuffix), psuffix, n, cast(int)(p - psuffix), psuffix);
1.1  mrg         }
1.1  mrg         TOK result;
1.1  mrg         switch (flags)
1.1  mrg         {
1.1  mrg         case FLAGS.none:
1.1  mrg             /* Octal or Hexadecimal constant.
1.1  mrg              * First that fits: int, uint, long, ulong
1.1  mrg              */
1.1  mrg             if (n & 0x8000000000000000L)
1.1  mrg                 result = TOK.uns64Literal;
1.1  mrg             else if (n & 0xFFFFFFFF00000000L)
1.1  mrg                 result = TOK.int64Literal;
1.1  mrg             else if (n & 0x80000000)
1.1  mrg                 result = TOK.uns32Literal;
1.1  mrg             else
1.1  mrg                 result = TOK.int32Literal;
1.1  mrg             break;
1.1  mrg         case FLAGS.decimal:
1.1  mrg             /* First that fits: int, long, long long
1.1  mrg              */
1.1  mrg             if (n & 0x8000000000000000L)
1.1  mrg             {
1.1  mrg                 result = TOK.uns64Literal;
1.1  mrg             }
1.1  mrg             else if (n & 0xFFFFFFFF80000000L)
1.1  mrg                 result = TOK.int64Literal;
1.1  mrg             else
1.1  mrg                 result = TOK.int32Literal;
1.1  mrg             break;
1.1  mrg         case FLAGS.unsigned:
1.1  mrg         case FLAGS.decimal | FLAGS.unsigned:
1.1  mrg             /* First that fits: uint, ulong
1.1  mrg              */
1.1  mrg             if (n & 0xFFFFFFFF00000000L)
1.1  mrg                 result = TOK.uns64Literal;
1.1  mrg             else
1.1  mrg                 result = TOK.uns32Literal;
1.1  mrg             break;
1.1  mrg         case FLAGS.decimal | FLAGS.long_:
1.1  mrg             if (n & 0x8000000000000000L)
1.1  mrg             {
1.1  mrg                 if (!err)
1.1  mrg                 {
1.1  mrg                     error("signed integer overflow");
1.1  mrg                     err = true;
1.1  mrg                 }
1.1  mrg                 result = TOK.uns64Literal;
1.1  mrg             }
1.1  mrg             else
1.1  mrg                 result = TOK.int64Literal;
1.1  mrg             break;
1.1  mrg         case FLAGS.long_:
1.1  mrg             if (n & 0x8000000000000000L)
1.1  mrg                 result = TOK.uns64Literal;
1.1  mrg             else
1.1  mrg                 result = TOK.int64Literal;
1.1  mrg             break;
1.1  mrg         case FLAGS.unsigned | FLAGS.long_:
1.1  mrg         case FLAGS.decimal | FLAGS.unsigned | FLAGS.long_:
1.1  mrg             result = TOK.uns64Literal;
1.1  mrg             break;
1.1  mrg         default:
1.1  mrg             debug
1.1  mrg             {
1.1  mrg                 printf("%x\n", flags);
1.1  mrg             }
1.1  mrg             assert(0);
1.1  mrg         }
1.1  mrg         return result;
1.1  mrg     }
1.1  mrg
1.1  mrg     /**************************************
1.1  mrg      * Lex C integer-suffix
1.1  mrg      * Params:
1.1  mrg      *  base = number base
1.1  mrg      *  n = raw integer value
1.1  mrg      * Returns:
1.1  mrg      *  token value
1.1  mrg      */
1.1  mrg     private TOK cnumber(int base, uinteger_t n)
1.1  mrg     {
1.1  mrg         /* C11 6.4.4.1
1.1  mrg          * Parse trailing suffixes:
1.1  mrg          *   u or U
1.1  mrg          *   l or L
1.1  mrg          *   ll or LL
1.1  mrg          */
1.1  mrg         enum FLAGS : uint
1.1  mrg         {
1.1  mrg             octalhex = 1, // octal or hexadecimal
1.1  mrg             decimal  = 2, // decimal
1.1  mrg             unsigned = 4, // u or U suffix
1.1  mrg             long_    = 8, // l or L suffix
1.1  mrg             llong    = 0x10 // ll or LL
1.1  mrg         }
1.1  mrg         FLAGS flags = (base == 10) ? FLAGS.decimal : FLAGS.octalhex;
1.1  mrg         bool err;
1.1  mrg     Lsuffixes:
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             FLAGS f;
1.1  mrg             const cs = *p;
1.1  mrg             switch (cs)
1.1  mrg             {
1.1  mrg                 case 'U':
1.1  mrg                 case 'u':
1.1  mrg                     f = FLAGS.unsigned;
1.1  mrg                     break;
1.1  mrg
1.1  mrg                 case 'l':
1.1  mrg                 case 'L':
1.1  mrg                     f = FLAGS.long_;
1.1  mrg                     if (cs == p[1])
1.1  mrg                     {
1.1  mrg                         f = FLAGS.long_ | FLAGS.llong;
1.1  mrg                         ++p;
1.1  mrg                     }
1.1  mrg                     break;
1.1  mrg
1.1  mrg                 default:
1.1  mrg                     break Lsuffixes;
1.1  mrg             }
1.1  mrg             ++p;
1.1  mrg             if ((flags & f) && !err)
1.1  mrg             {
1.1  mrg                 error("duplicate integer suffixes");
1.1  mrg                 err = true;
1.1  mrg             }
1.1  mrg             flags = cast(FLAGS)(flags | f);
1.1  mrg         }
1.1  mrg
1.1  mrg         TOK result = TOK.int32Literal;     // default
1.1  mrg         switch (flags)
1.1  mrg         {
1.1  mrg             /* Since D doesn't have a variable sized `long` or `unsigned long` type,
1.1  mrg              * this code deviates from C by picking D int, uint, long, or ulong instead
1.1  mrg              */
1.1  mrg
1.1  mrg             case FLAGS.octalhex:
1.1  mrg                 /* Octal or Hexadecimal constant.
1.1  mrg                  * First that fits: int, unsigned, long, unsigned long,
1.1  mrg                  * long long, unsigned long long
1.1  mrg                  */
1.1  mrg                 if (n & 0x8000000000000000L)
1.1  mrg                     result = TOK.uns64Literal;      // unsigned long
1.1  mrg                 else if (n & 0xFFFFFFFF00000000L)
1.1  mrg                     result = TOK.int64Literal;      // long
1.1  mrg                 else if (n & 0x80000000)
1.1  mrg                     result = TOK.uns32Literal;
1.1  mrg                 else
1.1  mrg                     result = TOK.int32Literal;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.decimal:
1.1  mrg                 /* First that fits: int, long, long long
1.1  mrg                  */
1.1  mrg                 if (n & 0x8000000000000000L)
1.1  mrg                     result = TOK.uns64Literal;      // unsigned long
1.1  mrg                 else if (n & 0xFFFFFFFF80000000L)
1.1  mrg                     result = TOK.int64Literal;      // long
1.1  mrg                 else
1.1  mrg                     result = TOK.int32Literal;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.octalhex | FLAGS.unsigned:
1.1  mrg             case FLAGS.decimal | FLAGS.unsigned:
1.1  mrg                 /* First that fits: unsigned, unsigned long, unsigned long long
1.1  mrg                  */
1.1  mrg                 if (n & 0xFFFFFFFF00000000L)
1.1  mrg                     result = TOK.uns64Literal;      // unsigned long
1.1  mrg                 else
1.1  mrg                     result = TOK.uns32Literal;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.decimal | FLAGS.long_:
1.1  mrg                 /* First that fits: long, long long
1.1  mrg                  */
1.1  mrg                 if (longsize == 4 || long_longsize == 4)
1.1  mrg                 {
1.1  mrg                     if (n & 0xFFFFFFFF_80000000L)
1.1  mrg                         result = TOK.int64Literal;
1.1  mrg                     else
1.1  mrg                         result = TOK.int32Literal;  // long
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                 {
1.1  mrg                     result = TOK.int64Literal;      // long
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.octalhex | FLAGS.long_:
1.1  mrg                 /* First that fits: long, unsigned long, long long,
1.1  mrg                  * unsigned long long
1.1  mrg                  */
1.1  mrg                 if (longsize == 4 || long_longsize == 4)
1.1  mrg                 {
1.1  mrg                     if (n & 0x8000000000000000L)
1.1  mrg                         result = TOK.uns64Literal;
1.1  mrg                     else if (n & 0xFFFFFFFF00000000L)
1.1  mrg                         result = TOK.int64Literal;
1.1  mrg                     else if (n & 0x80000000)
1.1  mrg                         result = TOK.uns32Literal;      // unsigned long
1.1  mrg                     else
1.1  mrg                         result = TOK.int32Literal;      // long
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                 {
1.1  mrg                     if (n & 0x80000000_00000000L)
1.1  mrg                         result = TOK.uns64Literal;      // unsigned long
1.1  mrg                     else
1.1  mrg                         result = TOK.int64Literal;      // long
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.octalhex | FLAGS.unsigned | FLAGS.long_:
1.1  mrg             case FLAGS.decimal  | FLAGS.unsigned | FLAGS.long_:
1.1  mrg                 /* First that fits: unsigned long, unsigned long long
1.1  mrg                  */
1.1  mrg                 if (longsize == 4 || long_longsize == 4)
1.1  mrg                 {
1.1  mrg                     if (n & 0xFFFFFFFF00000000L)
1.1  mrg                         result = TOK.uns64Literal;
1.1  mrg                     else
1.1  mrg                         result = TOK.uns32Literal;      // unsigned long
1.1  mrg                 }
1.1  mrg                 else
1.1  mrg                 {
1.1  mrg                     result = TOK.uns64Literal;  // unsigned long
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.octalhex | FLAGS.long_ | FLAGS.llong:
1.1  mrg                 /* First that fits: long long, unsigned long long
1.1  mrg                  */
1.1  mrg                 if (n & 0x8000000000000000L)
1.1  mrg                     result = TOK.uns64Literal;
1.1  mrg                 else
1.1  mrg                     result = TOK.int64Literal;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.decimal | FLAGS.long_ | FLAGS.llong:
1.1  mrg                 /* long long
1.1  mrg                  */
1.1  mrg                 result = TOK.int64Literal;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case FLAGS.octalhex | FLAGS.long_ | FLAGS.unsigned | FLAGS.llong:
1.1  mrg             case FLAGS.decimal  | FLAGS.long_ | FLAGS.unsigned | FLAGS.llong:
1.1  mrg                 result = TOK.uns64Literal;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             default:
1.1  mrg                 debug printf("%x\n",flags);
1.1  mrg                 assert(0);
1.1  mrg         }
1.1  mrg         return result;
1.1  mrg     }
1.1  mrg
1.1  mrg     /**************************************
1.1  mrg      * Read in characters, converting them to real.
1.1  mrg      * Bugs:
1.1  mrg      *      Exponent overflow not detected.
1.1  mrg      *      Too much requested precision is not detected.
1.1  mrg      */
1.1  mrg     private TOK inreal(Token* t)
1.1  mrg     {
1.1  mrg         //printf("Lexer::inreal()\n");
1.1  mrg         debug
1.1  mrg         {
1.1  mrg             assert(*p == '.' || isdigit(*p));
1.1  mrg         }
1.1  mrg         bool isWellformedString = true;
1.1  mrg         stringbuffer.setsize(0);
1.1  mrg         auto pstart = p;
1.1  mrg         bool hex = false;
1.1  mrg         dchar c = *p++;
1.1  mrg         // Leading '0x'
1.1  mrg         if (c == '0')
1.1  mrg         {
1.1  mrg             c = *p++;
1.1  mrg             if (c == 'x' || c == 'X')
1.1  mrg             {
1.1  mrg                 hex = true;
1.1  mrg                 c = *p++;
1.1  mrg             }
1.1  mrg         }
1.1  mrg         // Digits to left of '.'
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             if (c == '.')
1.1  mrg             {
1.1  mrg                 c = *p++;
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             if (isdigit(c) || (hex && isxdigit(c)) || c == '_')
1.1  mrg             {
1.1  mrg                 c = *p++;
1.1  mrg                 continue;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         }
1.1  mrg         // Digits to right of '.'
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             if (isdigit(c) || (hex && isxdigit(c)) || c == '_')
1.1  mrg             {
1.1  mrg                 c = *p++;
1.1  mrg                 continue;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         }
1.1  mrg         if (c == 'e' || c == 'E' || (hex && (c == 'p' || c == 'P')))
1.1  mrg         {
1.1  mrg             c = *p++;
1.1  mrg             if (c == '-' || c == '+')
1.1  mrg             {
1.1  mrg                 c = *p++;
1.1  mrg             }
1.1  mrg             bool anyexp = false;
1.1  mrg             while (1)
1.1  mrg             {
1.1  mrg                 if (isdigit(c))
1.1  mrg                 {
1.1  mrg                     anyexp = true;
1.1  mrg                     c = *p++;
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 if (c == '_')
1.1  mrg                 {
1.1  mrg                     if (Ccompile)
1.1  mrg                         error("embedded `_` in numeric literals not allowed");
1.1  mrg                     c = *p++;
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 if (!anyexp)
1.1  mrg                 {
1.1  mrg                     error("missing exponent");
1.1  mrg                     isWellformedString = false;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg         }
1.1  mrg         else if (hex)
1.1  mrg         {
1.1  mrg             error("exponent required for hex float");
1.1  mrg             isWellformedString = false;
1.1  mrg         }
1.1  mrg         --p;
1.1  mrg         while (pstart < p)
1.1  mrg         {
1.1  mrg             if (*pstart != '_')
1.1  mrg                 stringbuffer.writeByte(*pstart);
1.1  mrg             ++pstart;
1.1  mrg         }
1.1  mrg         stringbuffer.writeByte(0);
1.1  mrg         auto sbufptr = cast(const(char)*)stringbuffer[].ptr;
1.1  mrg         TOK result;
1.1  mrg         bool isOutOfRange = false;
1.1  mrg         t.floatvalue = (isWellformedString ? CTFloat.parse(sbufptr, &isOutOfRange) : CTFloat.zero);
1.1  mrg         switch (*p)
1.1  mrg         {
1.1  mrg         case 'F':
1.1  mrg         case 'f':
1.1  mrg             if (isWellformedString && !isOutOfRange)
1.1  mrg                 isOutOfRange = Port.isFloat32LiteralOutOfRange(sbufptr);
1.1  mrg             result = TOK.float32Literal;
1.1  mrg             p++;
1.1  mrg             break;
1.1  mrg         default:
1.1  mrg             if (isWellformedString && !isOutOfRange)
1.1  mrg                 isOutOfRange = Port.isFloat64LiteralOutOfRange(sbufptr);
1.1  mrg             result = TOK.float64Literal;
1.1  mrg             break;
1.1  mrg         case 'l':
1.1  mrg             if (!Ccompile)
1.1  mrg                 error("use 'L' suffix instead of 'l'");
1.1  mrg             goto case 'L';
1.1  mrg         case 'L':
1.1  mrg             ++p;
1.1  mrg             if (Ccompile && long_doublesize == 8)
1.1  mrg                 goto default;
1.1  mrg             result = TOK.float80Literal;
1.1  mrg             break;
1.1  mrg         }
1.1  mrg         if ((*p == 'i' || *p == 'I') && !Ccompile)
1.1  mrg         {
1.1  mrg             if (*p == 'I')
1.1  mrg                 error("use 'i' suffix instead of 'I'");
1.1  mrg             p++;
1.1  mrg             switch (result)
1.1  mrg             {
1.1  mrg             case TOK.float32Literal:
1.1  mrg                 result = TOK.imaginary32Literal;
1.1  mrg                 break;
1.1  mrg             case TOK.float64Literal:
1.1  mrg                 result = TOK.imaginary64Literal;
1.1  mrg                 break;
1.1  mrg             case TOK.float80Literal:
1.1  mrg                 result = TOK.imaginary80Literal;
1.1  mrg                 break;
1.1  mrg             default:
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg         }
1.1  mrg         const isLong = (result == TOK.float80Literal || result == TOK.imaginary80Literal);
1.1  mrg         if (isOutOfRange && !isLong && (!Ccompile || hex))
1.1  mrg         {
1.1  mrg             /* C11 6.4.4.2 doesn't actually care if it is not representable if it is not hex
1.1  mrg              */
1.1  mrg             const char* suffix = (result == TOK.float32Literal || result == TOK.imaginary32Literal) ? "f" : "";
1.1  mrg             error(scanloc, "number `%s%s` is not representable", sbufptr, suffix);
1.1  mrg         }
1.1  mrg         debug
1.1  mrg         {
1.1  mrg             switch (result)
1.1  mrg             {
1.1  mrg             case TOK.float32Literal:
1.1  mrg             case TOK.float64Literal:
1.1  mrg             case TOK.float80Literal:
1.1  mrg             case TOK.imaginary32Literal:
1.1  mrg             case TOK.imaginary64Literal:
1.1  mrg             case TOK.imaginary80Literal:
1.1  mrg                 break;
1.1  mrg             default:
1.1  mrg                 assert(0);
1.1  mrg             }
1.1  mrg         }
1.1  mrg         return result;
1.1  mrg     }
1.1  mrg
1.1  mrg     final Loc loc() pure @nogc
1.1  mrg     {
1.1  mrg         scanloc.charnum = cast(uint)(1 + p - line);
1.1  mrg         version (LocOffset)
1.1  mrg             scanloc.fileOffset = cast(uint)(p - base);
1.1  mrg         return scanloc;
1.1  mrg     }
1.1  mrg
1.1  mrg     final void error(const(char)* format, ...)
1.1  mrg     {
1.1  mrg         va_list args;
1.1  mrg         va_start(args, format);
1.1  mrg         .verror(token.loc, format, args);
1.1  mrg         va_end(args);
1.1  mrg     }
1.1  mrg
1.1  mrg     final void error(const ref Loc loc, const(char)* format, ...)
1.1  mrg     {
1.1  mrg         va_list args;
1.1  mrg         va_start(args, format);
1.1  mrg         .verror(loc, format, args);
1.1  mrg         va_end(args);
1.1  mrg     }
1.1  mrg
1.1  mrg     final void deprecation(const(char)* format, ...)
1.1  mrg     {
1.1  mrg         va_list args;
1.1  mrg         va_start(args, format);
1.1  mrg         .vdeprecation(token.loc, format, args);
1.1  mrg         va_end(args);
1.1  mrg     }
1.1  mrg
1.1  mrg     /***************************************
1.1  mrg      * Parse special token sequence:
1.1  mrg      * Returns:
1.1  mrg      *  true if the special token sequence was handled
1.1  mrg      * References:
1.1  mrg      *  https://dlang.org/spec/lex.html#special-token-sequence
1.1  mrg      */
1.1  mrg     bool parseSpecialTokenSequence()
1.1  mrg     {
1.1  mrg         Token n;
1.1  mrg         scan(&n);
1.1  mrg         if (n.value == TOK.identifier)
1.1  mrg         {
1.1  mrg             if (n.ident == Id.line)
1.1  mrg             {
1.1  mrg                 poundLine(n, false);
1.1  mrg                 return true;
1.1  mrg             }
1.1  mrg             else
1.1  mrg             {
1.1  mrg                 const locx = loc();
1.1  mrg                 warning(locx, "C preprocessor directive `#%s` is not supported", n.ident.toChars());
1.1  mrg             }
1.1  mrg         }
1.1  mrg         else if (n.value == TOK.if_)
1.1  mrg         {
1.1  mrg             error("C preprocessor directive `#if` is not supported, use `version` or `static if`");
1.1  mrg         }
1.1  mrg         return false;
1.1  mrg     }
1.1  mrg
1.1  mrg     /*********************************************
1.1  mrg      * Parse line/file preprocessor directive:
1.1  mrg      *    #line linnum [filespec]
1.1  mrg      * Allow __LINE__ for linnum, and __FILE__ for filespec.
1.1  mrg      * Accept linemarker format:
1.1  mrg      *    # linnum [filespec] {flags}
1.1  mrg      * There can be zero or more flags, which are one of the digits 1..4, and
1.1  mrg      * must be in ascending order. The flags are ignored.
1.1  mrg      * Params:
1.1  mrg      *  tok = token we're on, which is linnum of linemarker
1.1  mrg      *  linemarker = true if line marker format and lexer is on linnum
1.1  mrg      * References:
1.1  mrg      *  linemarker https://gcc.gnu.org/onlinedocs/gcc-11.1.0/cpp/Preprocessor-Output.html
1.1  mrg      */
1.1  mrg     final void poundLine(ref Token tok, bool linemarker)
1.1  mrg     {
1.1  mrg         auto linnum = this.scanloc.linnum;
1.1  mrg         const(char)* filespec = null;
1.1  mrg         bool flags;
1.1  mrg
1.1  mrg         if (!linemarker)
1.1  mrg             scan(&tok);
1.1  mrg         if (tok.value == TOK.int32Literal || tok.value == TOK.int64Literal)
1.1  mrg         {
1.1  mrg             const lin = cast(int)(tok.unsvalue);
1.1  mrg             if (lin != tok.unsvalue)
1.1  mrg             {
1.1  mrg                 error(tok.loc, "line number `%lld` out of range", cast(ulong)tok.unsvalue);
1.1  mrg                 skipToNextLine();
1.1  mrg                 return;
1.1  mrg             }
1.1  mrg             else
1.1  mrg                 linnum = lin;
1.1  mrg         }
1.1  mrg         else if (tok.value == TOK.line)  // #line __LINE__
1.1  mrg         {
1.1  mrg         }
1.1  mrg         else
1.1  mrg         {
1.1  mrg             error(tok.loc, "positive integer argument expected following `#line`");
1.1  mrg             if (tok.value != TOK.endOfLine)
1.1  mrg                 skipToNextLine();
1.1  mrg             return;
1.1  mrg         }
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             scan(&tok);
1.1  mrg             switch (tok.value)
1.1  mrg             {
1.1  mrg             case TOK.endOfFile:
1.1  mrg             case TOK.endOfLine:
1.1  mrg                 if (!inTokenStringConstant)
1.1  mrg                 {
1.1  mrg                     this.scanloc.linnum = linnum;
1.1  mrg                     if (filespec)
1.1  mrg                         this.scanloc.filename = filespec;
1.1  mrg                 }
1.1  mrg                 return;
1.1  mrg             case TOK.file:
1.1  mrg                 if (filespec || flags)
1.1  mrg                     goto Lerr;
1.1  mrg                 filespec = mem.xstrdup(scanloc.filename);
1.1  mrg                 continue;
1.1  mrg             case TOK.string_:
1.1  mrg                 if (filespec || flags)
1.1  mrg                     goto Lerr;
1.1  mrg                 if (tok.ptr[0] != '"' || tok.postfix != 0)
1.1  mrg                     goto Lerr;
1.1  mrg                 filespec = tok.ustring;
1.1  mrg                 continue;
1.1  mrg             case TOK.int32Literal:
1.1  mrg                 if (!filespec)
1.1  mrg                     goto Lerr;
1.1  mrg                 if (linemarker && tok.unsvalue >= 1 && tok.unsvalue <= 4)
1.1  mrg                 {
1.1  mrg                     flags = true;   // linemarker flags seen
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 goto Lerr;
1.1  mrg             default:
1.1  mrg                 goto Lerr;
1.1  mrg             }
1.1  mrg         }
1.1  mrg     Lerr:
1.1  mrg         if (filespec is null)
1.1  mrg             error(tok.loc, "invalid filename for `#line` directive");
1.1  mrg         else if (linemarker)
1.1  mrg             error(tok.loc, "invalid flag for line marker directive");
1.1  mrg         else if (!Ccompile)
1.1  mrg             error(tok.loc, "found `%s` when expecting new line following `#line` directive", tok.toChars());
1.1  mrg         if (tok.value != TOK.endOfLine)
1.1  mrg             skipToNextLine();
1.1  mrg     }
1.1  mrg
1.1  mrg     /***************************************
1.1  mrg      * Scan forward to start of next line.
1.1  mrg      */
1.1  mrg     final void skipToNextLine()
1.1  mrg     {
1.1  mrg         while (1)
1.1  mrg         {
1.1  mrg             switch (*p)
1.1  mrg             {
1.1  mrg             case 0:
1.1  mrg             case 0x1A:
1.1  mrg                 return; // do not advance p
1.1  mrg
1.1  mrg             case '\n':
1.1  mrg                 ++p;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case '\r':
1.1  mrg                 ++p;
1.1  mrg                 if (p[0] == '\n')
1.1  mrg                    ++p;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             default:
1.1  mrg                 if (*p & 0x80)
1.1  mrg                 {
1.1  mrg                     const u = decodeUTF();
1.1  mrg                     if (u == PS || u == LS)
1.1  mrg                     {
1.1  mrg                         ++p;
1.1  mrg                         break;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 ++p;
1.1  mrg                 continue;
1.1  mrg             }
1.1  mrg             break;
1.1  mrg         }
1.1  mrg         endOfLine();
1.1  mrg         tokenizeNewlines = false;
1.1  mrg     }
1.1  mrg
1.1  mrg     /********************************************
1.1  mrg      * Decode UTF character.
1.1  mrg      * Issue error messages for invalid sequences.
1.1  mrg      * Return decoded character, advance p to last character in UTF sequence.
1.1  mrg      */
1.1  mrg     private uint decodeUTF()
1.1  mrg     {
1.1  mrg         const s = p;
1.1  mrg         assert(*s & 0x80);
1.1  mrg         // Check length of remaining string up to 4 UTF-8 characters
1.1  mrg         size_t len;
1.1  mrg         for (len = 1; len < 4 && s[len]; len++)
1.1  mrg         {
1.1  mrg         }
1.1  mrg         size_t idx = 0;
1.1  mrg         dchar u;
1.1  mrg         const msg = utf_decodeChar(s[0 .. len], idx, u);
1.1  mrg         p += idx - 1;
1.1  mrg         if (msg)
1.1  mrg         {
1.1  mrg             error("%.*s", cast(int)msg.length, msg.ptr);
1.1  mrg         }
1.1  mrg         return u;
1.1  mrg     }
1.1  mrg
1.1  mrg     /***************************************************
1.1  mrg      * Parse doc comment embedded between t.ptr and p.
1.1  mrg      * Remove trailing blanks and tabs from lines.
1.1  mrg      * Replace all newlines with \n.
1.1  mrg      * Remove leading comment character from each line.
1.1  mrg      * Decide if it's a lineComment or a blockComment.
1.1  mrg      * Append to previous one for this token.
1.1  mrg      *
1.1  mrg      * If newParagraph is true, an extra newline will be
1.1  mrg      * added between adjoining doc comments.
1.1  mrg      */
1.1  mrg     private void getDocComment(Token* t, uint lineComment, bool newParagraph) pure
1.1  mrg     {
1.1  mrg         /* ct tells us which kind of comment it is: '/', '*', or '+'
1.1  mrg          */
1.1  mrg         const ct = t.ptr[2];
1.1  mrg         /* Start of comment text skips over / * *, / + +, or / / /
1.1  mrg          */
1.1  mrg         const(char)* q = t.ptr + 3; // start of comment text
1.1  mrg         const(char)* qend = p;
1.1  mrg         if (ct == '*' || ct == '+')
1.1  mrg             qend -= 2;
1.1  mrg         /* Scan over initial row of ****'s or ++++'s or ////'s
1.1  mrg          */
1.1  mrg         for (; q < qend; q++)
1.1  mrg         {
1.1  mrg             if (*q != ct)
1.1  mrg                 break;
1.1  mrg         }
1.1  mrg         /* Remove leading spaces until start of the comment
1.1  mrg          */
1.1  mrg         int linestart = 0;
1.1  mrg         if (ct == '/')
1.1  mrg         {
1.1  mrg             while (q < qend && (*q == ' ' || *q == '\t'))
1.1  mrg                 ++q;
1.1  mrg         }
1.1  mrg         else if (q < qend)
1.1  mrg         {
1.1  mrg             if (*q == '\r')
1.1  mrg             {
1.1  mrg                 ++q;
1.1  mrg                 if (q < qend && *q == '\n')
1.1  mrg                     ++q;
1.1  mrg                 linestart = 1;
1.1  mrg             }
1.1  mrg             else if (*q == '\n')
1.1  mrg             {
1.1  mrg                 ++q;
1.1  mrg                 linestart = 1;
1.1  mrg             }
1.1  mrg         }
1.1  mrg         /* Remove trailing row of ****'s or ++++'s
1.1  mrg          */
1.1  mrg         if (ct != '/')
1.1  mrg         {
1.1  mrg             for (; q < qend; qend--)
1.1  mrg             {
1.1  mrg                 if (qend[-1] != ct)
1.1  mrg                     break;
1.1  mrg             }
1.1  mrg         }
1.1  mrg         /* Comment is now [q .. qend].
1.1  mrg          * Canonicalize it into buf[].
1.1  mrg          */
1.1  mrg         OutBuffer buf;
1.1  mrg
1.1  mrg         void trimTrailingWhitespace()
1.1  mrg         {
1.1  mrg             const s = buf[];
1.1  mrg             auto len = s.length;
1.1  mrg             while (len && (s[len - 1] == ' ' || s[len - 1] == '\t'))
1.1  mrg                 --len;
1.1  mrg             buf.setsize(len);
1.1  mrg         }
1.1  mrg
1.1  mrg         for (; q < qend; q++)
1.1  mrg         {
1.1  mrg             char c = *q;
1.1  mrg             switch (c)
1.1  mrg             {
1.1  mrg             case '*':
1.1  mrg             case '+':
1.1  mrg                 if (linestart && c == ct)
1.1  mrg                 {
1.1  mrg                     linestart = 0;
1.1  mrg                     /* Trim preceding whitespace up to preceding \n
1.1  mrg                      */
1.1  mrg                     trimTrailingWhitespace();
1.1  mrg                     continue;
1.1  mrg                 }
1.1  mrg                 break;
1.1  mrg             case ' ':
1.1  mrg             case '\t':
1.1  mrg                 break;
1.1  mrg             case '\r':
1.1  mrg                 if (q[1] == '\n')
1.1  mrg                     continue; // skip the \r
1.1  mrg                 goto Lnewline;
1.1  mrg             default:
1.1  mrg                 if (c == 226)
1.1  mrg                 {
1.1  mrg                     // If LS or PS
1.1  mrg                     if (q[1] == 128 && (q[2] == 168 || q[2] == 169))
1.1  mrg                     {
1.1  mrg                         q += 2;
1.1  mrg                         goto Lnewline;
1.1  mrg                     }
1.1  mrg                 }
1.1  mrg                 linestart = 0;
1.1  mrg                 break;
1.1  mrg             Lnewline:
1.1  mrg                 c = '\n'; // replace all newlines with \n
1.1  mrg                 goto case;
1.1  mrg             case '\n':
1.1  mrg                 linestart = 1;
1.1  mrg                 /* Trim trailing whitespace
1.1  mrg                  */
1.1  mrg                 trimTrailingWhitespace();
1.1  mrg                 break;
1.1  mrg             }
1.1  mrg             buf.writeByte(c);
1.1  mrg         }
1.1  mrg         /* Trim trailing whitespace (if the last line does not have newline)
1.1  mrg          */
1.1  mrg         trimTrailingWhitespace();
1.1  mrg
1.1  mrg         // Always end with a newline
1.1  mrg         const s = buf[];
1.1  mrg         if (s.length == 0 || s[$ - 1] != '\n')
1.1  mrg             buf.writeByte('\n');
1.1  mrg
1.1  mrg         // It's a line comment if the start of the doc comment comes
1.1  mrg         // after other non-whitespace on the same line.
1.1  mrg         auto dc = (lineComment && anyToken) ? &t.lineComment : &t.blockComment;
1.1  mrg         // Combine with previous doc comment, if any
1.1  mrg         if (*dc)
1.1  mrg             *dc = combineComments(*dc, buf[], newParagraph).toDString();
1.1  mrg         else
1.1  mrg             *dc = buf.extractSlice(true);
1.1  mrg     }
1.1  mrg
1.1  mrg     /********************************************
1.1  mrg      * Combine two document comments into one,
1.1  mrg      * separated by an extra newline if newParagraph is true.
1.1  mrg      */
1.1  mrg     static const(char)* combineComments(const(char)[] c1, const(char)[] c2, bool newParagraph) pure
1.1  mrg     {
1.1  mrg         //debug printf("Lexer::combineComments('%*.s', '%*.s', '%i')\n", cast(int) c1.length, c1.ptr, cast(int) c2.length, c2.ptr, newParagraph);
1.1  mrg         const(int) newParagraphSize = newParagraph ? 1 : 0; // Size of the combining '\n'
1.1  mrg         if (!c1)
1.1  mrg             return c2.ptr;
1.1  mrg         if (!c2)
1.1  mrg             return c1.ptr;
1.1  mrg
1.1  mrg         int insertNewLine = 0;
1.1  mrg         if (c1.length && c1[$ - 1] != '\n')
1.1  mrg             insertNewLine = 1;
1.1  mrg         const retSize = c1.length + insertNewLine + newParagraphSize + c2.length;
1.1  mrg         auto p = cast(char*)mem.xmalloc_noscan(retSize + 1);
1.1  mrg         p[0 .. c1.length] = c1[];
1.1  mrg         if (insertNewLine)
1.1  mrg             p[c1.length] = '\n';
1.1  mrg         if (newParagraph)
1.1  mrg             p[c1.length + insertNewLine] = '\n';
1.1  mrg         p[retSize - c2.length .. retSize] = c2[];
1.1  mrg         p[retSize] = 0;
1.1  mrg         return p;
1.1  mrg     }
1.1  mrg
1.1  mrg     /**************************
1.1  mrg      * `p` should be at start of next line
1.1  mrg      */
1.1  mrg     private void endOfLine() pure @nogc @safe
1.1  mrg     {
1.1  mrg         scanloc.linnum++;
1.1  mrg         line = p;
1.1  mrg     }
1.1  mrg }
1.1  mrg
1.1  mrg
1.1  mrg /******************************* Private *****************************************/
1.1  mrg
1.1  mrg private:
1.1  mrg
1.1  mrg /// Support for `__DATE__`, `__TIME__`, and `__TIMESTAMP__`
1.1  mrg private struct TimeStampInfo
1.1  mrg {
1.1  mrg     private __gshared bool initdone = false;
1.1  mrg
1.1  mrg     // Note: Those properties need to be guarded by a call to `init`
1.1  mrg     // The API isn't safe, and quite brittle, but it was left this way
1.1  mrg     // over performance concerns.
1.1  mrg     // This is currently only called once, from the lexer.
1.1  mrg     __gshared char[11 + 1] date;
1.1  mrg     __gshared char[8 + 1] time;
1.1  mrg     __gshared char[24 + 1] timestamp;
1.1  mrg
1.1  mrg     public static void initialize(const ref Loc loc) nothrow
1.1  mrg     {
1.1  mrg         if (initdone)
1.1  mrg             return;
1.1  mrg
1.1  mrg         initdone = true;
1.1  mrg         time_t ct;
1.1  mrg         // https://issues.dlang.org/show_bug.cgi?id=20444
1.1  mrg         if (auto p = getenv("SOURCE_DATE_EPOCH"))
1.1  mrg         {
1.1  mrg             if (!ct.parseDigits(p.toDString()))
1.1  mrg                 error(loc, "value of environment variable `SOURCE_DATE_EPOCH` should be a valid UNIX timestamp, not: `%s`", p);
1.1  mrg         }
1.1  mrg         else
1.1  mrg             .time(&ct);
1.1  mrg         const p = ctime(&ct);
1.1  mrg         assert(p);
1.1  mrg         sprintf(&date[0], "%.6s %.4s", p + 4, p + 20);
1.1  mrg         sprintf(&time[0], "%.8s", p + 11);
1.1  mrg         sprintf(&timestamp[0], "%.24s", p);
1.1  mrg     }
1.1  mrg }
1.1  mrg
1.1  mrg private enum LS = 0x2028;       // UTF line separator
1.1  mrg private enum PS = 0x2029;       // UTF paragraph separator
1.1  mrg
1.1  mrg /********************************************
1.1  mrg  * Do our own char maps
1.1  mrg  */
1.1  mrg private static immutable cmtable = ()
1.1  mrg {
1.1  mrg     ubyte[256] table;
1.1  mrg     foreach (const c; 0 .. table.length)
1.1  mrg     {
1.1  mrg         if ('0' <= c && c <= '7')
1.1  mrg             table[c] |= CMoctal;
1.1  mrg         if (c_isxdigit(c))
1.1  mrg             table[c] |= CMhex;
1.1  mrg         if (c_isalnum(c) || c == '_')
1.1  mrg             table[c] |= CMidchar;
1.1  mrg
1.1  mrg         switch (c)
1.1  mrg         {
1.1  mrg             case 'x': case 'X':
1.1  mrg             case 'b': case 'B':
1.1  mrg                 table[c] |= CMzerosecond;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             case '0': .. case '9':
1.1  mrg             case 'e': case 'E':
1.1  mrg             case 'f': case 'F':
1.1  mrg             case 'l': case 'L':
1.1  mrg             case 'p': case 'P':
1.1  mrg             case 'u': case 'U':
1.1  mrg             case 'i':
1.1  mrg             case '.':
1.1  mrg             case '_':
1.1  mrg                 table[c] |= CMzerosecond | CMdigitsecond;
1.1  mrg                 break;
1.1  mrg
1.1  mrg             default:
1.1  mrg                 break;
1.1  mrg         }
1.1  mrg
1.1  mrg         switch (c)
1.1  mrg         {
1.1  mrg             case '\\':
1.1  mrg             case '\n':
1.1  mrg             case '\r':
1.1  mrg             case 0:
1.1  mrg             case 0x1A:
1.1  mrg             case '\'':
1.1  mrg                 break;
1.1  mrg             default:
1.1  mrg                 if (!(c & 0x80))
1.1  mrg                     table[c] |= CMsinglechar;
1.1  mrg                 break;
1.1  mrg         }
1.1  mrg     }
1.1  mrg     return table;
1.1  mrg }();
1.1  mrg
1.1  mrg private
1.1  mrg {
1.1  mrg     enum CMoctal  = 0x1;
1.1  mrg     enum CMhex    = 0x2;
1.1  mrg     enum CMidchar = 0x4;
1.1  mrg     enum CMzerosecond = 0x8;
1.1  mrg     enum CMdigitsecond = 0x10;
1.1  mrg     enum CMsinglechar = 0x20;
1.1  mrg }
1.1  mrg
1.1  mrg private bool isoctal(const char c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (cmtable[c] & CMoctal) != 0;
1.1  mrg }
1.1  mrg
1.1  mrg private bool ishex(const char c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (cmtable[c] & CMhex) != 0;
1.1  mrg }
1.1  mrg
1.1  mrg private bool isidchar(const char c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (cmtable[c] & CMidchar) != 0;
1.1  mrg }
1.1  mrg
1.1  mrg private bool isZeroSecond(const char c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (cmtable[c] & CMzerosecond) != 0;
1.1  mrg }
1.1  mrg
1.1  mrg private bool isDigitSecond(const char c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (cmtable[c] & CMdigitsecond) != 0;
1.1  mrg }
1.1  mrg
1.1  mrg private bool issinglechar(const char c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (cmtable[c] & CMsinglechar) != 0;
1.1  mrg }
1.1  mrg
1.1  mrg private bool c_isxdigit(const int c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (( c >= '0' && c <= '9') ||
1.1  mrg             ( c >= 'a' && c <= 'f') ||
1.1  mrg             ( c >= 'A' && c <= 'F'));
1.1  mrg }
1.1  mrg
1.1  mrg private bool c_isalnum(const int c) pure @nogc @safe
1.1  mrg {
1.1  mrg     return (( c >= '0' && c <= '9') ||
1.1  mrg             ( c >= 'a' && c <= 'z') ||
1.1  mrg             ( c >= 'A' && c <= 'Z'));
1.1  mrg }
1.1  mrg
1.1  mrg /******************************* Unittest *****************************************/
1.1  mrg
1.1  mrg unittest
1.1  mrg {
1.1  mrg     import dmd.console;
1.1  mrg     nothrow bool assertDiagnosticHandler(const ref Loc loc, Color headerColor, const(char)* header,
1.1  mrg                                    const(char)* format, va_list ap, const(char)* p1, const(char)* p2)
1.1  mrg     {
1.1  mrg         assert(0);
1.1  mrg     }
1.1  mrg     diagnosticHandler = &assertDiagnosticHandler;
1.1  mrg
1.1  mrg     static void test(T)(string sequence, T expected, bool Ccompile = false)
1.1  mrg     {
1.1  mrg         auto p = cast(const(char)*)sequence.ptr;
1.1  mrg         assert(expected == Lexer.escapeSequence(Loc.initial, p, Ccompile));
1.1  mrg         assert(p == sequence.ptr + sequence.length);
1.1  mrg     }
1.1  mrg
1.1  mrg     test(`'`, '\'');
1.1  mrg     test(`"`, '"');
1.1  mrg     test(`?`, '?');
1.1  mrg     test(`\`, '\\');
1.1  mrg     test(`0`, '\0');
1.1  mrg     test(`a`, '\a');
1.1  mrg     test(`b`, '\b');
1.1  mrg     test(`f`, '\f');
1.1  mrg     test(`n`, '\n');
1.1  mrg     test(`r`, '\r');
1.1  mrg     test(`t`, '\t');
1.1  mrg     test(`v`, '\v');
1.1  mrg
1.1  mrg     test(`x00`, 0x00);
1.1  mrg     test(`xff`, 0xff);
1.1  mrg     test(`xFF`, 0xff);
1.1  mrg     test(`xa7`, 0xa7);
1.1  mrg     test(`x3c`, 0x3c);
1.1  mrg     test(`xe2`, 0xe2);
1.1  mrg
1.1  mrg     test(`1`, '\1');
1.1  mrg     test(`42`, '\42');
1.1  mrg     test(`357`, '\357');
1.1  mrg
1.1  mrg     test(`u1234`, '\u1234');
1.1  mrg     test(`uf0e4`, '\uf0e4');
1.1  mrg
1.1  mrg     test(`U0001f603`, '\U0001f603');
1.1  mrg
1.1  mrg     test(`&quot;`, '"');
1.1  mrg     test(`&lt;`, '<');
1.1  mrg     test(`&gt;`, '>');
1.1  mrg
1.1  mrg     diagnosticHandler = null;
1.1  mrg }
1.1  mrg
1.1  mrg unittest
1.1  mrg {
1.1  mrg     import dmd.console;
1.1  mrg     string expected;
1.1  mrg     bool gotError;
1.1  mrg
1.1  mrg     nothrow bool expectDiagnosticHandler(const ref Loc loc, Color headerColor, const(char)* header,
1.1  mrg                                          const(char)* format, va_list ap, const(char)* p1, const(char)* p2)
1.1  mrg     {
1.1  mrg         assert(cast(Classification)headerColor == Classification.error);
1.1  mrg
1.1  mrg         gotError = true;
1.1  mrg         char[100] buffer = void;
1.1  mrg         auto actual = buffer[0 .. vsprintf(buffer.ptr, format, ap)];
1.1  mrg         assert(expected == actual);
1.1  mrg         return true;
1.1  mrg     }
1.1  mrg
1.1  mrg     diagnosticHandler = &expectDiagnosticHandler;
1.1  mrg
1.1  mrg     void test(string sequence, string expectedError, dchar expectedReturnValue, uint expectedScanLength, bool Ccompile = false)
1.1  mrg     {
1.1  mrg         uint errors = global.errors;
1.1  mrg         gotError = false;
1.1  mrg         expected = expectedError;
1.1  mrg         auto p = cast(const(char)*)sequence.ptr;
1.1  mrg         auto actualReturnValue = Lexer.escapeSequence(Loc.initial, p, Ccompile);
1.1  mrg         assert(gotError);
1.1  mrg         assert(expectedReturnValue == actualReturnValue);
1.1  mrg
1.1  mrg         auto actualScanLength = p - sequence.ptr;
1.1  mrg         assert(expectedScanLength == actualScanLength);
1.1  mrg         global.errors = errors;
1.1  mrg     }
1.1  mrg
1.1  mrg     test("c", `undefined escape sequence \c`, 'c', 1);
1.1  mrg     test("!", `undefined escape sequence \!`, '!', 1);
1.1  mrg     test("&quot;", `undefined escape sequence \&`, '&', 1, true);
1.1  mrg
1.1  mrg     test("x1", `escape hex sequence has 1 hex digits instead of 2`, '\x01', 2);
1.1  mrg
1.1  mrg     test("u1"  , `escape hex sequence has 1 hex digits instead of 4`,   0x1, 2);
1.1  mrg     test("u12" , `escape hex sequence has 2 hex digits instead of 4`,  0x12, 3);
1.1  mrg     test("u123", `escape hex sequence has 3 hex digits instead of 4`, 0x123, 4);
1.1  mrg
1.1  mrg     test("U0"      , `escape hex sequence has 1 hex digits instead of 8`,       0x0, 2);
1.1  mrg     test("U00"     , `escape hex sequence has 2 hex digits instead of 8`,      0x00, 3);
1.1  mrg     test("U000"    , `escape hex sequence has 3 hex digits instead of 8`,     0x000, 4);
1.1  mrg     test("U0000"   , `escape hex sequence has 4 hex digits instead of 8`,    0x0000, 5);
1.1  mrg     test("U0001f"  , `escape hex sequence has 5 hex digits instead of 8`,   0x0001f, 6);
1.1  mrg     test("U0001f6" , `escape hex sequence has 6 hex digits instead of 8`,  0x0001f6, 7);
1.1  mrg     test("U0001f60", `escape hex sequence has 7 hex digits instead of 8`, 0x0001f60, 8);
1.1  mrg
1.1  mrg     test("ud800"    , `invalid UTF character \U0000d800`, '?', 5);
1.1  mrg     test("udfff"    , `invalid UTF character \U0000dfff`, '?', 5);
1.1  mrg     test("U00110000", `invalid UTF character \U00110000`, '?', 9);
1.1  mrg
1.1  mrg     test("xg0"      , `undefined escape hex sequence \xg`, 'g', 2);
1.1  mrg     test("ug000"    , `undefined escape hex sequence \ug`, 'g', 2);
1.1  mrg     test("Ug0000000", `undefined escape hex sequence \Ug`, 'g', 2);
1.1  mrg
1.1  mrg     test("&BAD;", `unnamed character entity &BAD;`  , '?', 5);
1.1  mrg     test("&quot", `unterminated named entity &quot;`, '?', 5);
1.1  mrg     test("&quot", `unterminated named entity &quot;`, '?', 5);
1.1  mrg
1.1  mrg     test("400", `escape octal sequence \400 is larger than \377`, 0x100, 3);
1.1  mrg
1.1  mrg     diagnosticHandler = null;
1.1  mrg }
1.1  mrg
1.1  mrg unittest
1.1  mrg {
1.1  mrg     //printf("lexer.unittest\n");
1.1  mrg     /* Not much here, just trying things out.
1.1  mrg      */
1.1  mrg     string text = "int"; // We rely on the implicit null-terminator
1.1  mrg     scope Lexer lex1 = new Lexer(null, text.ptr, 0, text.length, 0, 0);
1.1  mrg     TOK tok;
1.1  mrg     tok = lex1.nextToken();
1.1  mrg     //printf("tok == %s, %d, %d\n", Token::toChars(tok), tok, TOK.int32);
1.1  mrg     assert(tok == TOK.int32);
1.1  mrg     tok = lex1.nextToken();
1.1  mrg     assert(tok == TOK.endOfFile);
1.1  mrg     tok = lex1.nextToken();
1.1  mrg     assert(tok == TOK.endOfFile);
1.1  mrg     tok = lex1.nextToken();
1.1  mrg     assert(tok == TOK.endOfFile);
1.1  mrg }
1.1  mrg
1.1  mrg unittest
1.1  mrg {
1.1  mrg     // We don't want to see Lexer error output during these tests.
1.1  mrg     uint errors = global.startGagging();
1.1  mrg     scope(exit) global.endGagging(errors);
1.1  mrg
1.1  mrg     // Test malformed input: even malformed input should end in a TOK.endOfFile.
1.1  mrg     static immutable char[][] testcases =
1.1  mrg     [   // Testcase must end with 0 or 0x1A.
1.1  mrg         [0], // not malformed, but pathological
1.1  mrg         ['\'', 0],
1.1  mrg         ['\'', 0x1A],
1.1  mrg         ['{', '{', 'q', '{', 0],
1.1  mrg         [0xFF, 0],
1.1  mrg         [0xFF, 0x80, 0],
1.1  mrg         [0xFF, 0xFF, 0],
1.1  mrg         [0xFF, 0xFF, 0],
1.1  mrg         ['x', '"', 0x1A],
1.1  mrg     ];
1.1  mrg
1.1  mrg     foreach (testcase; testcases)
1.1  mrg     {
1.1  mrg         scope Lexer lex2 = new Lexer(null, testcase.ptr, 0, testcase.length-1, 0, 0);
1.1  mrg         TOK tok = lex2.nextToken();
1.1  mrg         size_t iterations = 1;
1.1  mrg         while ((tok != TOK.endOfFile) && (iterations++ < testcase.length))
1.1  mrg         {
1.1  mrg             tok = lex2.nextToken();
1.1  mrg         }
1.1  mrg         assert(tok == TOK.endOfFile);
1.1  mrg         tok = lex2.nextToken();
1.1  mrg         assert(tok == TOK.endOfFile);
1.1  mrg     }
1.1  mrg }