usr.bin/indent/lexi.c

1.80  rillig /*	$NetBSD: lexi.c,v 1.80 2021/10/08 19:22:19 rillig Exp $	*/
 1.3     tls
1.16   kamil /*-
1.16   kamil  * SPDX-License-Identifier: BSD-4-Clause
1.16   kamil  *
1.16   kamil  * Copyright (c) 1985 Sun Microsystems, Inc.
 1.5     mrg  * Copyright (c) 1980, 1993
 1.5     mrg  *	The Regents of the University of California.  All rights reserved.
 1.1     cgd  * All rights reserved.
 1.1     cgd  *
 1.1     cgd  * Redistribution and use in source and binary forms, with or without
 1.1     cgd  * modification, are permitted provided that the following conditions
 1.1     cgd  * are met:
 1.1     cgd  * 1. Redistributions of source code must retain the above copyright
 1.1     cgd  *    notice, this list of conditions and the following disclaimer.
 1.1     cgd  * 2. Redistributions in binary form must reproduce the above copyright
 1.1     cgd  *    notice, this list of conditions and the following disclaimer in the
 1.1     cgd  *    documentation and/or other materials provided with the distribution.
 1.1     cgd  * 3. All advertising materials mentioning features or use of this software
 1.1     cgd  *    must display the following acknowledgement:
 1.1     cgd  *	This product includes software developed by the University of
 1.1     cgd  *	California, Berkeley and its contributors.
 1.1     cgd  * 4. Neither the name of the University nor the names of its contributors
 1.1     cgd  *    may be used to endorse or promote products derived from this software
 1.1     cgd  *    without specific prior written permission.
 1.1     cgd  *
 1.1     cgd  * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS ``AS IS'' AND
 1.1     cgd  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
 1.1     cgd  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
 1.1     cgd  * ARE DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE
 1.1     cgd  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
 1.1     cgd  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
 1.1     cgd  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
 1.1     cgd  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
 1.1     cgd  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
 1.1     cgd  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
 1.1     cgd  * SUCH DAMAGE.
 1.1     cgd  */
 1.1     cgd
1.16   kamil #if 0
1.16   kamil static char sccsid[] = "@(#)lexi.c	8.1 (Berkeley) 6/6/93";
1.16   kamil #endif
1.16   kamil
 1.6   lukem #include <sys/cdefs.h>
1.16   kamil #if defined(__NetBSD__)
1.80  rillig __RCSID("$NetBSD: lexi.c,v 1.80 2021/10/08 19:22:19 rillig Exp $");
1.16   kamil #elif defined(__FreeBSD__)
1.16   kamil __FBSDID("$FreeBSD: head/usr.bin/indent/lexi.c 337862 2018-08-15 18:19:45Z pstef $");
1.16   kamil #endif
 1.1     cgd
1.20  rillig #include <assert.h>
 1.1     cgd #include <stdio.h>
 1.1     cgd #include <ctype.h>
 1.1     cgd #include <stdlib.h>
 1.1     cgd #include <string.h>
1.16   kamil #include <sys/param.h>
1.16   kamil
1.16   kamil #include "indent.h"
 1.1     cgd
1.60  rillig /* must be sorted alphabetically, is used in binary search */
1.62  rillig static const struct keyword {
1.62  rillig     const char *name;
1.62  rillig     enum keyword_kind kind;
1.62  rillig } keywords[] = {
1.62  rillig     {"_Bool", kw_type},
1.62  rillig     {"_Complex", kw_type},
1.62  rillig     {"_Imaginary", kw_type},
1.62  rillig     {"auto", kw_storage_class},
1.62  rillig     {"bool", kw_type},
1.62  rillig     {"break", kw_jump},
1.62  rillig     {"case", kw_case_or_default},
1.62  rillig     {"char", kw_type},
1.62  rillig     {"complex", kw_type},
1.62  rillig     {"const", kw_type},
1.62  rillig     {"continue", kw_jump},
1.62  rillig     {"default", kw_case_or_default},
1.62  rillig     {"do", kw_do_or_else},
1.62  rillig     {"double", kw_type},
1.62  rillig     {"else", kw_do_or_else},
1.62  rillig     {"enum", kw_struct_or_union_or_enum},
1.62  rillig     {"extern", kw_storage_class},
1.62  rillig     {"float", kw_type},
1.62  rillig     {"for", kw_for_or_if_or_while},
1.62  rillig     {"global", kw_type},
1.62  rillig     {"goto", kw_jump},
1.62  rillig     {"if", kw_for_or_if_or_while},
1.62  rillig     {"imaginary", kw_type},
1.62  rillig     {"inline", kw_inline_or_restrict},
1.62  rillig     {"int", kw_type},
1.62  rillig     {"long", kw_type},
1.62  rillig     {"offsetof", kw_offsetof},
1.62  rillig     {"register", kw_storage_class},
1.62  rillig     {"restrict", kw_inline_or_restrict},
1.62  rillig     {"return", kw_jump},
1.62  rillig     {"short", kw_type},
1.62  rillig     {"signed", kw_type},
1.62  rillig     {"sizeof", kw_sizeof},
1.62  rillig     {"static", kw_storage_class},
1.62  rillig     {"struct", kw_struct_or_union_or_enum},
1.62  rillig     {"switch", kw_switch},
1.62  rillig     {"typedef", kw_typedef},
1.62  rillig     {"union", kw_struct_or_union_or_enum},
1.62  rillig     {"unsigned", kw_type},
1.62  rillig     {"void", kw_type},
1.62  rillig     {"volatile", kw_type},
1.62  rillig     {"while", kw_for_or_if_or_while}
 1.1     cgd };
 1.1     cgd
1.64  rillig struct {
1.64  rillig     const char **items;
1.64  rillig     unsigned int len;
1.64  rillig     unsigned int cap;
1.64  rillig } typenames;
1.16   kamil
1.16   kamil /*
1.16   kamil  * The transition table below was rewritten by hand from lx's output, given
1.16   kamil  * the following definitions. lx is Katherine Flavel's lexer generator.
1.16   kamil  *
1.16   kamil  * O  = /[0-7]/;        D  = /[0-9]/;          NZ = /[1-9]/;
1.16   kamil  * H  = /[a-f0-9]/i;    B  = /[0-1]/;          HP = /0x/i;
1.16   kamil  * BP = /0b/i;          E  = /e[+\-]?/i D+;    P  = /p[+\-]?/i D+;
1.16   kamil  * FS = /[fl]/i;        IS = /u/i /(l|L|ll|LL)/? | /(l|L|ll|LL)/ /u/i?;
1.16   kamil  *
1.16   kamil  * D+           E  FS? -> $float;
1.16   kamil  * D*    "." D+ E? FS? -> $float;
1.16   kamil  * D+    "."    E? FS? -> $float;    HP H+           IS? -> $int;
1.16   kamil  * HP H+        P  FS? -> $float;    NZ D*           IS? -> $int;
1.16   kamil  * HP H* "." H+ P  FS? -> $float;    "0" O*          IS? -> $int;
1.16   kamil  * HP H+ "."    P  FS  -> $float;    BP B+           IS? -> $int;
1.16   kamil  */
1.71  rillig /* INDENT OFF */
1.73  rillig static const unsigned char num_lex_state[][26] = {
1.16   kamil     /*                examples:
1.16   kamil                                      00
1.16   kamil              s                      0xx
1.16   kamil              t                    00xaa
1.16   kamil              a     11       101100xxa..
1.16   kamil              r   11ee0001101lbuuxx.a.pp
1.16   kamil              t.01.e+008bLuxll0Ll.aa.p+0
1.16   kamil     states:  ABCDEFGHIJKLMNOPQRSTUVWXYZ */
1.56  rillig     [0] =   "uuiifuufiuuiiuiiiiiuiuuuuu",
1.56  rillig     [1] =   "CEIDEHHHIJQ  U  Q  VUVVZZZ",
1.56  rillig     [2] =   "DEIDEHHHIJQ  U  Q  VUVVZZZ",
1.56  rillig     [3] =   "DEIDEHHHIJ   U     VUVVZZZ",
1.56  rillig     [4] =   "DEJDEHHHJJ   U     VUVVZZZ",
1.56  rillig     [5] =   "             U     VUVV   ",
1.56  rillig     [6] =   "  K          U     VUVV   ",
1.56  rillig     [7] =   "  FFF   FF   U     VUVV   ",
1.56  rillig     [8] =   "    f  f     U     VUVV  f",
1.56  rillig     [9] =   "  LLf  fL  PR   Li  L    f",
1.56  rillig     [10] =  "  OOf  fO   S P O i O    f",
1.56  rillig     [11] =  "                    FFX   ",
1.56  rillig     [12] =  "  MM    M  i  iiM   M     ",
1.56  rillig     [13] =  "  N                       ",
1.56  rillig     [14] =  "     G                 Y  ",
1.56  rillig     [15] =  "B EE    EE   T      W     ",
1.16   kamil     /*       ABCDEFGHIJKLMNOPQRSTUVWXYZ */
 1.1     cgd };
1.71  rillig /* INDENT ON */
 1.1     cgd
1.56  rillig static const uint8_t num_lex_row[] = {
1.56  rillig     ['0'] = 1,
1.56  rillig     ['1'] = 2,
1.56  rillig     ['2'] = 3, ['3'] = 3, ['4'] = 3, ['5'] = 3, ['6'] = 3, ['7'] = 3,
1.56  rillig     ['8'] = 4, ['9'] = 4,
1.56  rillig     ['A'] = 5, ['a'] = 5, ['C'] = 5, ['c'] = 5, ['D'] = 5, ['d'] = 5,
1.56  rillig     ['B'] = 6, ['b'] = 6,
1.56  rillig     ['E'] = 7, ['e'] = 7,
1.56  rillig     ['F'] = 8, ['f'] = 8,
1.56  rillig     ['L'] = 9,
1.56  rillig     ['l'] = 10,
1.56  rillig     ['P'] = 11, ['p'] = 11,
1.56  rillig     ['U'] = 12, ['u'] = 12,
1.56  rillig     ['X'] = 13, ['x'] = 13,
1.56  rillig     ['+'] = 14, ['-'] = 14,
1.56  rillig     ['.'] = 15,
1.56  rillig };
1.36  rillig
1.32  rillig static char
1.32  rillig inbuf_peek(void)
1.32  rillig {
1.78  rillig     return *inp.s;
1.32  rillig }
1.32  rillig
1.66  rillig void
1.32  rillig inbuf_skip(void)
1.32  rillig {
1.78  rillig     inp.s++;
1.78  rillig     if (inp.s >= inp.e)
1.32  rillig 	fill_buffer();
1.32  rillig }
1.32  rillig
1.66  rillig char
1.32  rillig inbuf_next(void)
1.32  rillig {
1.32  rillig     char ch = inbuf_peek();
1.32  rillig     inbuf_skip();
1.32  rillig     return ch;
1.32  rillig }
1.32  rillig
1.25  rillig static void
1.25  rillig check_size_token(size_t desired_size)
1.25  rillig {
1.58  rillig     if (token.e + desired_size >= token.l)
1.58  rillig 	buf_expand(&token, desired_size);
1.25  rillig }
1.25  rillig
1.16   kamil static int
1.62  rillig cmp_keyword_by_name(const void *key, const void *elem)
1.16   kamil {
1.62  rillig     return strcmp(key, ((const struct keyword *)elem)->name);
1.27  rillig }
1.27  rillig
1.27  rillig static int
1.62  rillig cmp_type_by_name(const void *key, const void *elem)
1.27  rillig {
1.27  rillig     return strcmp(key, *((const char *const *)elem));
1.16   kamil }
 1.1     cgd
1.20  rillig #ifdef debug
1.20  rillig const char *
1.47  rillig token_type_name(token_type ttype)
1.20  rillig {
1.20  rillig     static const char *const name[] = {
1.79  rillig 	"end_of_file", "newline", "lparen_or_lbracket", "rparen_or_rbracket",
1.79  rillig 	"unary_op", "binary_op", "postfix_op", "question",
1.79  rillig 	"case_label", "colon",
1.20  rillig 	"semicolon", "lbrace", "rbrace", "ident", "comma",
1.31  rillig 	"comment", "switch_expr", "preprocessing", "form_feed", "decl",
1.29  rillig 	"keyword_for_if_while", "keyword_do_else",
1.30  rillig 	"if_expr", "while_expr", "for_exprs",
1.30  rillig 	"stmt", "stmt_list", "keyword_else", "keyword_do", "do_stmt",
1.31  rillig 	"if_expr_stmt", "if_expr_stmt_else", "period", "string_prefix",
1.31  rillig 	"storage_class", "funcname", "type_def", "keyword_struct_union_enum"
1.20  rillig     };
1.20  rillig
1.62  rillig     assert(0 <= ttype && ttype < nitems(name));
1.20  rillig
1.47  rillig     return name[ttype];
1.20  rillig }
1.20  rillig
1.20  rillig static void
1.72  rillig debug_print_buf(const char *name, const struct buffer *buf)
1.20  rillig {
1.72  rillig     if (buf->s < buf->e) {
1.39  rillig 	debug_printf(" %s ", name);
1.72  rillig 	debug_vis_range("\"", buf->s, buf->e, "\"");
1.20  rillig     }
1.20  rillig }
1.20  rillig
1.20  rillig static token_type
1.47  rillig lexi_end(token_type ttype)
1.20  rillig {
1.39  rillig     debug_printf("in line %d, lexi returns '%s'",
1.47  rillig 	line_no, token_type_name(ttype));
1.72  rillig     debug_print_buf("token", &token);
1.72  rillig     debug_print_buf("label", &lab);
1.72  rillig     debug_print_buf("code", &code);
1.72  rillig     debug_print_buf("comment", &com);
1.39  rillig     debug_printf("\n");
1.20  rillig
1.47  rillig     return ttype;
1.20  rillig }
1.20  rillig #else
1.71  rillig #define lexi_end(tk) (tk)
1.20  rillig #endif
1.20  rillig
1.43  rillig static void
1.43  rillig lex_number(void)
1.43  rillig {
1.71  rillig     for (uint8_t s = 'A'; s != 'f' && s != 'i' && s != 'u';) {
1.78  rillig 	uint8_t ch = (uint8_t)*inp.s;
1.56  rillig 	if (ch >= nitems(num_lex_row) || num_lex_row[ch] == 0)
1.56  rillig 	    break;
1.75  rillig
1.56  rillig 	uint8_t row = num_lex_row[ch];
1.56  rillig 	if (num_lex_state[row][s - 'A'] == ' ') {
1.71  rillig 	    /*-
1.56  rillig 	     * num_lex_state[0][s - 'A'] now indicates the type:
1.74  rillig 	     * f = floating, i = integer, u = unknown
1.56  rillig 	     */
1.43  rillig 	    break;
1.43  rillig 	}
1.75  rillig
1.56  rillig 	s = num_lex_state[row][s - 'A'];
1.43  rillig 	check_size_token(1);
1.50  rillig 	*token.e++ = inbuf_next();
1.43  rillig     }
1.43  rillig }
1.43  rillig
1.43  rillig static void
1.43  rillig lex_word(void)
1.43  rillig {
1.78  rillig     while (isalnum((unsigned char)*inp.s) ||
1.78  rillig 	   *inp.s == '\\' ||
1.78  rillig 	   *inp.s == '_' || *inp.s == '$') {
1.75  rillig
1.43  rillig 	/* fill_buffer() terminates buffer with newline */
1.78  rillig 	if (*inp.s == '\\') {
1.78  rillig 	    if (inp.s[1] == '\n') {
1.78  rillig 		inp.s += 2;
1.78  rillig 		if (inp.s >= inp.e)
1.43  rillig 		    fill_buffer();
1.43  rillig 	    } else
1.43  rillig 		break;
1.43  rillig 	}
1.75  rillig
1.43  rillig 	check_size_token(1);
1.50  rillig 	*token.e++ = inbuf_next();
1.43  rillig     }
1.43  rillig }
1.43  rillig
1.43  rillig static void
1.43  rillig lex_char_or_string(void)
1.43  rillig {
1.52  rillig     for (char delim = *token.s;;) {
1.78  rillig 	if (*inp.s == '\n') {
1.52  rillig 	    diag(1, "Unterminated literal");
1.52  rillig 	    return;
1.52  rillig 	}
1.75  rillig
1.52  rillig 	check_size_token(2);
1.52  rillig 	*token.e++ = inbuf_next();
1.52  rillig 	if (token.e[-1] == delim)
1.52  rillig 	    return;
1.75  rillig
1.52  rillig 	if (token.e[-1] == '\\') {
1.78  rillig 	    if (*inp.s == '\n')
1.52  rillig 		++line_no;
1.52  rillig 	    *token.e++ = inbuf_next();
1.52  rillig 	}
1.52  rillig     }
1.43  rillig }
1.43  rillig
1.57  rillig /*
1.57  rillig  * This hack attempts to guess whether the current token is in fact a
1.57  rillig  * declaration keyword -- one that has been defined by typedef.
1.57  rillig  */
1.57  rillig static bool
1.57  rillig probably_typedef(const struct parser_state *state)
1.57  rillig {
1.70  rillig     if (state->p_l_follow != 0)
1.70  rillig 	return false;
1.70  rillig     if (state->block_init || state->in_stmt)
1.70  rillig 	return false;
1.78  rillig     if (inp.s[0] == '*' && inp.s[1] != '=')
1.70  rillig 	goto maybe;
1.78  rillig     if (isalpha((unsigned char)*inp.s))
1.70  rillig 	goto maybe;
1.70  rillig     return false;
1.70  rillig maybe:
1.70  rillig     return state->last_token == semicolon ||
1.71  rillig 	state->last_token == lbrace ||
1.71  rillig 	state->last_token == rbrace;
1.57  rillig }
1.57  rillig
1.63  rillig static bool
1.63  rillig is_typename(void)
1.63  rillig {
1.63  rillig     if (opt.auto_typedefs) {
1.63  rillig 	const char *u;
1.63  rillig 	if ((u = strrchr(token.s, '_')) != NULL && strcmp(u, "_t") == 0)
1.63  rillig 	    return true;
1.63  rillig     }
1.63  rillig
1.64  rillig     if (typenames.len == 0)
1.63  rillig 	return false;
1.64  rillig     return bsearch(token.s, typenames.items, (size_t)typenames.len,
1.64  rillig 	sizeof(typenames.items[0]), cmp_type_by_name) != NULL;
1.63  rillig }
1.63  rillig
1.47  rillig /* Reads the next token, placing it in the global variable "token". */
1.19  rillig token_type
1.16   kamil lexi(struct parser_state *state)
 1.1     cgd {
1.59  rillig     bool unary_delim;		/* whether the current token forces a
1.59  rillig 				 * following operator to be unary */
1.59  rillig     token_type ttype;
1.16   kamil
1.50  rillig     token.e = token.s;		/* point to start of place to save token */
1.16   kamil     unary_delim = false;
1.16   kamil     state->col_1 = state->last_nl;	/* tell world that this token started
1.16   kamil 					 * in column 1 iff the last thing
1.16   kamil 					 * scanned was a newline */
1.16   kamil     state->last_nl = false;
1.16   kamil
1.78  rillig     while (is_hspace(*inp.s)) {
1.68  rillig 	state->col_1 = false;
1.32  rillig 	inbuf_skip();
1.16   kamil     }
 1.6   lukem
1.16   kamil     /* Scan an alphanumeric token */
1.78  rillig     if (isalnum((unsigned char)*inp.s) ||
1.78  rillig 	*inp.s == '_' || *inp.s == '$' ||
1.78  rillig 	(inp.s[0] == '.' && isdigit((unsigned char)inp.s[1]))) {
1.62  rillig 	struct keyword *kw;
1.16   kamil
1.78  rillig 	if (isdigit((unsigned char)*inp.s) ||
1.78  rillig 	    (inp.s[0] == '.' && isdigit((unsigned char)inp.s[1]))) {
1.43  rillig 	    lex_number();
1.38  rillig 	} else {
1.43  rillig 	    lex_word();
1.38  rillig 	}
1.50  rillig 	*token.e = '\0';
1.16   kamil
1.50  rillig 	if (token.s[0] == 'L' && token.s[1] == '\0' &&
1.78  rillig 	    (*inp.s == '"' || *inp.s == '\''))
1.31  rillig 	    return lexi_end(string_prefix);
 1.1     cgd
1.68  rillig 	while (is_hspace(inbuf_peek()))
1.66  rillig 	    inbuf_skip();
1.62  rillig 	state->keyword = kw_0;
1.60  rillig
1.31  rillig 	if (state->last_token == keyword_struct_union_enum &&
1.60  rillig 		state->p_l_follow == 0) {
1.16   kamil 	    state->last_u_d = true;
1.20  rillig 	    return lexi_end(decl);
1.16   kamil 	}
1.16   kamil 	/*
1.16   kamil 	 * Operator after identifier is binary unless last token was 'struct'
1.16   kamil 	 */
1.31  rillig 	state->last_u_d = (state->last_token == keyword_struct_union_enum);
1.16   kamil
1.62  rillig 	kw = bsearch(token.s, keywords, nitems(keywords),
1.62  rillig 	    sizeof(keywords[0]), cmp_keyword_by_name);
1.62  rillig 	if (kw == NULL) {
1.63  rillig 	    if (is_typename()) {
1.62  rillig 		state->keyword = kw_type;
1.16   kamil 		state->last_u_d = true;
1.59  rillig 		goto found_typename;
1.16   kamil 	    }
1.75  rillig
1.59  rillig 	} else {		/* we have a keyword */
1.62  rillig 	    state->keyword = kw->kind;
1.16   kamil 	    state->last_u_d = true;
1.75  rillig
1.62  rillig 	    switch (kw->kind) {
1.62  rillig 	    case kw_switch:
1.30  rillig 		return lexi_end(switch_expr);
1.75  rillig
1.62  rillig 	    case kw_case_or_default:
1.30  rillig 		return lexi_end(case_label);
1.75  rillig
1.62  rillig 	    case kw_struct_or_union_or_enum:
1.62  rillig 	    case kw_type:
1.71  rillig 	found_typename:
1.54  rillig 		if (state->p_l_follow != 0) {
1.16   kamil 		    /* inside parens: cast, param list, offsetof or sizeof */
1.16   kamil 		    state->cast_mask |= (1 << state->p_l_follow) & ~state->not_cast_mask;
1.16   kamil 		}
1.16   kamil 		if (state->last_token == period || state->last_token == unary_op) {
1.62  rillig 		    state->keyword = kw_0;
1.16   kamil 		    break;
1.16   kamil 		}
1.62  rillig 		if (kw != NULL && kw->kind == kw_struct_or_union_or_enum)
1.31  rillig 		    return lexi_end(keyword_struct_union_enum);
1.54  rillig 		if (state->p_l_follow != 0)
1.16   kamil 		    break;
1.20  rillig 		return lexi_end(decl);
1.16   kamil
1.62  rillig 	    case kw_for_or_if_or_while:
1.29  rillig 		return lexi_end(keyword_for_if_while);
1.16   kamil
1.62  rillig 	    case kw_do_or_else:
1.29  rillig 		return lexi_end(keyword_do_else);
1.16   kamil
1.62  rillig 	    case kw_storage_class:
1.31  rillig 		return lexi_end(storage_class);
1.16   kamil
1.62  rillig 	    case kw_typedef:
1.20  rillig 		return lexi_end(type_def);
1.16   kamil
1.16   kamil 	    default:		/* all others are treated like any other
1.16   kamil 				 * identifier */
1.20  rillig 		return lexi_end(ident);
1.16   kamil 	    }			/* end of switch */
1.16   kamil 	}			/* end of if (found_it) */
1.75  rillig
1.78  rillig 	if (*inp.s == '(' && state->tos <= 1 && state->ind_level == 0 &&
1.54  rillig 	    !state->in_parameter_declaration && !state->block_init) {
1.75  rillig
1.80  rillig 	    for (const char *p = inp.s; p < inp.e;)
1.80  rillig 		if (*p++ == ')' && (*p == ';' || *p == ','))
1.16   kamil 		    goto not_proc;
1.75  rillig
1.50  rillig 	    strncpy(state->procname, token.s, sizeof state->procname - 1);
1.16   kamil 	    if (state->in_decl)
1.54  rillig 		state->in_parameter_declaration = true;
1.20  rillig 	    return lexi_end(funcname);
1.16   kamil     not_proc:;
1.75  rillig
1.57  rillig 	} else if (probably_typedef(state)) {
1.62  rillig 	    state->keyword = kw_type;
1.16   kamil 	    state->last_u_d = true;
1.20  rillig 	    return lexi_end(decl);
1.16   kamil 	}
1.75  rillig
1.16   kamil 	if (state->last_token == decl)	/* if this is a declared variable,
 1.6   lukem 					 * then following sign is unary */
1.16   kamil 	    state->last_u_d = true;	/* will make "int a -1" work */
1.75  rillig
1.59  rillig 	return lexi_end(ident);	/* the ident is not in the list */
1.74  rillig     }				/* end of processing for alphanum character */
1.16   kamil
1.16   kamil     /* Scan a non-alphanumeric token */
1.16   kamil
1.28  rillig     check_size_token(3);	/* things like "<<=" */
1.50  rillig     *token.e++ = inbuf_next();	/* if it is only a one-character token, it is
 1.6   lukem 				 * moved here */
1.50  rillig     *token.e = '\0';
1.16   kamil
1.50  rillig     switch (*token.s) {
1.16   kamil     case '\n':
1.16   kamil 	unary_delim = state->last_u_d;
1.16   kamil 	state->last_nl = true;	/* remember that we just had a newline */
1.47  rillig 	/* if data has been exhausted, the newline is a dummy. */
1.47  rillig 	ttype = had_eof ? end_of_file : newline;
1.16   kamil 	break;
1.16   kamil
1.43  rillig     case '\'':
1.43  rillig     case '"':
1.44  rillig 	lex_char_or_string();
1.47  rillig 	ttype = ident;
1.16   kamil 	break;
 1.6   lukem
1.40  rillig     case '(':
1.40  rillig     case '[':
1.16   kamil 	unary_delim = true;
1.79  rillig 	ttype = lparen_or_lbracket;
1.16   kamil 	break;
1.16   kamil
1.40  rillig     case ')':
1.40  rillig     case ']':
1.79  rillig 	ttype = rparen_or_rbracket;
1.16   kamil 	break;
1.16   kamil
1.16   kamil     case '#':
1.16   kamil 	unary_delim = state->last_u_d;
1.47  rillig 	ttype = preprocessing;
1.16   kamil 	break;
1.16   kamil
1.16   kamil     case '?':
1.16   kamil 	unary_delim = true;
1.47  rillig 	ttype = question;
1.16   kamil 	break;
1.16   kamil
1.40  rillig     case ':':
1.47  rillig 	ttype = colon;
1.16   kamil 	unary_delim = true;
1.16   kamil 	break;
1.16   kamil
1.40  rillig     case ';':
1.16   kamil 	unary_delim = true;
1.47  rillig 	ttype = semicolon;
1.16   kamil 	break;
1.16   kamil
1.40  rillig     case '{':
1.16   kamil 	unary_delim = true;
1.47  rillig 	ttype = lbrace;
1.16   kamil 	break;
1.16   kamil
1.40  rillig     case '}':
1.16   kamil 	unary_delim = true;
1.47  rillig 	ttype = rbrace;
1.16   kamil 	break;
1.16   kamil
1.69  rillig     case '\f':
1.16   kamil 	unary_delim = state->last_u_d;
1.74  rillig 	state->last_nl = true;	/* remember this, so we can set 'state->col_1'
1.16   kamil 				 * right */
1.47  rillig 	ttype = form_feed;
1.16   kamil 	break;
1.16   kamil
1.40  rillig     case ',':
1.16   kamil 	unary_delim = true;
1.47  rillig 	ttype = comma;
1.16   kamil 	break;
1.16   kamil
1.16   kamil     case '.':
1.16   kamil 	unary_delim = false;
1.47  rillig 	ttype = period;
1.16   kamil 	break;
 1.1     cgd
1.16   kamil     case '-':
1.16   kamil     case '+':			/* check for -, +, --, ++ */
1.47  rillig 	ttype = state->last_u_d ? unary_op : binary_op;
1.16   kamil 	unary_delim = true;
1.16   kamil
1.78  rillig 	if (*inp.s == token.s[0]) {
1.16   kamil 	    /* check for doubled character */
1.78  rillig 	    *token.e++ = *inp.s++;
1.16   kamil 	    /* buffer overflow will be checked at end of loop */
1.79  rillig 	    if (state->last_token == ident ||
1.79  rillig 		    state->last_token == rparen_or_rbracket) {
1.47  rillig 		ttype = state->last_u_d ? unary_op : postfix_op;
1.16   kamil 		/* check for following ++ or -- */
 1.1     cgd 		unary_delim = false;
1.16   kamil 	    }
1.75  rillig
1.78  rillig 	} else if (*inp.s == '=') {
1.16   kamil 	    /* check for operator += */
1.78  rillig 	    *token.e++ = *inp.s++;
1.75  rillig
1.78  rillig 	} else if (*inp.s == '>') {
1.16   kamil 	    /* check for operator -> */
1.78  rillig 	    *token.e++ = *inp.s++;
1.16   kamil 	    unary_delim = false;
1.47  rillig 	    ttype = unary_op;
1.16   kamil 	    state->want_blank = false;
1.16   kamil 	}
1.16   kamil 	break;			/* buffer overflow will be checked at end of
1.16   kamil 				 * switch */
1.16   kamil
1.16   kamil     case '=':
1.16   kamil 	if (state->in_or_st)
1.54  rillig 	    state->block_init = true;
1.78  rillig 	if (*inp.s == '=') {	/* == */
1.78  rillig 	    *token.e++ = *inp.s++;
1.67  rillig 	    *token.e = '\0';
1.16   kamil 	}
1.47  rillig 	ttype = binary_op;
1.16   kamil 	unary_delim = true;
1.16   kamil 	break;
1.16   kamil
1.16   kamil     case '>':
1.16   kamil     case '<':
1.16   kamil     case '!':			/* ops like <, <<, <=, !=, etc */
1.78  rillig 	if (*inp.s == '>' || *inp.s == '<' || *inp.s == '=')
1.50  rillig 	    *token.e++ = inbuf_next();
1.78  rillig 	if (*inp.s == '=')
1.78  rillig 	    *token.e++ = *inp.s++;
1.47  rillig 	ttype = state->last_u_d ? unary_op : binary_op;
1.16   kamil 	unary_delim = true;
1.16   kamil 	break;
1.16   kamil
1.16   kamil     case '*':
1.16   kamil 	unary_delim = true;
1.16   kamil 	if (!state->last_u_d) {
1.78  rillig 	    if (*inp.s == '=')
1.78  rillig 		*token.e++ = *inp.s++;
1.47  rillig 	    ttype = binary_op;
1.16   kamil 	    break;
1.16   kamil 	}
1.75  rillig
1.78  rillig 	while (*inp.s == '*' || isspace((unsigned char)*inp.s)) {
1.78  rillig 	    if (*inp.s == '*') {
1.25  rillig 		check_size_token(1);
1.78  rillig 		*token.e++ = *inp.s;
1.16   kamil 	    }
1.32  rillig 	    inbuf_skip();
1.16   kamil 	}
1.75  rillig
1.16   kamil 	if (ps.in_decl) {
1.78  rillig 	    char *tp = inp.s;
 1.6   lukem
1.16   kamil 	    while (isalpha((unsigned char)*tp) ||
1.16   kamil 		   isspace((unsigned char)*tp)) {
1.78  rillig 		if (++tp >= inp.e)
1.16   kamil 		    fill_buffer();
1.16   kamil 	    }
1.16   kamil 	    if (*tp == '(')
1.16   kamil 		ps.procname[0] = ' ';
1.16   kamil 	}
1.75  rillig
1.47  rillig 	ttype = unary_op;
1.16   kamil 	break;
 1.1     cgd
1.16   kamil     default:
1.78  rillig 	if (token.s[0] == '/' && (*inp.s == '*' || *inp.s == '/')) {
1.16   kamil 	    /* it is start of comment */
1.50  rillig 	    *token.e++ = inbuf_next();
 1.1     cgd
1.47  rillig 	    ttype = comment;
1.16   kamil 	    unary_delim = state->last_u_d;
1.16   kamil 	    break;
 1.1     cgd 	}
1.75  rillig
1.78  rillig 	while (token.e[-1] == *inp.s || *inp.s == '=') {
1.16   kamil 	    /*
1.16   kamil 	     * handle ||, &&, etc, and also things as in int *****i
1.16   kamil 	     */
1.25  rillig 	    check_size_token(1);
1.50  rillig 	    *token.e++ = inbuf_next();
1.16   kamil 	}
1.75  rillig
1.47  rillig 	ttype = state->last_u_d ? unary_op : binary_op;
1.16   kamil 	unary_delim = true;
1.47  rillig     }
1.16   kamil
1.78  rillig     if (inp.s >= inp.e)	/* check for input buffer empty */
1.16   kamil 	fill_buffer();
1.75  rillig
1.16   kamil     state->last_u_d = unary_delim;
1.75  rillig
1.25  rillig     check_size_token(1);
1.50  rillig     *token.e = '\0';
1.75  rillig
1.47  rillig     return lexi_end(ttype);
 1.1     cgd }
1.16   kamil
1.64  rillig static int
1.71  rillig insert_pos(const char *key, const char **arr, unsigned int len)
1.71  rillig {
1.64  rillig     int lo = 0;
1.64  rillig     int hi = (int)len - 1;
1.64  rillig
1.64  rillig     while (lo <= hi) {
1.65  rillig 	int mid = (int)((unsigned)(lo + hi) >> 1);
1.64  rillig 	int cmp = strcmp(arr[mid], key);
1.64  rillig 	if (cmp < 0)
1.64  rillig 	    lo = mid + 1;
1.64  rillig 	else if (cmp > 0)
1.64  rillig 	    hi = mid - 1;
1.64  rillig 	else
1.64  rillig 	    return mid;
1.64  rillig     }
1.64  rillig     return -(lo + 1);
1.16   kamil }
1.16   kamil
 1.6   lukem void
1.64  rillig add_typename(const char *name)
 1.1     cgd {
1.64  rillig     if (typenames.len >= typenames.cap) {
1.64  rillig 	typenames.cap = 16 + 2 * typenames.cap;
1.64  rillig 	typenames.items = xrealloc(typenames.items,
1.64  rillig 	    sizeof(typenames.items[0]) * typenames.cap);
1.64  rillig     }
1.16   kamil
1.64  rillig     int pos = insert_pos(name, typenames.items, typenames.len);
1.64  rillig     if (pos >= 0)
1.64  rillig 	return;			/* already in the list */
1.75  rillig
1.64  rillig     pos = -(pos + 1);
1.64  rillig     memmove(typenames.items + pos + 1, typenames.items + pos,
1.73  rillig 	sizeof(typenames.items[0]) * (typenames.len++ - (unsigned)pos));
1.64  rillig     typenames.items[pos] = xstrdup(name);
 1.1     cgd }