liblunicode/ure/ure.c

1.3  christos /*	$NetBSD: ure.c,v 1.4 2025/09/05 21:16:23 christos Exp $	*/
1.2  christos
1.2  christos /* $OpenLDAP$ */
1.1     lukem /* This work is part of OpenLDAP Software <http://www.openldap.org/>.
1.1     lukem  *
1.4  christos  * Copyright 1998-2024 The OpenLDAP Foundation.
1.1     lukem  * All rights reserved.
1.1     lukem  *
1.1     lukem  * Redistribution and use in source and binary forms, with or without
1.1     lukem  * modification, are permitted only as authorized by the OpenLDAP
1.1     lukem  * Public License.
1.1     lukem  *
1.1     lukem  * A copy of this license is available in file LICENSE in the
1.1     lukem  * top-level directory of the distribution or, alternatively, at
1.1     lukem  * <http://www.OpenLDAP.org/license.html>.
1.1     lukem  */
1.1     lukem /* Copyright 1997, 1998, 1999 Computing Research Labs,
1.1     lukem  * New Mexico State University
1.1     lukem  *
1.1     lukem  * Permission is hereby granted, free of charge, to any person obtaining a
1.1     lukem  * copy of this software and associated documentation files (the "Software"),
1.1     lukem  * to deal in the Software without restriction, including without limitation
1.1     lukem  * the rights to use, copy, modify, merge, publish, distribute, sublicense,
1.1     lukem  * and/or sell copies of the Software, and to permit persons to whom the
1.1     lukem  * Software is furnished to do so, subject to the following conditions:
1.1     lukem  *
1.1     lukem  * The above copyright notice and this permission notice shall be included in
1.1     lukem  * all copies or substantial portions of the Software.
1.1     lukem  *
1.1     lukem  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
1.1     lukem  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
1.1     lukem  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
1.1     lukem  * THE COMPUTING RESEARCH LAB OR NEW MEXICO STATE UNIVERSITY BE LIABLE FOR ANY
1.1     lukem  * CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT
1.1     lukem  * OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR
1.1     lukem  * THE USE OR OTHER DEALINGS IN THE SOFTWARE.
1.1     lukem  */
1.2  christos /* Id: ure.c,v 1.2 1999/09/21 15:47:43 mleisher Exp " */
1.2  christos
1.2  christos #include <sys/cdefs.h>
1.3  christos __RCSID("$NetBSD: ure.c,v 1.4 2025/09/05 21:16:23 christos Exp $");
1.1     lukem
1.1     lukem #include "portable.h"
1.1     lukem
1.1     lukem #include <ac/stdlib.h>
1.1     lukem #include <ac/string.h>
1.1     lukem #include <ac/unistd.h>
1.1     lukem
1.1     lukem #include "ure.h"
1.1     lukem
1.1     lukem /*
1.1     lukem  * Flags used internally in the DFA.
1.1     lukem  */
1.1     lukem #define _URE_DFA_CASEFOLD  0x01
1.1     lukem #define _URE_DFA_BLANKLINE 0x02
1.1     lukem
1.1     lukem static unsigned long cclass_flags[] = {
1.1     lukem     0,
1.1     lukem     _URE_NONSPACING,
1.1     lukem     _URE_COMBINING,
1.1     lukem     _URE_NUMDIGIT,
1.1     lukem     _URE_NUMOTHER,
1.1     lukem     _URE_SPACESEP,
1.1     lukem     _URE_LINESEP,
1.1     lukem     _URE_PARASEP,
1.1     lukem     _URE_CNTRL,
1.1     lukem     _URE_PUA,
1.1     lukem     _URE_UPPER,
1.1     lukem     _URE_LOWER,
1.1     lukem     _URE_TITLE,
1.1     lukem     _URE_MODIFIER,
1.1     lukem     _URE_OTHERLETTER,
1.1     lukem     _URE_DASHPUNCT,
1.1     lukem     _URE_OPENPUNCT,
1.1     lukem     _URE_CLOSEPUNCT,
1.1     lukem     _URE_OTHERPUNCT,
1.1     lukem     _URE_MATHSYM,
1.1     lukem     _URE_CURRENCYSYM,
1.1     lukem     _URE_OTHERSYM,
1.1     lukem     _URE_LTR,
1.1     lukem     _URE_RTL,
1.1     lukem     _URE_EURONUM,
1.1     lukem     _URE_EURONUMSEP,
1.1     lukem     _URE_EURONUMTERM,
1.1     lukem     _URE_ARABNUM,
1.1     lukem     _URE_COMMONSEP,
1.1     lukem     _URE_BLOCKSEP,
1.1     lukem     _URE_SEGMENTSEP,
1.1     lukem     _URE_WHITESPACE,
1.1     lukem     _URE_OTHERNEUT,
1.1     lukem };
1.1     lukem
1.1     lukem /*
1.1     lukem  * Symbol types for the DFA.
1.1     lukem  */
1.1     lukem #define _URE_ANY_CHAR   1
1.1     lukem #define _URE_CHAR       2
1.1     lukem #define _URE_CCLASS     3
1.1     lukem #define _URE_NCCLASS    4
1.1     lukem #define _URE_BOL_ANCHOR 5
1.1     lukem #define _URE_EOL_ANCHOR 6
1.1     lukem
1.1     lukem /*
1.1     lukem  * Op codes for converting the NFA to a DFA.
1.1     lukem  */
1.1     lukem #define _URE_SYMBOL     10
1.1     lukem #define _URE_PAREN      11
1.1     lukem #define _URE_QUEST      12
1.1     lukem #define _URE_STAR       13
1.1     lukem #define _URE_PLUS       14
1.1     lukem #define _URE_ONE        15
1.1     lukem #define _URE_AND        16
1.1     lukem #define _URE_OR         17
1.1     lukem
1.1     lukem #define _URE_NOOP       0xffff
1.1     lukem
1.1     lukem #define _URE_REGSTART 0x8000
1.1     lukem #define _URE_REGEND   0x4000
1.1     lukem
1.1     lukem /*
1.1     lukem  * Structure used to handle a compacted range of characters.
1.1     lukem  */
1.1     lukem typedef struct {
1.1     lukem     ucs4_t min_code;
1.1     lukem     ucs4_t max_code;
1.1     lukem } _ure_range_t;
1.1     lukem
1.1     lukem typedef struct {
1.1     lukem     _ure_range_t *ranges;
1.1     lukem     ucs2_t ranges_used;
1.1     lukem     ucs2_t ranges_size;
1.1     lukem } _ure_ccl_t;
1.1     lukem
1.1     lukem typedef union {
1.1     lukem     ucs4_t chr;
1.1     lukem     _ure_ccl_t ccl;
1.1     lukem } _ure_sym_t;
1.1     lukem
1.1     lukem /*
1.1     lukem  * This is a general element structure used for expressions and stack
1.1     lukem  * elements.
1.1     lukem  */
1.1     lukem typedef struct {
1.1     lukem     ucs2_t reg;
1.1     lukem     ucs2_t onstack;
1.1     lukem     ucs2_t type;
1.1     lukem     ucs2_t lhs;
1.1     lukem     ucs2_t rhs;
1.1     lukem } _ure_elt_t;
1.1     lukem
1.1     lukem /*
1.1     lukem  * This is a structure used to track a list or a stack of states.
1.1     lukem  */
1.1     lukem typedef struct {
1.1     lukem     ucs2_t *slist;
1.1     lukem     ucs2_t slist_size;
1.1     lukem     ucs2_t slist_used;
1.1     lukem } _ure_stlist_t;
1.1     lukem
1.1     lukem /*
1.1     lukem  * Structure to track the list of unique states for a symbol
1.1     lukem  * during reduction.
1.1     lukem  */
1.1     lukem typedef struct {
1.1     lukem     ucs2_t id;
1.1     lukem     ucs2_t type;
1.1     lukem     unsigned long mods;
1.1     lukem     unsigned long props;
1.1     lukem     _ure_sym_t sym;
1.1     lukem     _ure_stlist_t states;
1.1     lukem } _ure_symtab_t;
1.1     lukem
1.1     lukem /*
1.1     lukem  * Structure to hold a single state.
1.1     lukem  */
1.1     lukem typedef struct {
1.1     lukem     ucs2_t id;
1.1     lukem     ucs2_t accepting;
1.1     lukem     ucs2_t pad;
1.1     lukem     _ure_stlist_t st;
1.1     lukem     _ure_elt_t *trans;
1.1     lukem     ucs2_t trans_size;
1.1     lukem     ucs2_t trans_used;
1.1     lukem } _ure_state_t;
1.1     lukem
1.1     lukem /*
1.1     lukem  * Structure used for keeping lists of states.
1.1     lukem  */
1.1     lukem typedef struct {
1.1     lukem     _ure_state_t *states;
1.1     lukem     ucs2_t states_size;
1.1     lukem     ucs2_t states_used;
1.1     lukem } _ure_statetable_t;
1.1     lukem
1.1     lukem /*
1.1     lukem  * Structure to track pairs of DFA states when equivalent states are
1.1     lukem  * merged.
1.1     lukem  */
1.1     lukem typedef struct {
1.1     lukem     ucs2_t l;
1.1     lukem     ucs2_t r;
1.1     lukem } _ure_equiv_t;
1.1     lukem
1.1     lukem /*
1.1     lukem  * Structure used for constructing the NFA and reducing to a minimal DFA.
1.1     lukem  */
1.1     lukem typedef struct _ure_buffer_t {
1.1     lukem     int reducing;
1.1     lukem     int error;
1.1     lukem     unsigned long flags;
1.1     lukem
1.1     lukem     _ure_stlist_t stack;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Table of unique symbols encountered.
1.1     lukem      */
1.1     lukem     _ure_symtab_t *symtab;
1.1     lukem     ucs2_t symtab_size;
1.1     lukem     ucs2_t symtab_used;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Tracks the unique expressions generated for the NFA and when the NFA is
1.1     lukem      * reduced.
1.1     lukem      */
1.1     lukem     _ure_elt_t *expr;
1.1     lukem     ucs2_t expr_used;
1.1     lukem     ucs2_t expr_size;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * The reduced table of unique groups of NFA states.
1.1     lukem      */
1.1     lukem     _ure_statetable_t states;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Tracks states when equivalent states are merged.
1.1     lukem      */
1.1     lukem     _ure_equiv_t *equiv;
1.1     lukem     ucs2_t equiv_used;
1.1     lukem     ucs2_t equiv_size;
1.1     lukem } _ure_buffer_t;
1.1     lukem
1.1     lukem typedef struct {
1.1     lukem     ucs2_t symbol;
1.1     lukem     ucs2_t next_state;
1.1     lukem } _ure_trans_t;
1.1     lukem
1.1     lukem typedef struct {
1.1     lukem     ucs2_t accepting;
1.1     lukem     ucs2_t ntrans;
1.1     lukem     _ure_trans_t *trans;
1.1     lukem } _ure_dstate_t;
1.1     lukem
1.1     lukem typedef struct _ure_dfa_t {
1.1     lukem     unsigned long flags;
1.1     lukem
1.1     lukem     _ure_symtab_t *syms;
1.1     lukem     ucs2_t nsyms;
1.1     lukem
1.1     lukem     _ure_dstate_t *states;
1.1     lukem     ucs2_t nstates;
1.1     lukem
1.1     lukem     _ure_trans_t *trans;
1.1     lukem     ucs2_t ntrans;
1.1     lukem } _ure_dfa_t;
1.1     lukem
1.1     lukem /*************************************************************************
1.1     lukem  *
1.1     lukem  * Functions.
1.1     lukem  *
1.1     lukem  *************************************************************************/
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_memmove(char *dest, char *src, unsigned long bytes)
1.1     lukem {
1.1     lukem     long i, j;
1.1     lukem
1.1     lukem     i = (long) bytes;
1.1     lukem     j = i & 7;
1.1     lukem     i = (i + 7) >> 3;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Do a memmove using Ye Olde Duff's Device for efficiency.
1.1     lukem      */
1.1     lukem     if (src < dest) {
1.1     lukem         src += bytes;
1.1     lukem         dest += bytes;
1.1     lukem
1.1     lukem         switch (j) {
1.1     lukem           case 0: do {
1.1     lukem               *--dest = *--src;
1.1     lukem             case 7: *--dest = *--src;
1.1     lukem             case 6: *--dest = *--src;
1.1     lukem             case 5: *--dest = *--src;
1.1     lukem             case 4: *--dest = *--src;
1.1     lukem             case 3: *--dest = *--src;
1.1     lukem             case 2: *--dest = *--src;
1.1     lukem             case 1: *--dest = *--src;
1.1     lukem           } while (--i > 0);
1.1     lukem         }
1.1     lukem     } else if (src > dest) {
1.1     lukem         switch (j) {
1.1     lukem           case 0: do {
1.1     lukem               *dest++ = *src++;
1.1     lukem             case 7: *dest++ = *src++;
1.1     lukem             case 6: *dest++ = *src++;
1.1     lukem             case 5: *dest++ = *src++;
1.1     lukem             case 4: *dest++ = *src++;
1.1     lukem             case 3: *dest++ = *src++;
1.1     lukem             case 2: *dest++ = *src++;
1.1     lukem             case 1: *dest++ = *src++;
1.1     lukem           } while (--i > 0);
1.1     lukem         }
1.1     lukem     }
1.1     lukem }
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_push(ucs2_t v, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     _ure_stlist_t *s;
1.1     lukem
1.1     lukem     if (b == 0)
1.1     lukem       return;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * If the `reducing' parameter is non-zero, check to see if the value
1.1     lukem      * passed is already on the stack.
1.1     lukem      */
1.1     lukem     if (b->reducing != 0 && b->expr[v].onstack != 0)
1.1     lukem       return;
1.1     lukem
1.1     lukem     s = &b->stack;
1.1     lukem     if (s->slist_used == s->slist_size) {
1.1     lukem         if (s->slist_size == 0)
1.1     lukem           s->slist = (ucs2_t *) malloc(sizeof(ucs2_t) << 3);
1.1     lukem         else
1.1     lukem           s->slist = (ucs2_t *) realloc((char *) s->slist,
1.1     lukem                                         sizeof(ucs2_t) * (s->slist_size + 8));
1.1     lukem         s->slist_size += 8;
1.1     lukem     }
1.1     lukem     s->slist[s->slist_used++] = v;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * If the `reducing' parameter is non-zero, flag the element as being on
1.1     lukem      * the stack.
1.1     lukem      */
1.1     lukem     if (b->reducing != 0)
1.1     lukem       b->expr[v].onstack = 1;
1.1     lukem }
1.1     lukem
1.1     lukem static ucs2_t
1.1     lukem _ure_peek(_ure_buffer_t *b)
1.1     lukem {
1.1     lukem     if (b == 0 || b->stack.slist_used == 0)
1.1     lukem       return _URE_NOOP;
1.1     lukem
1.1     lukem     return b->stack.slist[b->stack.slist_used - 1];
1.1     lukem }
1.1     lukem
1.1     lukem static ucs2_t
1.1     lukem _ure_pop(_ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t v;
1.1     lukem
1.1     lukem     if (b == 0 || b->stack.slist_used == 0)
1.1     lukem       return _URE_NOOP;
1.1     lukem
1.1     lukem     v = b->stack.slist[--b->stack.slist_used];
1.1     lukem     if (b->reducing)
1.1     lukem       b->expr[v].onstack = 0;
1.1     lukem
1.1     lukem     return v;
1.1     lukem }
1.1     lukem
1.1     lukem /*************************************************************************
1.1     lukem  *
1.1     lukem  * Start symbol parse functions.
1.1     lukem  *
1.1     lukem  *************************************************************************/
1.1     lukem
1.1     lukem /*
1.1     lukem  * Parse a comma-separated list of integers that represent character
1.1     lukem  * properties.  Combine them into a mask that is returned in the `mask'
1.1     lukem  * variable, and return the number of characters consumed.
1.1     lukem  */
1.1     lukem static unsigned long
1.1     lukem _ure_prop_list(ucs2_t *pp, unsigned long limit, unsigned long *mask,
1.1     lukem                _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     unsigned long n, m;
1.1     lukem     ucs2_t *sp, *ep;
1.1     lukem
1.1     lukem     sp = pp;
1.1     lukem     ep = sp + limit;
1.1     lukem
1.1     lukem     for (m = n = 0; b->error == _URE_OK && sp < ep; sp++) {
1.1     lukem         if (*sp == ',') {
1.1     lukem             /*
1.1     lukem              * Encountered a comma, so select the next character property flag
1.1     lukem              * and reset the number.
1.1     lukem              */
1.1     lukem             m |= cclass_flags[n];
1.1     lukem             n = 0;
1.1     lukem         } else if (*sp >= '0' && *sp <= '9')
1.1     lukem           /*
1.1     lukem            * Encountered a digit, so start or continue building the cardinal
1.1     lukem            * that represents the character property flag.
1.1     lukem            */
1.1     lukem           n = (n * 10) + (*sp - '0');
1.1     lukem         else
1.1     lukem           /*
1.1     lukem            * Encountered something that is not part of the property list.
1.1     lukem            * Indicate that we are done.
1.1     lukem            */
1.1     lukem           break;
1.1     lukem
1.1     lukem         /*
1.1     lukem          * If a property number greater than 32 occurs, then there is a
1.1     lukem          * problem.  Most likely a missing comma separator.
1.1     lukem          */
1.1     lukem         if (n > 32)
1.1     lukem           b->error = _URE_INVALID_PROPERTY;
1.1     lukem     }
1.1     lukem
1.2  christos     if (b->error == _URE_OK && n != 0)
1.1     lukem       m |= cclass_flags[n];
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Set the mask that represents the group of character properties.
1.1     lukem      */
1.1     lukem     *mask = m;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Return the number of characters consumed.
1.1     lukem      */
1.1     lukem     return sp - pp;
1.1     lukem }
1.1     lukem
1.1     lukem /*
1.1     lukem  * Collect a hex number with 1 to 4 digits and return the number
1.1     lukem  * of characters used.
1.1     lukem  */
1.1     lukem static unsigned long
1.1     lukem _ure_hex(ucs2_t *np, unsigned long limit, ucs4_t *n)
1.1     lukem {
1.1     lukem     ucs2_t i;
1.1     lukem     ucs2_t *sp, *ep;
1.1     lukem     ucs4_t nn;
1.1     lukem
1.1     lukem     sp = np;
1.1     lukem     ep = sp + limit;
1.1     lukem
1.1     lukem     for (nn = 0, i = 0; i < 4 && sp < ep; i++, sp++) {
1.1     lukem         if (*sp >= '0' && *sp <= '9')
1.1     lukem           nn = (nn << 4) + (*sp - '0');
1.1     lukem         else if (*sp >= 'A' && *sp <= 'F')
1.1     lukem           nn = (nn << 4) + ((*sp - 'A') + 10);
1.1     lukem         else if (*sp >= 'a' && *sp <= 'f')
1.1     lukem           nn = (nn << 4) + ((*sp - 'a') + 10);
1.1     lukem         else
1.1     lukem           /*
1.1     lukem            * Encountered something that is not a hex digit.
1.1     lukem            */
1.1     lukem           break;
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Assign the character code collected and return the number of
1.1     lukem      * characters used.
1.1     lukem      */
1.1     lukem     *n = nn;
1.1     lukem
1.1     lukem     return sp - np;
1.1     lukem }
1.1     lukem
1.1     lukem /*
1.1     lukem  * Insert a range into a character class, removing duplicates and ordering
1.1     lukem  * them in increasing range-start order.
1.1     lukem  */
1.1     lukem static void
1.1     lukem _ure_add_range(_ure_ccl_t *ccl, _ure_range_t *r, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t i;
1.1     lukem     ucs4_t tmp;
1.1     lukem     _ure_range_t *rp;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * If the `casefold' flag is set, then make sure both endpoints of the
1.1     lukem      * range are converted to lower case.
1.1     lukem      */
1.1     lukem     if (b->flags & _URE_DFA_CASEFOLD) {
1.1     lukem         r->min_code = _ure_tolower(r->min_code);
1.1     lukem         r->max_code = _ure_tolower(r->max_code);
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Swap the range endpoints if they are not in increasing order.
1.1     lukem      */
1.1     lukem     if (r->min_code > r->max_code) {
1.1     lukem         tmp = r->min_code;
1.1     lukem         r->min_code = r->max_code;
1.1     lukem         r->max_code = tmp;
1.1     lukem     }
1.1     lukem
1.1     lukem     for (i = 0, rp = ccl->ranges;
1.1     lukem          i < ccl->ranges_used && r->min_code < rp->min_code; i++, rp++) ;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Check for a duplicate.
1.1     lukem      */
1.1     lukem     if (i < ccl->ranges_used &&
1.1     lukem         r->min_code == rp->min_code && r->max_code == rp->max_code)
1.1     lukem       return;
1.1     lukem
1.1     lukem     if (ccl->ranges_used == ccl->ranges_size) {
1.1     lukem         if (ccl->ranges_size == 0)
1.1     lukem           ccl->ranges = (_ure_range_t *) malloc(sizeof(_ure_range_t) << 3);
1.1     lukem         else
1.1     lukem           ccl->ranges = (_ure_range_t *)
1.1     lukem               realloc((char *) ccl->ranges,
1.1     lukem                       sizeof(_ure_range_t) * (ccl->ranges_size + 8));
1.1     lukem         ccl->ranges_size += 8;
1.1     lukem     }
1.1     lukem
1.1     lukem     rp = ccl->ranges + ccl->ranges_used;
1.1     lukem
1.1     lukem     if (i < ccl->ranges_used)
1.1     lukem       _ure_memmove((char *) (rp + 1), (char *) rp,
1.1     lukem                    sizeof(_ure_range_t) * (ccl->ranges_used - i));
1.1     lukem
1.1     lukem     ccl->ranges_used++;
1.1     lukem     rp->min_code = r->min_code;
1.1     lukem     rp->max_code = r->max_code;
1.1     lukem }
1.1     lukem
1.1     lukem #define _URE_ALPHA_MASK  (_URE_UPPER|_URE_LOWER|_URE_OTHERLETTER|\
1.1     lukem _URE_MODIFIER|_URE_TITLE|_URE_NONSPACING|_URE_COMBINING)
1.1     lukem #define _URE_ALNUM_MASK  (_URE_ALPHA_MASK|_URE_NUMDIGIT)
1.1     lukem #define _URE_PUNCT_MASK  (_URE_DASHPUNCT|_URE_OPENPUNCT|_URE_CLOSEPUNCT|\
1.1     lukem _URE_OTHERPUNCT)
1.1     lukem #define _URE_GRAPH_MASK (_URE_NUMDIGIT|_URE_NUMOTHER|_URE_ALPHA_MASK|\
1.1     lukem _URE_MATHSYM|_URE_CURRENCYSYM|_URE_OTHERSYM)
1.1     lukem #define _URE_PRINT_MASK (_URE_GRAPH_MASK|_URE_SPACESEP)
1.1     lukem #define _URE_SPACE_MASK  (_URE_SPACESEP|_URE_LINESEP|_URE_PARASEP)
1.1     lukem
1.1     lukem typedef void (*_ure_cclsetup_t)(
1.1     lukem     _ure_symtab_t *sym,
1.1     lukem     unsigned long mask,
1.1     lukem     _ure_buffer_t *b
1.1     lukem );
1.1     lukem
1.1     lukem typedef struct {
1.1     lukem     ucs2_t key;
1.1     lukem     unsigned long len;
1.1     lukem     unsigned long next;
1.1     lukem     _ure_cclsetup_t func;
1.1     lukem     unsigned long mask;
1.1     lukem } _ure_trie_t;
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_ccl_setup(_ure_symtab_t *sym, unsigned long mask, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     sym->props |= mask;
1.1     lukem }
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_space_setup(_ure_symtab_t *sym, unsigned long mask, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     _ure_range_t range;
1.1     lukem
1.1     lukem     sym->props |= mask;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Add the additional characters needed for handling isspace().
1.1     lukem      */
1.1     lukem     range.min_code = range.max_code = '\t';
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem     range.min_code = range.max_code = '\r';
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem     range.min_code = range.max_code = '\n';
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem     range.min_code = range.max_code = '\f';
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem     range.min_code = range.max_code = 0xfeff;
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem }
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_xdigit_setup(_ure_symtab_t *sym, unsigned long mask, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     _ure_range_t range;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Add the additional characters needed for handling isxdigit().
1.1     lukem      */
1.1     lukem     range.min_code = '0';
1.1     lukem     range.max_code = '9';
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem     range.min_code = 'A';
1.1     lukem     range.max_code = 'F';
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem     range.min_code = 'a';
1.1     lukem     range.max_code = 'f';
1.1     lukem     _ure_add_range(&sym->sym.ccl, &range, b);
1.1     lukem }
1.1     lukem
1.1     lukem static _ure_trie_t cclass_trie[] = {
1.1     lukem     {0x003a, 1, 1, 0, 0},
1.1     lukem     {0x0061, 9, 10, 0, 0},
1.1     lukem     {0x0063, 8, 19, 0, 0},
1.1     lukem     {0x0064, 7, 24, 0, 0},
1.1     lukem     {0x0067, 6, 29, 0, 0},
1.1     lukem     {0x006c, 5, 34, 0, 0},
1.1     lukem     {0x0070, 4, 39, 0, 0},
1.1     lukem     {0x0073, 3, 49, 0, 0},
1.1     lukem     {0x0075, 2, 54, 0, 0},
1.1     lukem     {0x0078, 1, 59, 0, 0},
1.1     lukem     {0x006c, 1, 11, 0, 0},
1.1     lukem     {0x006e, 2, 13, 0, 0},
1.1     lukem     {0x0070, 1, 16, 0, 0},
1.1     lukem     {0x0075, 1, 14, 0, 0},
1.1     lukem     {0x006d, 1, 15, 0, 0},
1.1     lukem     {0x003a, 1, 16, _ure_ccl_setup, _URE_ALNUM_MASK},
1.1     lukem     {0x0068, 1, 17, 0, 0},
1.1     lukem     {0x0061, 1, 18, 0, 0},
1.1     lukem     {0x003a, 1, 19, _ure_ccl_setup, _URE_ALPHA_MASK},
1.1     lukem     {0x006e, 1, 20, 0, 0},
1.1     lukem     {0x0074, 1, 21, 0, 0},
1.1     lukem     {0x0072, 1, 22, 0, 0},
1.1     lukem     {0x006c, 1, 23, 0, 0},
1.1     lukem     {0x003a, 1, 24, _ure_ccl_setup, _URE_CNTRL},
1.1     lukem     {0x0069, 1, 25, 0, 0},
1.1     lukem     {0x0067, 1, 26, 0, 0},
1.1     lukem     {0x0069, 1, 27, 0, 0},
1.1     lukem     {0x0074, 1, 28, 0, 0},
1.1     lukem     {0x003a, 1, 29, _ure_ccl_setup, _URE_NUMDIGIT},
1.1     lukem     {0x0072, 1, 30, 0, 0},
1.1     lukem     {0x0061, 1, 31, 0, 0},
1.1     lukem     {0x0070, 1, 32, 0, 0},
1.1     lukem     {0x0068, 1, 33, 0, 0},
1.1     lukem     {0x003a, 1, 34, _ure_ccl_setup, _URE_GRAPH_MASK},
1.1     lukem     {0x006f, 1, 35, 0, 0},
1.1     lukem     {0x0077, 1, 36, 0, 0},
1.1     lukem     {0x0065, 1, 37, 0, 0},
1.1     lukem     {0x0072, 1, 38, 0, 0},
1.1     lukem     {0x003a, 1, 39, _ure_ccl_setup, _URE_LOWER},
1.1     lukem     {0x0072, 2, 41, 0, 0},
1.1     lukem     {0x0075, 1, 45, 0, 0},
1.1     lukem     {0x0069, 1, 42, 0, 0},
1.1     lukem     {0x006e, 1, 43, 0, 0},
1.1     lukem     {0x0074, 1, 44, 0, 0},
1.1     lukem     {0x003a, 1, 45, _ure_ccl_setup, _URE_PRINT_MASK},
1.1     lukem     {0x006e, 1, 46, 0, 0},
1.1     lukem     {0x0063, 1, 47, 0, 0},
1.1     lukem     {0x0074, 1, 48, 0, 0},
1.1     lukem     {0x003a, 1, 49, _ure_ccl_setup, _URE_PUNCT_MASK},
1.1     lukem     {0x0070, 1, 50, 0, 0},
1.1     lukem     {0x0061, 1, 51, 0, 0},
1.1     lukem     {0x0063, 1, 52, 0, 0},
1.1     lukem     {0x0065, 1, 53, 0, 0},
1.1     lukem     {0x003a, 1, 54, _ure_space_setup, _URE_SPACE_MASK},
1.1     lukem     {0x0070, 1, 55, 0, 0},
1.1     lukem     {0x0070, 1, 56, 0, 0},
1.1     lukem     {0x0065, 1, 57, 0, 0},
1.1     lukem     {0x0072, 1, 58, 0, 0},
1.1     lukem     {0x003a, 1, 59, _ure_ccl_setup, _URE_UPPER},
1.1     lukem     {0x0064, 1, 60, 0, 0},
1.1     lukem     {0x0069, 1, 61, 0, 0},
1.1     lukem     {0x0067, 1, 62, 0, 0},
1.1     lukem     {0x0069, 1, 63, 0, 0},
1.1     lukem     {0x0074, 1, 64, 0, 0},
1.1     lukem     {0x003a, 1, 65, _ure_xdigit_setup, 0},
1.1     lukem };
1.1     lukem
1.1     lukem /*
1.1     lukem  * Probe for one of the POSIX colon delimited character classes in the static
1.1     lukem  * trie.
1.1     lukem  */
1.1     lukem static unsigned long
1.1     lukem _ure_posix_ccl(ucs2_t *cp, unsigned long limit, _ure_symtab_t *sym,
1.1     lukem                _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     int i;
1.1     lukem     unsigned long n;
1.1     lukem     _ure_trie_t *tp;
1.1     lukem     ucs2_t *sp, *ep;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * If the number of characters left is less than 7, then this cannot be
1.1     lukem      * interpreted as one of the colon delimited classes.
1.1     lukem      */
1.1     lukem     if (limit < 7)
1.1     lukem       return 0;
1.1     lukem
1.1     lukem     sp = cp;
1.1     lukem     ep = sp + limit;
1.1     lukem     tp = cclass_trie;
1.1     lukem     for (i = 0; sp < ep && i < 8; i++, sp++) {
1.1     lukem         n = tp->len;
1.1     lukem
1.1     lukem         for (; n > 0 && tp->key != *sp; tp++, n--) ;
1.1     lukem
1.1     lukem         if (n == 0)
1.1     lukem           return 0;
1.1     lukem
1.1     lukem         if (*sp == ':' && (i == 6 || i == 7)) {
1.1     lukem             sp++;
1.1     lukem             break;
1.1     lukem         }
1.1     lukem         if (sp + 1 < ep)
1.1     lukem           tp = cclass_trie + tp->next;
1.1     lukem     }
1.1     lukem     if (tp->func == 0)
1.1     lukem       return 0;
1.1     lukem
1.1     lukem     (*tp->func)(sym, tp->mask, b);
1.1     lukem
1.1     lukem     return sp - cp;
1.1     lukem }
1.1     lukem
1.1     lukem /*
1.1     lukem  * Construct a list of ranges and return the number of characters consumed.
1.1     lukem  */
1.1     lukem static unsigned long
1.1     lukem _ure_cclass(ucs2_t *cp, unsigned long limit, _ure_symtab_t *symp,
1.1     lukem             _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     int range_end;
1.1     lukem     unsigned long n;
1.1     lukem     ucs2_t *sp, *ep;
1.1     lukem     ucs4_t c, last;
1.1     lukem     _ure_ccl_t *cclp;
1.1     lukem     _ure_range_t range;
1.1     lukem
1.1     lukem     sp = cp;
1.1     lukem     ep = sp + limit;
1.1     lukem
1.1     lukem     if (*sp == '^') {
1.1     lukem       symp->type = _URE_NCCLASS;
1.1     lukem       sp++;
1.1     lukem     } else
1.1     lukem       symp->type = _URE_CCLASS;
1.1     lukem
1.1     lukem     for (last = 0, range_end = 0;
1.1     lukem          b->error == _URE_OK && sp < ep && *sp != ']'; ) {
1.1     lukem         c = *sp++;
1.1     lukem         if (c == '\\') {
1.1     lukem             if (sp == ep) {
1.1     lukem                 /*
1.1     lukem                  * The EOS was encountered when expecting the reverse solidus
1.1     lukem                  * to be followed by the character it is escaping.  Set an
1.1     lukem                  * error code and return the number of characters consumed up
1.1     lukem                  * to this point.
1.1     lukem                  */
1.1     lukem                 b->error = _URE_UNEXPECTED_EOS;
1.1     lukem                 return sp - cp;
1.1     lukem             }
1.1     lukem
1.1     lukem             c = *sp++;
1.1     lukem             switch (c) {
1.1     lukem               case 'a':
1.1     lukem                 c = 0x07;
1.1     lukem                 break;
1.1     lukem               case 'b':
1.1     lukem                 c = 0x08;
1.1     lukem                 break;
1.1     lukem               case 'f':
1.1     lukem                 c = 0x0c;
1.1     lukem                 break;
1.1     lukem               case 'n':
1.1     lukem                 c = 0x0a;
1.1     lukem                 break;
1.1     lukem               case 'r':
1.1     lukem                 c = 0x0d;
1.1     lukem                 break;
1.1     lukem               case 't':
1.1     lukem                 c = 0x09;
1.1     lukem                 break;
1.1     lukem               case 'v':
1.1     lukem                 c = 0x0b;
1.1     lukem                 break;
1.1     lukem               case 'p':
1.1     lukem               case 'P':
1.1     lukem                 sp += _ure_prop_list(sp, ep - sp, &symp->props, b);
1.1     lukem                 /*
1.1     lukem                  * Invert the bit mask of the properties if this is a negated
1.1     lukem                  * character class or if 'P' is used to specify a list of
1.1     lukem                  * character properties that should *not* match in a
1.1     lukem                  * character class.
1.1     lukem                  */
1.1     lukem                 if (c == 'P')
1.1     lukem                   symp->props = ~symp->props;
1.1     lukem                 continue;
1.1     lukem                 break;
1.1     lukem               case 'x':
1.1     lukem               case 'X':
1.1     lukem               case 'u':
1.1     lukem               case 'U':
1.1     lukem                 if (sp < ep &&
1.1     lukem                     ((*sp >= '0' && *sp <= '9') ||
1.1     lukem                      (*sp >= 'A' && *sp <= 'F') ||
1.1     lukem                      (*sp >= 'a' && *sp <= 'f')))
1.1     lukem                   sp += _ure_hex(sp, ep - sp, &c);
1.1     lukem             }
1.1     lukem         } else if (c == ':') {
1.1     lukem             /*
1.1     lukem              * Probe for a POSIX colon delimited character class.
1.1     lukem              */
1.1     lukem             sp--;
1.1     lukem             if ((n = _ure_posix_ccl(sp, ep - sp, symp, b)) == 0)
1.1     lukem               sp++;
1.1     lukem             else {
1.1     lukem                 sp += n;
1.1     lukem                 continue;
1.1     lukem             }
1.1     lukem         }
1.1     lukem
1.1     lukem         cclp = &symp->sym.ccl;
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Check to see if the current character is a low surrogate that needs
1.1     lukem          * to be combined with a preceding high surrogate.
1.1     lukem          */
1.1     lukem         if (last != 0) {
1.1     lukem             if (c >= 0xdc00 && c <= 0xdfff)
1.1     lukem               /*
1.1     lukem                * Construct the UTF16 character code.
1.1     lukem                */
1.1     lukem               c = 0x10000 + (((last & 0x03ff) << 10) | (c & 0x03ff));
1.1     lukem             else {
1.1     lukem                 /*
1.1     lukem                  * Add the isolated high surrogate to the range.
1.1     lukem                  */
1.1     lukem                 if (range_end == 1)
1.1     lukem                   range.max_code = last & 0xffff;
1.1     lukem                 else
1.1     lukem                   range.min_code = range.max_code = last & 0xffff;
1.1     lukem
1.1     lukem                 _ure_add_range(cclp, &range, b);
1.1     lukem                 range_end = 0;
1.1     lukem             }
1.1     lukem         }
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Clear the last character code.
1.1     lukem          */
1.1     lukem         last = 0;
1.1     lukem
1.1     lukem         /*
1.1     lukem          * This slightly awkward code handles the different cases needed to
1.1     lukem          * construct a range.
1.1     lukem          */
1.1     lukem         if (c >= 0xd800 && c <= 0xdbff) {
1.1     lukem             /*
1.1     lukem              * If the high surrogate is followed by a range indicator, simply
1.1     lukem              * add it as the range start.  Otherwise, save it in case the next
1.1     lukem              * character is a low surrogate.
1.1     lukem              */
1.1     lukem             if (*sp == '-') {
1.1     lukem                 sp++;
1.1     lukem                 range.min_code = c;
1.1     lukem                 range_end = 1;
1.1     lukem             } else
1.1     lukem               last = c;
1.1     lukem         } else if (range_end == 1) {
1.1     lukem             range.max_code = c;
1.1     lukem             _ure_add_range(cclp, &range, b);
1.1     lukem             range_end = 0;
1.1     lukem         } else {
1.1     lukem             range.min_code = range.max_code = c;
1.1     lukem             if (*sp == '-') {
1.1     lukem                 sp++;
1.1     lukem                 range_end = 1;
1.1     lukem             } else
1.1     lukem               _ure_add_range(cclp, &range, b);
1.1     lukem         }
1.1     lukem     }
1.1     lukem
1.1     lukem     if (sp < ep && *sp == ']')
1.1     lukem       sp++;
1.1     lukem     else
1.1     lukem       /*
1.1     lukem        * The parse was not terminated by the character class close symbol
1.1     lukem        * (']'), so set an error code.
1.1     lukem        */
1.1     lukem       b->error = _URE_CCLASS_OPEN;
1.1     lukem
1.1     lukem     return sp - cp;
1.1     lukem }
1.1     lukem
1.1     lukem /*
1.1     lukem  * Probe for a low surrogate hex code.
1.1     lukem  */
1.1     lukem static unsigned long
1.1     lukem _ure_probe_ls(ucs2_t *ls, unsigned long limit, ucs4_t *c)
1.1     lukem {
1.1     lukem     ucs4_t i, code;
1.1     lukem     ucs2_t *sp, *ep;
1.1     lukem
1.1     lukem     for (i = code = 0, sp = ls, ep = sp + limit; i < 4 && sp < ep; sp++) {
1.1     lukem         if (*sp >= '0' && *sp <= '9')
1.1     lukem           code = (code << 4) + (*sp - '0');
1.1     lukem         else if (*sp >= 'A' && *sp <= 'F')
1.1     lukem           code = (code << 4) + ((*sp - 'A') + 10);
1.1     lukem         else if (*sp >= 'a' && *sp <= 'f')
1.1     lukem           code = (code << 4) + ((*sp - 'a') + 10);
1.1     lukem         else
1.1     lukem           break;
1.1     lukem     }
1.1     lukem
1.1     lukem     *c = code;
1.1     lukem     return (0xdc00 <= code && code <= 0xdfff) ? sp - ls : 0;
1.1     lukem }
1.1     lukem
1.1     lukem static unsigned long
1.1     lukem _ure_compile_symbol(ucs2_t *sym, unsigned long limit, _ure_symtab_t *symp,
1.1     lukem                     _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs4_t c;
1.1     lukem     ucs2_t *sp, *ep;
1.1     lukem
1.1     lukem     sp = sym;
1.1     lukem     ep = sym + limit;
1.1     lukem
1.1     lukem     if ((c = *sp++) == '\\') {
1.1     lukem
1.1     lukem         if (sp == ep) {
1.1     lukem             /*
1.1     lukem              * The EOS was encountered when expecting the reverse solidus to
1.1     lukem              * be followed by the character it is escaping.  Set an error code
1.1     lukem              * and return the number of characters consumed up to this point.
1.1     lukem              */
1.1     lukem             b->error = _URE_UNEXPECTED_EOS;
1.1     lukem             return sp - sym;
1.1     lukem         }
1.1     lukem
1.1     lukem         c = *sp++;
1.1     lukem         switch (c) {
1.1     lukem           case 'p':
1.1     lukem           case 'P':
1.1     lukem             symp->type = (c == 'p') ? _URE_CCLASS : _URE_NCCLASS;
1.1     lukem             sp += _ure_prop_list(sp, ep - sp, &symp->props, b);
1.1     lukem             break;
1.1     lukem           case 'a':
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = 0x07;
1.1     lukem             break;
1.1     lukem           case 'b':
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = 0x08;
1.1     lukem             break;
1.1     lukem           case 'f':
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = 0x0c;
1.1     lukem             break;
1.1     lukem           case 'n':
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = 0x0a;
1.1     lukem             break;
1.1     lukem           case 'r':
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = 0x0d;
1.1     lukem             break;
1.1     lukem           case 't':
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = 0x09;
1.1     lukem             break;
1.1     lukem           case 'v':
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = 0x0b;
1.1     lukem             break;
1.1     lukem           case 'x':
1.1     lukem           case 'X':
1.1     lukem           case 'u':
1.1     lukem           case 'U':
1.1     lukem             /*
1.1     lukem              * Collect between 1 and 4 digits representing a UCS2 code.  Fall
1.1     lukem              * through to the next case.
1.1     lukem              */
1.1     lukem             if (sp < ep &&
1.1     lukem                 ((*sp >= '0' && *sp <= '9') ||
1.1     lukem                  (*sp >= 'A' && *sp <= 'F') ||
1.1     lukem                  (*sp >= 'a' && *sp <= 'f')))
1.1     lukem               sp += _ure_hex(sp, ep - sp, &c);
1.1     lukem             /* FALLTHROUGH */
1.1     lukem           default:
1.1     lukem             /*
1.1     lukem              * Simply add an escaped character here.
1.1     lukem              */
1.1     lukem             symp->type = _URE_CHAR;
1.1     lukem             symp->sym.chr = c;
1.1     lukem         }
1.1     lukem     } else if (c == '^' || c == '$')
1.1     lukem       /*
1.1     lukem        * Handle the BOL and EOL anchors.  This actually consists simply of
1.1     lukem        * setting a flag that indicates that the user supplied anchor match
1.1     lukem        * function should be called.  This needs to be done instead of simply
1.1     lukem        * matching line/paragraph separators because beginning-of-text and
1.1     lukem        * end-of-text tests are needed as well.
1.1     lukem        */
1.1     lukem       symp->type = (c == '^') ? _URE_BOL_ANCHOR : _URE_EOL_ANCHOR;
1.1     lukem     else if (c == '[')
1.1     lukem       /*
1.1     lukem        * Construct a character class.
1.1     lukem        */
1.1     lukem       sp += _ure_cclass(sp, ep - sp, symp, b);
1.1     lukem     else if (c == '.')
1.1     lukem       symp->type = _URE_ANY_CHAR;
1.1     lukem     else {
1.1     lukem         symp->type = _URE_CHAR;
1.1     lukem         symp->sym.chr = c;
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * If the symbol type happens to be a character and is a high surrogate,
1.1     lukem      * then probe forward to see if it is followed by a low surrogate that
1.1     lukem      * needs to be added.
1.1     lukem      */
1.1     lukem     if (sp < ep && symp->type == _URE_CHAR &&
1.1     lukem         0xd800 <= symp->sym.chr && symp->sym.chr <= 0xdbff) {
1.1     lukem
1.1     lukem         if (0xdc00 <= *sp && *sp <= 0xdfff) {
1.1     lukem             symp->sym.chr = 0x10000 + (((symp->sym.chr & 0x03ff) << 10) |
1.1     lukem                                        (*sp & 0x03ff));
1.1     lukem             sp++;
1.1     lukem         } else if (*sp == '\\' && (*(sp + 1) == 'x' || *(sp + 1) == 'X' ||
1.1     lukem                                  *(sp + 1) == 'u' || *(sp + 1) == 'U')) {
1.1     lukem             sp += _ure_probe_ls(sp + 2, ep - (sp + 2), &c);
1.1     lukem             if (0xdc00 <= c && c <= 0xdfff) {
1.1     lukem                 /*
1.1     lukem                  * Take into account the \[xu] in front of the hex code.
1.1     lukem                  */
1.1     lukem                 sp += 2;
1.1     lukem                 symp->sym.chr = 0x10000 + (((symp->sym.chr & 0x03ff) << 10) |
1.1     lukem                                            (c & 0x03ff));
1.1     lukem             }
1.1     lukem         }
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Last, make sure any _URE_CHAR type symbols are changed to lower case if
1.1     lukem      * the `casefold' flag is set.
1.1     lukem      */
1.1     lukem     if ((b->flags & _URE_DFA_CASEFOLD) && symp->type == _URE_CHAR)
1.1     lukem       symp->sym.chr = _ure_tolower(symp->sym.chr);
1.1     lukem
1.1     lukem     /*
1.1     lukem      * If the symbol constructed is anything other than one of the anchors,
1.1     lukem      * make sure the _URE_DFA_BLANKLINE flag is removed.
1.1     lukem      */
1.1     lukem     if (symp->type != _URE_BOL_ANCHOR && symp->type != _URE_EOL_ANCHOR)
1.1     lukem       b->flags &= ~_URE_DFA_BLANKLINE;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Return the number of characters consumed.
1.1     lukem      */
1.1     lukem     return sp - sym;
1.1     lukem }
1.1     lukem
1.1     lukem static int
1.1     lukem _ure_sym_neq(_ure_symtab_t *a, _ure_symtab_t *b)
1.1     lukem {
1.1     lukem     if (a->type != b->type || a->mods != b->mods || a->props != b->props)
1.1     lukem       return 1;
1.1     lukem
1.1     lukem     if (a->type == _URE_CCLASS || a->type == _URE_NCCLASS) {
1.1     lukem         if (a->sym.ccl.ranges_used != b->sym.ccl.ranges_used)
1.1     lukem           return 1;
1.1     lukem         if (a->sym.ccl.ranges_used > 0 &&
1.1     lukem             memcmp((char *) a->sym.ccl.ranges, (char *) b->sym.ccl.ranges,
1.1     lukem                    sizeof(_ure_range_t) * a->sym.ccl.ranges_used) != 0)
1.1     lukem           return 1;
1.1     lukem     } else if (a->type == _URE_CHAR && a->sym.chr != b->sym.chr)
1.1     lukem       return 1;
1.1     lukem     return 0;
1.1     lukem }
1.1     lukem
1.1     lukem /*
1.1     lukem  * Construct a symbol, but only keep unique symbols.
1.1     lukem  */
1.1     lukem static ucs2_t
1.1     lukem _ure_make_symbol(ucs2_t *sym, unsigned long limit, unsigned long *consumed,
1.1     lukem                  _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t i;
1.1     lukem     _ure_symtab_t *sp, symbol;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Build the next symbol so we can test to see if it is already in the
1.1     lukem      * symbol table.
1.1     lukem      */
1.1     lukem     (void) memset((char *) &symbol, '\0', sizeof(_ure_symtab_t));
1.1     lukem     *consumed = _ure_compile_symbol(sym, limit, &symbol, b);
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Check to see if the symbol exists.
1.1     lukem      */
1.1     lukem     for (i = 0, sp = b->symtab;
1.1     lukem          i < b->symtab_used && _ure_sym_neq(&symbol, sp); i++, sp++) ;
1.1     lukem
1.1     lukem     if (i < b->symtab_used) {
1.1     lukem         /*
1.1     lukem          * Free up any ranges used for the symbol.
1.1     lukem          */
1.1     lukem         if ((symbol.type == _URE_CCLASS || symbol.type == _URE_NCCLASS) &&
1.1     lukem             symbol.sym.ccl.ranges_size > 0)
1.1     lukem           free((char *) symbol.sym.ccl.ranges);
1.1     lukem
1.1     lukem         return b->symtab[i].id;
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Need to add the new symbol.
1.1     lukem      */
1.1     lukem     if (b->symtab_used == b->symtab_size) {
1.1     lukem         if (b->symtab_size == 0)
1.1     lukem           b->symtab = (_ure_symtab_t *) malloc(sizeof(_ure_symtab_t) << 3);
1.1     lukem         else
1.1     lukem           b->symtab = (_ure_symtab_t *)
1.1     lukem               realloc((char *) b->symtab,
1.1     lukem                       sizeof(_ure_symtab_t) * (b->symtab_size + 8));
1.1     lukem         sp = b->symtab + b->symtab_size;
1.1     lukem         (void) memset((char *) sp, '\0', sizeof(_ure_symtab_t) << 3);
1.1     lukem         b->symtab_size += 8;
1.1     lukem     }
1.1     lukem
1.1     lukem     symbol.id = b->symtab_used++;
1.1     lukem     (void) AC_MEMCPY((char *) &b->symtab[symbol.id], (char *) &symbol,
1.1     lukem                   sizeof(_ure_symtab_t));
1.1     lukem
1.1     lukem     return symbol.id;
1.1     lukem }
1.1     lukem
1.1     lukem /*************************************************************************
1.1     lukem  *
1.1     lukem  * End symbol parse functions.
1.1     lukem  *
1.1     lukem  *************************************************************************/
1.1     lukem
1.1     lukem static ucs2_t
1.1     lukem _ure_make_expr(ucs2_t type, ucs2_t lhs, ucs2_t rhs, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t i;
1.1     lukem
1.1     lukem     if (b == 0)
1.1     lukem       return _URE_NOOP;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Determine if the expression already exists or not.
1.1     lukem      */
1.1     lukem     for (i = 0; i < b->expr_used; i++) {
1.1     lukem         if (b->expr[i].type == type && b->expr[i].lhs == lhs &&
1.1     lukem             b->expr[i].rhs == rhs)
1.1     lukem           break;
1.1     lukem     }
1.1     lukem     if (i < b->expr_used)
1.1     lukem       return i;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Need to add a new expression.
1.1     lukem      */
1.1     lukem     if (b->expr_used == b->expr_size) {
1.1     lukem         if (b->expr_size == 0)
1.1     lukem           b->expr = (_ure_elt_t *) malloc(sizeof(_ure_elt_t) << 3);
1.1     lukem         else
1.1     lukem           b->expr = (_ure_elt_t *)
1.1     lukem               realloc((char *) b->expr,
1.1     lukem                       sizeof(_ure_elt_t) * (b->expr_size + 8));
1.1     lukem         b->expr_size += 8;
1.1     lukem     }
1.1     lukem
1.1     lukem     b->expr[b->expr_used].onstack = 0;
1.1     lukem     b->expr[b->expr_used].type = type;
1.1     lukem     b->expr[b->expr_used].lhs = lhs;
1.1     lukem     b->expr[b->expr_used].rhs = rhs;
1.1     lukem
1.1     lukem     return b->expr_used++;
1.1     lukem }
1.1     lukem
1.1     lukem static unsigned char spmap[] = {
1.1     lukem     0x00, 0x00, 0x00, 0x00, 0x00, 0x0f, 0x00, 0x80, 0x00, 0x00, 0x00, 0x00,
1.1     lukem     0x00, 0x00, 0x00, 0x10, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
1.1     lukem     0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00, 0x00,
1.1     lukem };
1.1     lukem
1.1     lukem #define _ure_isspecial(cc) ((cc) > 0x20 && (cc) < 0x7f && \
1.1     lukem                             (spmap[(cc) >> 3] & (1 << ((cc) & 7))))
1.1     lukem
1.1     lukem /*
1.1     lukem  * Convert the regular expression into an NFA in a form that will be easy to
1.1     lukem  * reduce to a DFA.  The starting state for the reduction will be returned.
1.1     lukem  */
1.1     lukem static ucs2_t
1.1     lukem _ure_re2nfa(ucs2_t *re, unsigned long relen, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t c, state, top, sym, *sp, *ep;
1.1     lukem     unsigned long used;
1.1     lukem
1.1     lukem     state = _URE_NOOP;
1.1     lukem
1.1     lukem     sp = re;
1.1     lukem     ep = sp + relen;
1.1     lukem     while (b->error == _URE_OK && sp < ep) {
1.1     lukem         c = *sp++;
1.1     lukem         switch (c) {
1.1     lukem           case '(':
1.1     lukem             _ure_push(_URE_PAREN, b);
1.1     lukem             break;
1.1     lukem           case ')':
1.1     lukem             /*
1.1     lukem              * Check for the case of too many close parentheses.
1.1     lukem              */
1.1     lukem             if (_ure_peek(b) == _URE_NOOP) {
1.1     lukem                 b->error = _URE_UNBALANCED_GROUP;
1.1     lukem                 break;
1.1     lukem             }
1.1     lukem
1.1     lukem             while ((top = _ure_peek(b)) == _URE_AND || top == _URE_OR)
1.1     lukem               /*
1.1     lukem                * Make an expression with the AND or OR operator and its right
1.1     lukem                * hand side.
1.1     lukem                */
1.1     lukem               state = _ure_make_expr(_ure_pop(b), _ure_pop(b), state, b);
1.1     lukem
1.1     lukem             /*
1.1     lukem              * Remove the _URE_PAREN off the stack.
1.1     lukem              */
1.1     lukem             (void) _ure_pop(b);
1.1     lukem             break;
1.1     lukem           case '*':
1.1     lukem             state = _ure_make_expr(_URE_STAR, state, _URE_NOOP, b);
1.1     lukem             break;
1.1     lukem           case '+':
1.1     lukem             state = _ure_make_expr(_URE_PLUS, state, _URE_NOOP, b);
1.1     lukem             break;
1.1     lukem           case '?':
1.1     lukem             state = _ure_make_expr(_URE_QUEST, state, _URE_NOOP, b);
1.1     lukem             break;
1.1     lukem           case '|':
1.1     lukem             while ((top = _ure_peek(b)) == _URE_AND || top == _URE_OR)
1.1     lukem               /*
1.1     lukem                * Make an expression with the AND or OR operator and its right
1.1     lukem                * hand side.
1.1     lukem                */
1.1     lukem               state = _ure_make_expr(_ure_pop(b), _ure_pop(b), state, b);
1.1     lukem
1.1     lukem             _ure_push(state, b);
1.1     lukem             _ure_push(_URE_OR, b);
1.1     lukem             break;
1.1     lukem           default:
1.1     lukem             sp--;
1.1     lukem             sym = _ure_make_symbol(sp, ep - sp, &used, b);
1.1     lukem             sp += used;
1.1     lukem             state = _ure_make_expr(_URE_SYMBOL, sym, _URE_NOOP, b);
1.1     lukem             break;
1.1     lukem         }
1.1     lukem
1.1     lukem         if (c != '(' && c != '|' && sp < ep &&
1.1     lukem             (!_ure_isspecial(*sp) || *sp == '(')) {
1.1     lukem             _ure_push(state, b);
1.1     lukem             _ure_push(_URE_AND, b);
1.1     lukem         }
1.1     lukem     }
1.1     lukem     while ((top = _ure_peek(b)) == _URE_AND || top == _URE_OR)
1.1     lukem       /*
1.1     lukem        * Make an expression with the AND or OR operator and its right
1.1     lukem        * hand side.
1.1     lukem        */
1.1     lukem       state = _ure_make_expr(_ure_pop(b), _ure_pop(b), state, b);
1.1     lukem
1.1     lukem     if (b->stack.slist_used > 0)
1.1     lukem       b->error = _URE_UNBALANCED_GROUP;
1.1     lukem
1.1     lukem     return (b->error == _URE_OK) ? state : _URE_NOOP;
1.1     lukem }
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_add_symstate(ucs2_t sym, ucs2_t state, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t i, *stp;
1.1     lukem     _ure_symtab_t *sp;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Locate the symbol in the symbol table so the state can be added.
1.1     lukem      * If the symbol doesn't exist, then a real problem exists.
1.1     lukem      */
1.1     lukem     for (i = 0, sp = b->symtab; i < b->symtab_used && sym != sp->id;
1.1     lukem          i++, sp++) ;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Now find out if the state exists in the symbol's state list.
1.1     lukem      */
1.1     lukem     for (i = 0, stp = sp->states.slist;
1.1     lukem          i < sp->states.slist_used && state > *stp; i++, stp++) ;
1.1     lukem
1.1     lukem     if (i == sp->states.slist_used || state < *stp) {
1.1     lukem         /*
1.1     lukem          * Need to add the state in order.
1.1     lukem          */
1.1     lukem         if (sp->states.slist_used == sp->states.slist_size) {
1.1     lukem             if (sp->states.slist_size == 0)
1.1     lukem               sp->states.slist = (ucs2_t *) malloc(sizeof(ucs2_t) << 3);
1.1     lukem             else
1.1     lukem               sp->states.slist = (ucs2_t *)
1.1     lukem                   realloc((char *) sp->states.slist,
1.1     lukem                           sizeof(ucs2_t) * (sp->states.slist_size + 8));
1.1     lukem             sp->states.slist_size += 8;
1.1     lukem         }
1.1     lukem         if (i < sp->states.slist_used)
1.1     lukem           (void) _ure_memmove((char *) (sp->states.slist + i + 1),
1.1     lukem                               (char *) (sp->states.slist + i),
1.1     lukem                               sizeof(ucs2_t) * (sp->states.slist_used - i));
1.1     lukem         sp->states.slist[i] = state;
1.1     lukem         sp->states.slist_used++;
1.1     lukem     }
1.1     lukem }
1.1     lukem
1.1     lukem static ucs2_t
1.1     lukem _ure_add_state(ucs2_t nstates, ucs2_t *states, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t i;
1.1     lukem     _ure_state_t *sp;
1.1     lukem
1.1     lukem     for (i = 0, sp = b->states.states; i < b->states.states_used; i++, sp++) {
1.1     lukem         if (sp->st.slist_used == nstates &&
1.1     lukem             memcmp((char *) states, (char *) sp->st.slist,
1.1     lukem                    sizeof(ucs2_t) * nstates) == 0)
1.1     lukem           break;
1.1     lukem     }
1.1     lukem
1.1     lukem     if (i == b->states.states_used) {
1.1     lukem         /*
1.1     lukem          * Need to add a new DFA state (set of NFA states).
1.1     lukem          */
1.1     lukem         if (b->states.states_used == b->states.states_size) {
1.1     lukem             if (b->states.states_size == 0)
1.1     lukem               b->states.states = (_ure_state_t *)
1.1     lukem                   malloc(sizeof(_ure_state_t) << 3);
1.1     lukem             else
1.1     lukem               b->states.states = (_ure_state_t *)
1.1     lukem                   realloc((char *) b->states.states,
1.1     lukem                           sizeof(_ure_state_t) * (b->states.states_size + 8));
1.1     lukem             sp = b->states.states + b->states.states_size;
1.1     lukem             (void) memset((char *) sp, '\0', sizeof(_ure_state_t) << 3);
1.1     lukem             b->states.states_size += 8;
1.1     lukem         }
1.1     lukem
1.1     lukem         sp = b->states.states + b->states.states_used++;
1.1     lukem         sp->id = i;
1.1     lukem
1.1     lukem         if (sp->st.slist_used + nstates > sp->st.slist_size) {
1.1     lukem             if (sp->st.slist_size == 0)
1.1     lukem               sp->st.slist = (ucs2_t *)
1.1     lukem                   malloc(sizeof(ucs2_t) * (sp->st.slist_used + nstates));
1.1     lukem             else
1.1     lukem               sp->st.slist = (ucs2_t *)
1.1     lukem                   realloc((char *) sp->st.slist,
1.1     lukem                           sizeof(ucs2_t) * (sp->st.slist_used + nstates));
1.1     lukem             sp->st.slist_size = sp->st.slist_used + nstates;
1.1     lukem         }
1.1     lukem         sp->st.slist_used = nstates;
1.1     lukem         (void) AC_MEMCPY((char *) sp->st.slist, (char *) states,
1.1     lukem                       sizeof(ucs2_t) * nstates);
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Return the ID of the DFA state representing a group of NFA states.
1.1     lukem      */
1.1     lukem     return i;
1.1     lukem }
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_reduce(ucs2_t start, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t i, j, state, eval, syms, rhs;
1.1     lukem     ucs2_t s1, s2, ns1, ns2;
1.1     lukem     _ure_state_t *sp;
1.1     lukem     _ure_symtab_t *smp;
1.1     lukem
1.1     lukem     b->reducing = 1;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Add the starting state for the reduction.
1.1     lukem      */
1.1     lukem     _ure_add_state(1, &start, b);
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Process each set of NFA states that get created.
1.1     lukem      */
1.1     lukem     for (i = 0; i < b->states.states_used; i++) {
1.1     lukem         sp = b->states.states + i;
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Push the current states on the stack.
1.1     lukem          */
1.1     lukem         for (j = 0; j < sp->st.slist_used; j++)
1.1     lukem           _ure_push(sp->st.slist[j], b);
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Reduce the NFA states.
1.1     lukem          */
1.1     lukem         for (j = sp->accepting = syms = 0; j < b->stack.slist_used; j++) {
1.1     lukem             state = b->stack.slist[j];
1.1     lukem             eval = 1;
1.1     lukem
1.1     lukem             /*
1.1     lukem              * This inner loop is the iterative equivalent of recursively
1.1     lukem              * reducing subexpressions generated as a result of a reduction.
1.1     lukem              */
1.1     lukem             while (eval) {
1.1     lukem                 switch (b->expr[state].type) {
1.1     lukem                   case _URE_SYMBOL:
1.1     lukem                     ns1 = _ure_make_expr(_URE_ONE, _URE_NOOP, _URE_NOOP, b);
1.1     lukem                     _ure_add_symstate(b->expr[state].lhs, ns1, b);
1.1     lukem                     syms++;
1.1     lukem                     eval = 0;
1.1     lukem                     break;
1.1     lukem                   case _URE_ONE:
1.1     lukem                     sp->accepting = 1;
1.1     lukem                     eval = 0;
1.1     lukem                     break;
1.1     lukem                   case _URE_QUEST:
1.1     lukem                     s1 = b->expr[state].lhs;
1.1     lukem                     ns1 = _ure_make_expr(_URE_ONE, _URE_NOOP, _URE_NOOP, b);
1.1     lukem                     state = _ure_make_expr(_URE_OR, ns1, s1, b);
1.1     lukem                     break;
1.1     lukem                   case _URE_PLUS:
1.1     lukem                     s1 = b->expr[state].lhs;
1.1     lukem                     ns1 = _ure_make_expr(_URE_STAR, s1, _URE_NOOP, b);
1.1     lukem                     state = _ure_make_expr(_URE_AND, s1, ns1, b);
1.1     lukem                     break;
1.1     lukem                   case _URE_STAR:
1.1     lukem                     s1 = b->expr[state].lhs;
1.1     lukem                     ns1 = _ure_make_expr(_URE_ONE, _URE_NOOP, _URE_NOOP, b);
1.1     lukem                     ns2 = _ure_make_expr(_URE_PLUS, s1, _URE_NOOP, b);
1.1     lukem                     state = _ure_make_expr(_URE_OR, ns1, ns2, b);
1.1     lukem                     break;
1.1     lukem                   case _URE_OR:
1.1     lukem                     s1 = b->expr[state].lhs;
1.1     lukem                     s2 = b->expr[state].rhs;
1.1     lukem                     _ure_push(s1, b);
1.1     lukem                     _ure_push(s2, b);
1.1     lukem                     eval = 0;
1.1     lukem                     break;
1.1     lukem                   case _URE_AND:
1.1     lukem                     s1 = b->expr[state].lhs;
1.1     lukem                     s2 = b->expr[state].rhs;
1.1     lukem                     switch (b->expr[s1].type) {
1.1     lukem                       case _URE_SYMBOL:
1.1     lukem                         _ure_add_symstate(b->expr[s1].lhs, s2, b);
1.1     lukem                         syms++;
1.1     lukem                         eval = 0;
1.1     lukem                         break;
1.1     lukem                       case _URE_ONE:
1.1     lukem                         state = s2;
1.1     lukem                         break;
1.1     lukem                       case _URE_QUEST:
1.1     lukem                         ns1 = b->expr[s1].lhs;
1.1     lukem                         ns2 = _ure_make_expr(_URE_AND, ns1, s2, b);
1.1     lukem                         state = _ure_make_expr(_URE_OR, s2, ns2, b);
1.1     lukem                         break;
1.1     lukem                       case _URE_PLUS:
1.1     lukem                         ns1 = b->expr[s1].lhs;
1.1     lukem                         ns2 = _ure_make_expr(_URE_OR, s2, state, b);
1.1     lukem                         state = _ure_make_expr(_URE_AND, ns1, ns2, b);
1.1     lukem                         break;
1.1     lukem                       case _URE_STAR:
1.1     lukem                         ns1 = b->expr[s1].lhs;
1.1     lukem                         ns2 = _ure_make_expr(_URE_AND, ns1, state, b);
1.1     lukem                         state = _ure_make_expr(_URE_OR, s2, ns2, b);
1.1     lukem                         break;
1.1     lukem                       case _URE_OR:
1.1     lukem                         ns1 = b->expr[s1].lhs;
1.1     lukem                         ns2 = b->expr[s1].rhs;
1.1     lukem                         ns1 = _ure_make_expr(_URE_AND, ns1, s2, b);
1.1     lukem                         ns2 = _ure_make_expr(_URE_AND, ns2, s2, b);
1.1     lukem                         state = _ure_make_expr(_URE_OR, ns1, ns2, b);
1.1     lukem                         break;
1.1     lukem                       case _URE_AND:
1.1     lukem                         ns1 = b->expr[s1].lhs;
1.1     lukem                         ns2 = b->expr[s1].rhs;
1.1     lukem                         ns2 = _ure_make_expr(_URE_AND, ns2, s2, b);
1.1     lukem                         state = _ure_make_expr(_URE_AND, ns1, ns2, b);
1.1     lukem                         break;
1.1     lukem                     }
1.1     lukem                 }
1.1     lukem             }
1.1     lukem         }
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Clear the state stack.
1.1     lukem          */
1.1     lukem         while (_ure_pop(b) != _URE_NOOP) ;
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Reset the state pointer because the reduction may have moved it
1.1     lukem          * during a reallocation.
1.1     lukem          */
1.1     lukem         sp = b->states.states + i;
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Generate the DFA states for the symbols collected during the
1.1     lukem          * current reduction.
1.1     lukem          */
1.1     lukem         if (sp->trans_used + syms > sp->trans_size) {
1.1     lukem             if (sp->trans_size == 0)
1.1     lukem               sp->trans = (_ure_elt_t *)
1.1     lukem                   malloc(sizeof(_ure_elt_t) * (sp->trans_used + syms));
1.1     lukem             else
1.1     lukem               sp->trans = (_ure_elt_t *)
1.1     lukem                   realloc((char *) sp->trans,
1.1     lukem                           sizeof(_ure_elt_t) * (sp->trans_used + syms));
1.1     lukem             sp->trans_size = sp->trans_used + syms;
1.1     lukem         }
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Go through the symbol table and generate the DFA state transitions
1.1     lukem          * for each symbol that has collected NFA states.
1.1     lukem          */
1.1     lukem         for (j = syms = 0, smp = b->symtab; j < b->symtab_used; j++, smp++) {
1.1     lukem             sp = b->states.states + i;
1.1     lukem
1.1     lukem             if (smp->states.slist_used > 0) {
1.1     lukem                 sp->trans[syms].lhs = smp->id;
1.1     lukem                 rhs = _ure_add_state(smp->states.slist_used,
1.1     lukem                                      smp->states.slist, b);
1.1     lukem                 /*
1.1     lukem                  * Reset the state pointer in case the reallocation moves it
1.1     lukem                  * in memory.
1.1     lukem                  */
1.1     lukem                 sp = b->states.states + i;
1.1     lukem                 sp->trans[syms].rhs = rhs;
1.1     lukem
1.1     lukem                 smp->states.slist_used = 0;
1.1     lukem                 syms++;
1.1     lukem             }
1.1     lukem         }
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Set the number of transitions actually used.
1.1     lukem          */
1.1     lukem         sp->trans_used = syms;
1.1     lukem     }
1.1     lukem     b->reducing = 0;
1.1     lukem }
1.1     lukem
1.1     lukem static void
1.1     lukem _ure_add_equiv(ucs2_t l, ucs2_t r, _ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t tmp;
1.1     lukem
1.1     lukem     l = b->states.states[l].id;
1.1     lukem     r = b->states.states[r].id;
1.1     lukem
1.1     lukem     if (l == r)
1.1     lukem       return;
1.1     lukem
1.1     lukem     if (l > r) {
1.1     lukem         tmp = l;
1.1     lukem         l = r;
1.1     lukem         r = tmp;
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Check to see if the equivalence pair already exists.
1.1     lukem      */
1.1     lukem     for (tmp = 0; tmp < b->equiv_used &&
1.1     lukem              (b->equiv[tmp].l != l || b->equiv[tmp].r != r);
1.1     lukem          tmp++) ;
1.1     lukem
1.1     lukem     if (tmp < b->equiv_used)
1.1     lukem       return;
1.1     lukem
1.1     lukem     if (b->equiv_used == b->equiv_size) {
1.1     lukem         if (b->equiv_size == 0)
1.1     lukem           b->equiv = (_ure_equiv_t *) malloc(sizeof(_ure_equiv_t) << 3);
1.1     lukem         else
1.1     lukem           b->equiv = (_ure_equiv_t *) realloc((char *) b->equiv,
1.1     lukem                                               sizeof(_ure_equiv_t) *
1.1     lukem                                               (b->equiv_size + 8));
1.1     lukem         b->equiv_size += 8;
1.1     lukem     }
1.1     lukem     b->equiv[b->equiv_used].l = l;
1.1     lukem     b->equiv[b->equiv_used].r = r;
1.1     lukem     b->equiv_used++;
1.1     lukem }
1.1     lukem
1.1     lukem /*
1.1     lukem  * Merge the DFA states that are equivalent.
1.1     lukem  */
1.1     lukem static void
1.1     lukem _ure_merge_equiv(_ure_buffer_t *b)
1.1     lukem {
1.1     lukem     ucs2_t i, j, k, eq, done;
1.1     lukem     _ure_state_t *sp1, *sp2, *ls, *rs;
1.1     lukem
1.1     lukem     for (i = 0; i < b->states.states_used; i++) {
1.1     lukem         sp1 = b->states.states + i;
1.1     lukem         if (sp1->id != i)
1.1     lukem           continue;
1.1     lukem         for (j = 0; j < i; j++) {
1.1     lukem             sp2 = b->states.states + j;
1.1     lukem             if (sp2->id != j)
1.1     lukem               continue;
1.1     lukem             b->equiv_used = 0;
1.1     lukem             _ure_add_equiv(i, j, b);
1.1     lukem             for (eq = 0, done = 0; eq < b->equiv_used; eq++) {
1.1     lukem                 ls = b->states.states + b->equiv[eq].l;
1.1     lukem                 rs = b->states.states + b->equiv[eq].r;
1.1     lukem                 if (ls->accepting != rs->accepting ||
1.1     lukem                     ls->trans_used != rs->trans_used) {
1.1     lukem                     done = 1;
1.1     lukem                     break;
1.1     lukem                 }
1.1     lukem                 for (k = 0; k < ls->trans_used &&
1.1     lukem                          ls->trans[k].lhs == rs->trans[k].lhs; k++) ;
1.1     lukem                 if (k < ls->trans_used) {
1.1     lukem                     done = 1;
1.1     lukem                     break;
1.1     lukem                 }
1.1     lukem
1.1     lukem                 for (k = 0; k < ls->trans_used; k++)
1.1     lukem                   _ure_add_equiv(ls->trans[k].rhs, rs->trans[k].rhs, b);
1.1     lukem             }
1.1     lukem             if (done == 0)
1.1     lukem               break;
1.1     lukem         }
1.1     lukem         for (eq = 0; j < i && eq < b->equiv_used; eq++)
1.1     lukem           b->states.states[b->equiv[eq].r].id =
1.1     lukem               b->states.states[b->equiv[eq].l].id;
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Renumber the states appropriately.
1.1     lukem      */
1.1     lukem     for (i = eq = 0, sp1 = b->states.states; i < b->states.states_used;
1.1     lukem          sp1++, i++)
1.1     lukem       sp1->id = (sp1->id == i) ? eq++ : b->states.states[sp1->id].id;
1.1     lukem }
1.1     lukem
1.1     lukem /*************************************************************************
1.1     lukem  *
1.1     lukem  * API.
1.1     lukem  *
1.1     lukem  *************************************************************************/
1.1     lukem
1.1     lukem ure_buffer_t
1.1     lukem ure_buffer_create(void)
1.1     lukem {
1.1     lukem     ure_buffer_t b;
1.1     lukem
1.1     lukem     b = (ure_buffer_t) calloc(1, sizeof(_ure_buffer_t));
1.1     lukem
1.1     lukem     return b;
1.1     lukem }
1.1     lukem
1.1     lukem void
1.1     lukem ure_buffer_free(ure_buffer_t buf)
1.1     lukem {
1.1     lukem     unsigned long i;
1.1     lukem
1.1     lukem     if (buf == 0)
1.1     lukem       return;
1.1     lukem
1.1     lukem     if (buf->stack.slist_size > 0)
1.1     lukem       free((char *) buf->stack.slist);
1.1     lukem
1.1     lukem     if (buf->expr_size > 0)
1.1     lukem       free((char *) buf->expr);
1.1     lukem
1.1     lukem     for (i = 0; i < buf->symtab_size; i++) {
1.1     lukem         if (buf->symtab[i].states.slist_size > 0)
1.1     lukem           free((char *) buf->symtab[i].states.slist);
1.1     lukem     }
1.1     lukem
1.1     lukem     if (buf->symtab_size > 0)
1.1     lukem       free((char *) buf->symtab);
1.1     lukem
1.1     lukem     for (i = 0; i < buf->states.states_size; i++) {
1.1     lukem         if (buf->states.states[i].trans_size > 0)
1.1     lukem           free((char *) buf->states.states[i].trans);
1.1     lukem         if (buf->states.states[i].st.slist_size > 0)
1.1     lukem           free((char *) buf->states.states[i].st.slist);
1.1     lukem     }
1.1     lukem
1.1     lukem     if (buf->states.states_size > 0)
1.1     lukem       free((char *) buf->states.states);
1.1     lukem
1.1     lukem     if (buf->equiv_size > 0)
1.1     lukem       free((char *) buf->equiv);
1.1     lukem
1.1     lukem     free((char *) buf);
1.1     lukem }
1.1     lukem
1.1     lukem ure_dfa_t
1.1     lukem ure_compile(ucs2_t *re, unsigned long relen, int casefold, ure_buffer_t buf)
1.1     lukem {
1.1     lukem     ucs2_t i, j, state;
1.1     lukem     _ure_state_t *sp;
1.1     lukem     _ure_dstate_t *dsp;
1.1     lukem     _ure_trans_t *tp;
1.1     lukem     ure_dfa_t dfa;
1.1     lukem
1.1     lukem     if (re == 0 || *re == 0 || relen == 0 || buf == 0)
1.1     lukem       return 0;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Reset the various fields of the compilation buffer.  Default the flags
1.3  christos      * to indicate the presence of the "^$" pattern.  If any other pattern
1.1     lukem      * occurs, then this flag will be removed.  This is done to catch this
1.1     lukem      * special pattern and handle it specially when matching.
1.1     lukem      */
1.1     lukem     buf->flags = _URE_DFA_BLANKLINE | ((casefold) ? _URE_DFA_CASEFOLD : 0);
1.1     lukem     buf->reducing = 0;
1.1     lukem     buf->stack.slist_used = 0;
1.1     lukem     buf->expr_used = 0;
1.1     lukem
1.1     lukem     for (i = 0; i < buf->symtab_used; i++)
1.1     lukem       buf->symtab[i].states.slist_used = 0;
1.1     lukem     buf->symtab_used = 0;
1.1     lukem
1.1     lukem     for (i = 0; i < buf->states.states_used; i++) {
1.1     lukem         buf->states.states[i].st.slist_used = 0;
1.1     lukem         buf->states.states[i].trans_used = 0;
1.1     lukem     }
1.1     lukem     buf->states.states_used = 0;
1.1     lukem
1.1     lukem     /*
1.3  christos      * Construct the NFA.  If this stage returns a 0, then an error occurred or
1.1     lukem      * an empty expression was passed.
1.1     lukem      */
1.1     lukem     if ((state = _ure_re2nfa(re, relen, buf)) == _URE_NOOP)
1.1     lukem       return 0;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Do the expression reduction to get the initial DFA.
1.1     lukem      */
1.1     lukem     _ure_reduce(state, buf);
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Merge all the equivalent DFA states.
1.1     lukem      */
1.1     lukem     _ure_merge_equiv(buf);
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Construct the minimal DFA.
1.1     lukem      */
1.1     lukem     dfa = (ure_dfa_t) malloc(sizeof(_ure_dfa_t));
1.1     lukem     (void) memset((char *) dfa, '\0', sizeof(_ure_dfa_t));
1.1     lukem
1.1     lukem     dfa->flags = buf->flags & (_URE_DFA_CASEFOLD|_URE_DFA_BLANKLINE);
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Free up the NFA state groups and transfer the symbols from the buffer
1.1     lukem      * to the DFA.
1.1     lukem      */
1.1     lukem     for (i = 0; i < buf->symtab_size; i++) {
1.1     lukem         if (buf->symtab[i].states.slist_size > 0)
1.1     lukem           free((char *) buf->symtab[i].states.slist);
1.1     lukem     }
1.1     lukem     dfa->syms = buf->symtab;
1.1     lukem     dfa->nsyms = buf->symtab_used;
1.1     lukem
1.1     lukem     buf->symtab_used = buf->symtab_size = 0;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Collect the total number of states and transitions needed for the DFA.
1.1     lukem      */
1.1     lukem     for (i = state = 0, sp = buf->states.states; i < buf->states.states_used;
1.1     lukem          i++, sp++) {
1.1     lukem         if (sp->id == state) {
1.1     lukem             dfa->nstates++;
1.1     lukem             dfa->ntrans += sp->trans_used;
1.1     lukem             state++;
1.1     lukem         }
1.1     lukem     }
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Allocate enough space for the states and transitions.
1.1     lukem      */
1.1     lukem     dfa->states = (_ure_dstate_t *) malloc(sizeof(_ure_dstate_t) *
1.1     lukem                                            dfa->nstates);
1.1     lukem     dfa->trans = (_ure_trans_t *) malloc(sizeof(_ure_trans_t) * dfa->ntrans);
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Actually transfer the DFA states from the buffer.
1.1     lukem      */
1.1     lukem     dsp = dfa->states;
1.1     lukem     tp = dfa->trans;
1.1     lukem     for (i = state = 0, sp = buf->states.states; i < buf->states.states_used;
1.1     lukem          i++, sp++) {
1.1     lukem         if (sp->id == state) {
1.1     lukem             dsp->trans = tp;
1.1     lukem             dsp->ntrans = sp->trans_used;
1.1     lukem             dsp->accepting = sp->accepting;
1.1     lukem
1.1     lukem             /*
1.1     lukem              * Add the transitions for the state.
1.1     lukem              */
1.1     lukem             for (j = 0; j < dsp->ntrans; j++, tp++) {
1.1     lukem                 tp->symbol = sp->trans[j].lhs;
1.1     lukem                 tp->next_state = buf->states.states[sp->trans[j].rhs].id;
1.1     lukem             }
1.1     lukem
1.1     lukem             dsp++;
1.1     lukem             state++;
1.1     lukem         }
1.1     lukem     }
1.1     lukem
1.1     lukem     return dfa;
1.1     lukem }
1.1     lukem
1.1     lukem void
1.1     lukem ure_dfa_free(ure_dfa_t dfa)
1.1     lukem {
1.1     lukem     ucs2_t i;
1.1     lukem
1.1     lukem     if (dfa == 0)
1.1     lukem       return;
1.1     lukem
1.1     lukem     for (i = 0; i < dfa->nsyms; i++) {
1.1     lukem         if ((dfa->syms[i].type == _URE_CCLASS ||
1.1     lukem              dfa->syms[i].type == _URE_NCCLASS) &&
1.1     lukem             dfa->syms[i].sym.ccl.ranges_size > 0)
1.1     lukem           free((char *) dfa->syms[i].sym.ccl.ranges);
1.1     lukem     }
1.1     lukem     if (dfa->nsyms > 0)
1.1     lukem       free((char *) dfa->syms);
1.1     lukem
1.1     lukem     if (dfa->nstates > 0)
1.1     lukem       free((char *) dfa->states);
1.1     lukem     if (dfa->ntrans > 0)
1.1     lukem       free((char *) dfa->trans);
1.1     lukem     free((char *) dfa);
1.1     lukem }
1.1     lukem
1.1     lukem void
1.1     lukem ure_write_dfa(ure_dfa_t dfa, FILE *out)
1.1     lukem {
1.1     lukem     ucs2_t i, j, k, h, l;
1.1     lukem     _ure_dstate_t *sp;
1.1     lukem     _ure_symtab_t *sym;
1.1     lukem     _ure_range_t *rp;
1.1     lukem
1.1     lukem     if (dfa == 0 || out == 0)
1.1     lukem       return;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Write all the different character classes.
1.1     lukem      */
1.1     lukem     for (i = 0, sym = dfa->syms; i < dfa->nsyms; i++, sym++) {
1.1     lukem         if (sym->type == _URE_CCLASS || sym->type == _URE_NCCLASS) {
1.1     lukem             fprintf(out, "C%hd = ", sym->id);
1.1     lukem             if (sym->sym.ccl.ranges_used > 0) {
1.1     lukem                 putc('[', out);
1.1     lukem                 if (sym->type == _URE_NCCLASS)
1.1     lukem                   putc('^', out);
1.1     lukem             }
1.1     lukem             if (sym->props != 0) {
1.1     lukem                 if (sym->type == _URE_NCCLASS)
1.1     lukem                   fprintf(out, "\\P");
1.1     lukem                 else
1.1     lukem                   fprintf(out, "\\p");
1.1     lukem                 for (k = h = 0; k < 32; k++) {
1.1     lukem                     if (sym->props & (1 << k)) {
1.1     lukem                         if (h != 0)
1.1     lukem                           putc(',', out);
1.3  christos                         fprintf(out, "%d", k + 1);
1.1     lukem                         h = 1;
1.1     lukem                     }
1.1     lukem                 }
1.1     lukem             }
1.1     lukem             /*
1.1     lukem              * Dump the ranges.
1.1     lukem              */
1.1     lukem             for (k = 0, rp = sym->sym.ccl.ranges;
1.1     lukem                  k < sym->sym.ccl.ranges_used; k++, rp++) {
1.1     lukem                 /*
1.1     lukem                  * Check for UTF16 characters.
1.1     lukem                  */
1.1     lukem                 if (0x10000 <= rp->min_code &&
1.1     lukem                     rp->min_code <= 0x10ffff) {
1.1     lukem                     h = (ucs2_t) (((rp->min_code - 0x10000) >> 10) + 0xd800);
1.1     lukem                     l = (ucs2_t) (((rp->min_code - 0x10000) & 1023) + 0xdc00);
1.1     lukem                     fprintf(out, "\\x%04hX\\x%04hX", h, l);
1.1     lukem                 } else
1.1     lukem                   fprintf(out, "\\x%04lX", rp->min_code & 0xffff);
1.1     lukem                 if (rp->max_code != rp->min_code) {
1.1     lukem                     putc('-', out);
1.1     lukem                     if (rp->max_code >= 0x10000 &&
1.1     lukem                         rp->max_code <= 0x10ffff) {
1.1     lukem                         h = (ucs2_t) (((rp->max_code - 0x10000) >> 10) + 0xd800);
1.1     lukem                         l = (ucs2_t) (((rp->max_code - 0x10000) & 1023) + 0xdc00);
1.1     lukem                         fprintf(out, "\\x%04hX\\x%04hX", h, l);
1.1     lukem                     } else
1.1     lukem                       fprintf(out, "\\x%04lX", rp->max_code & 0xffff);
1.1     lukem                 }
1.1     lukem             }
1.1     lukem             if (sym->sym.ccl.ranges_used > 0)
1.1     lukem               putc(']', out);
1.1     lukem             putc('\n', out);
1.1     lukem         }
1.1     lukem     }
1.1     lukem
1.1     lukem     for (i = 0, sp = dfa->states; i < dfa->nstates; i++, sp++) {
1.1     lukem         fprintf(out, "S%hd = ", i);
1.1     lukem         if (sp->accepting) {
1.1     lukem             fprintf(out, "1 ");
1.1     lukem             if (sp->ntrans)
1.1     lukem               fprintf(out, "| ");
1.1     lukem         }
1.1     lukem         for (j = 0; j < sp->ntrans; j++) {
1.1     lukem             if (j > 0)
1.1     lukem               fprintf(out, "| ");
1.1     lukem
1.1     lukem             sym = dfa->syms + sp->trans[j].symbol;
1.1     lukem             switch (sym->type) {
1.1     lukem               case _URE_CHAR:
1.1     lukem                 if (0x10000 <= sym->sym.chr && sym->sym.chr <= 0x10ffff) {
1.1     lukem                     /*
1.1     lukem                      * Take care of UTF16 characters.
1.1     lukem                      */
1.1     lukem                     h = (ucs2_t) (((sym->sym.chr - 0x10000) >> 10) + 0xd800);
1.1     lukem                     l = (ucs2_t) (((sym->sym.chr - 0x10000) & 1023) + 0xdc00);
1.1     lukem                     fprintf(out, "\\x%04hX\\x%04hX ", h, l);
1.1     lukem                 } else
1.1     lukem                   fprintf(out, "\\x%04lX ", sym->sym.chr & 0xffff);
1.1     lukem                 break;
1.1     lukem               case _URE_ANY_CHAR:
1.1     lukem                 fprintf(out, "<any> ");
1.1     lukem                 break;
1.1     lukem               case _URE_BOL_ANCHOR:
1.1     lukem                 fprintf(out, "<bol-anchor> ");
1.1     lukem                 break;
1.1     lukem               case _URE_EOL_ANCHOR:
1.1     lukem                 fprintf(out, "<eol-anchor> ");
1.1     lukem                 break;
1.1     lukem               case _URE_CCLASS:
1.1     lukem               case _URE_NCCLASS:
1.1     lukem                 fprintf(out, "[C%hd] ", sym->id);
1.1     lukem                 break;
1.1     lukem             }
1.1     lukem             fprintf(out, "S%hd", sp->trans[j].next_state);
1.1     lukem             if (j + 1 < sp->ntrans)
1.1     lukem               putc(' ', out);
1.1     lukem         }
1.1     lukem         putc('\n', out);
1.1     lukem     }
1.1     lukem }
1.1     lukem
1.1     lukem #define _ure_issep(cc) ((cc) == '\n' || (cc) == '\r' || (cc) == 0x2028 ||\
1.1     lukem                         (cc) == 0x2029)
1.1     lukem
1.1     lukem int
1.1     lukem ure_exec(ure_dfa_t dfa, int flags, ucs2_t *text, unsigned long textlen,
1.1     lukem          unsigned long *match_start, unsigned long *match_end)
1.1     lukem {
1.1     lukem     int i, j, matched, found, skip;
1.1     lukem     unsigned long ms, me;
1.1     lukem     ucs4_t c;
1.1     lukem     ucs2_t *sp, *ep, *lp;
1.1     lukem     _ure_dstate_t *stp;
1.1     lukem     _ure_symtab_t *sym;
1.1     lukem     _ure_range_t *rp;
1.1     lukem
1.1     lukem     if (dfa == 0 || text == 0)
1.1     lukem       return 0;
1.1     lukem
1.1     lukem     /*
1.1     lukem      * Handle the special case of an empty string matching the "^$" pattern.
1.1     lukem      */
1.1     lukem     if (textlen == 0 && (dfa->flags & _URE_DFA_BLANKLINE)) {
1.1     lukem         *match_start = *match_end = 0;
1.1     lukem         return 1;
1.1     lukem     }
1.1     lukem
1.1     lukem     sp = text;
1.1     lukem     ep = sp + textlen;
1.1     lukem
1.1     lukem     ms = me = ~0;
1.1     lukem
1.1     lukem     stp = dfa->states;
1.1     lukem
1.1     lukem     for (found = skip = 0; found == 0 && sp < ep; ) {
1.1     lukem         lp = sp;
1.1     lukem         c = *sp++;
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Check to see if this is a high surrogate that should be
1.1     lukem          * combined with a following low surrogate.
1.1     lukem          */
1.1     lukem         if (sp < ep && 0xd800 <= c && c <= 0xdbff &&
1.1     lukem             0xdc00 <= *sp && *sp <= 0xdfff)
1.1     lukem           c = 0x10000 + (((c & 0x03ff) << 10) | (*sp++ & 0x03ff));
1.1     lukem
1.1     lukem         /*
1.1     lukem          * Determine if the character is non-spacing and should be skipped.
1.1     lukem          */
1.1     lukem         if (_ure_matches_properties(_URE_NONSPACING, c) &&
1.1     lukem             (flags & URE_IGNORE_NONSPACING)) {
1.1     lukem             sp++;
1.1     lukem             continue;
1.1     lukem         }
1.1     lukem
1.1     lukem         if (dfa->flags & _URE_DFA_CASEFOLD)
1.1     lukem           c = _ure_tolower(c);
1.1     lukem
1.1     lukem         /*
1.1     lukem          * See if one of the transitions matches.
1.1     lukem          */
1.1     lukem         for (i = 0, matched = 0; matched == 0 && i < stp->ntrans; i++) {
1.1     lukem             sym = dfa->syms + stp->trans[i].symbol;
1.1     lukem             switch (sym->type) {
1.1     lukem               case _URE_ANY_CHAR:
1.1     lukem                 if ((flags & URE_DOT_MATCHES_SEPARATORS) ||
1.1     lukem                     !_ure_issep(c))
1.1     lukem                   matched = 1;
1.1     lukem                 break;
1.1     lukem               case _URE_CHAR:
1.1     lukem                 if (c == sym->sym.chr)
1.1     lukem                   matched = 1;
1.1     lukem                 break;
1.1     lukem               case _URE_BOL_ANCHOR:
1.1     lukem                 if (lp == text) {
1.1     lukem                     sp = lp;
1.1     lukem                     matched = 1;
1.1     lukem                 } else if (_ure_issep(c)) {
1.1     lukem                     if (c == '\r' && sp < ep && *sp == '\n')
1.1     lukem                       sp++;
1.1     lukem                     lp = sp;
1.1     lukem                     matched = 1;
1.1     lukem                 }
1.1     lukem                 break;
1.1     lukem               case _URE_EOL_ANCHOR:
1.1     lukem                 if (_ure_issep(c)) {
1.1     lukem                     /*
1.1     lukem                      * Put the pointer back before the separator so the match
1.1     lukem                      * end position will be correct.  This case will also
1.1     lukem                      * cause the `sp' pointer to be advanced over the current
1.1     lukem                      * separator once the match end point has been recorded.
1.1     lukem                      */
1.1     lukem                     sp = lp;
1.1     lukem                     matched = 1;
1.1     lukem                 }
1.1     lukem                 break;
1.1     lukem               case _URE_CCLASS:
1.1     lukem               case _URE_NCCLASS:
1.1     lukem                 if (sym->props != 0)
1.1     lukem                   matched = _ure_matches_properties(sym->props, c);
1.1     lukem                 for (j = 0, rp = sym->sym.ccl.ranges;
1.1     lukem                      j < sym->sym.ccl.ranges_used; j++, rp++) {
1.1     lukem                     if (rp->min_code <= c && c <= rp->max_code)
1.1     lukem                       matched = 1;
1.1     lukem                 }
1.1     lukem                 if (sym->type == _URE_NCCLASS)
1.1     lukem                   matched = !matched;
1.1     lukem                 break;
1.1     lukem             }
1.1     lukem
1.1     lukem             if (matched) {
1.1     lukem                 if (ms == ~0UL)
1.1     lukem                   ms = lp - text;
1.1     lukem                 else
1.1     lukem                   me = sp - text;
1.1     lukem                 stp = dfa->states + stp->trans[i].next_state;
1.1     lukem
1.1     lukem                 /*
1.1     lukem                  * If the match was an EOL anchor, adjust the pointer past the
1.1     lukem                  * separator that caused the match.  The correct match
1.1     lukem                  * position has been recorded already.
1.1     lukem                  */
1.1     lukem                 if (sym->type == _URE_EOL_ANCHOR) {
1.1     lukem                     /*
1.1     lukem                      * Skip the character that caused the match.
1.1     lukem                      */
1.1     lukem                     sp++;
1.1     lukem
1.1     lukem                     /*
1.1     lukem                      * Handle the infamous CRLF situation.
1.1     lukem                      */
1.1     lukem                     if (sp < ep && c == '\r' && *sp == '\n')
1.1     lukem                       sp++;
1.1     lukem                 }
1.1     lukem             }
1.1     lukem         }
1.1     lukem
1.1     lukem         if (matched == 0) {
1.1     lukem             if (stp->accepting == 0) {
1.1     lukem                 /*
1.1     lukem                  * If the last state was not accepting, then reset
1.1     lukem                  * and start over.
1.1     lukem                  */
1.1     lukem                 stp = dfa->states;
1.1     lukem                 ms = me = ~0;
1.1     lukem             } else
1.1     lukem               /*
1.1     lukem                * The last state was accepting, so terminate the matching
1.1     lukem                * loop to avoid more work.
1.1     lukem                */
1.1     lukem               found = 1;
1.1     lukem         } else if (sp == ep) {
1.1     lukem             if (!stp->accepting) {
1.1     lukem                 /*
1.1     lukem                  * This ugly hack is to make sure the end-of-line anchors
1.1     lukem                  * match when the source text hits the end.  This is only done
1.1     lukem                  * if the last subexpression matches.
1.1     lukem                  */
1.1     lukem                 for (i = 0; found == 0 && i < stp->ntrans; i++) {
1.1     lukem                     sym = dfa->syms + stp->trans[i].symbol;
1.1     lukem                     if (sym->type ==_URE_EOL_ANCHOR) {
1.1     lukem                         stp = dfa->states + stp->trans[i].next_state;
1.1     lukem                         if (stp->accepting) {
1.1     lukem                             me = sp - text;
1.1     lukem                             found = 1;
1.1     lukem                         } else
1.1     lukem                           break;
1.1     lukem                     }
1.1     lukem                 }
1.1     lukem             } else {
1.1     lukem                 /*
1.1     lukem                  * Make sure any conditions that match all the way to the end
1.1     lukem                  * of the string match.
1.1     lukem                  */
1.1     lukem                 found = 1;
1.1     lukem                 me = sp - text;
1.1     lukem             }
1.1     lukem         }
1.1     lukem     }
1.1     lukem
1.1     lukem     if (found == 0)
1.1     lukem       ms = me = ~0;
1.1     lukem
1.1     lukem     *match_start = ms;
1.1     lukem     *match_end = me;
1.1     lukem
1.1     lukem     return (ms != ~0UL) ? 1 : 0;
1.1     lukem }