regexJIT.c revision 1.1.1.1.4.2 1 1.1.1.1.4.2 alnsn /*
2 1.1.1.1.4.2 alnsn * Stack-less Just-In-Time compiler
3 1.1.1.1.4.2 alnsn *
4 1.1.1.1.4.2 alnsn * Copyright 2009-2010 Zoltan Herczeg (hzmester (at) freemail.hu). All rights reserved.
5 1.1.1.1.4.2 alnsn *
6 1.1.1.1.4.2 alnsn * Redistribution and use in source and binary forms, with or without modification, are
7 1.1.1.1.4.2 alnsn * permitted provided that the following conditions are met:
8 1.1.1.1.4.2 alnsn *
9 1.1.1.1.4.2 alnsn * 1. Redistributions of source code must retain the above copyright notice, this list of
10 1.1.1.1.4.2 alnsn * conditions and the following disclaimer.
11 1.1.1.1.4.2 alnsn *
12 1.1.1.1.4.2 alnsn * 2. Redistributions in binary form must reproduce the above copyright notice, this list
13 1.1.1.1.4.2 alnsn * of conditions and the following disclaimer in the documentation and/or other materials
14 1.1.1.1.4.2 alnsn * provided with the distribution.
15 1.1.1.1.4.2 alnsn *
16 1.1.1.1.4.2 alnsn * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDER(S) AND CONTRIBUTORS ``AS IS'' AND ANY
17 1.1.1.1.4.2 alnsn * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES
18 1.1.1.1.4.2 alnsn * OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT
19 1.1.1.1.4.2 alnsn * SHALL THE COPYRIGHT HOLDER(S) OR CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT,
20 1.1.1.1.4.2 alnsn * INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED
21 1.1.1.1.4.2 alnsn * TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR
22 1.1.1.1.4.2 alnsn * BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN
23 1.1.1.1.4.2 alnsn * CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN
24 1.1.1.1.4.2 alnsn * ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
25 1.1.1.1.4.2 alnsn */
26 1.1.1.1.4.2 alnsn
27 1.1.1.1.4.2 alnsn #include "sljitLir.h"
28 1.1.1.1.4.2 alnsn #include "regexJIT.h"
29 1.1.1.1.4.2 alnsn
30 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
31 1.1.1.1.4.2 alnsn #include <stdio.h>
32 1.1.1.1.4.2 alnsn #endif
33 1.1.1.1.4.2 alnsn
34 1.1.1.1.4.2 alnsn /* Extra, hidden flags:
35 1.1.1.1.4.2 alnsn {id!} where id > 0 found in the code. */
36 1.1.1.1.4.2 alnsn #define REGEX_ID_CHECK 0x100
37 1.1.1.1.4.2 alnsn /* When REGEX_NEWLINE && REGEX_MATCH_BEGIN defined, the pattern turn to a normal search,
38 1.1.1.1.4.2 alnsn which starts with [\r\n] character range. */
39 1.1.1.1.4.2 alnsn #define REGEX_FAKE_MATCH_BEGIN 0x200
40 1.1.1.1.4.2 alnsn /* When REGEX_NEWLINE && REGEX_MATCH_END defined, the pattern turn to a normal search,
41 1.1.1.1.4.2 alnsn which ends with [\r\n] character range. */
42 1.1.1.1.4.2 alnsn #define REGEX_FAKE_MATCH_END 0x400
43 1.1.1.1.4.2 alnsn
44 1.1.1.1.4.2 alnsn /* Check match completition after every (FINISH_TEST + 1) steps. */
45 1.1.1.1.4.2 alnsn #define FINISH_TEST 0x7
46 1.1.1.1.4.2 alnsn
47 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
48 1.1.1.1.4.2 alnsn /* Structures for JIT-ed pattern matching */
49 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
50 1.1.1.1.4.2 alnsn
51 1.1.1.1.4.2 alnsn struct regex_machine
52 1.1.1.1.4.2 alnsn {
53 1.1.1.1.4.2 alnsn /* flags. */
54 1.1.1.1.4.2 alnsn int flags;
55 1.1.1.1.4.2 alnsn /* Number of state descriptors for one term. */
56 1.1.1.1.4.2 alnsn sljit_w no_states;
57 1.1.1.1.4.2 alnsn /* Total size. */
58 1.1.1.1.4.2 alnsn sljit_w size;
59 1.1.1.1.4.2 alnsn
60 1.1.1.1.4.2 alnsn union {
61 1.1.1.1.4.2 alnsn void *init_match;
62 1.1.1.1.4.2 alnsn sljit_w (SLJIT_CALL *call_init)(void *next, void* match);
63 1.1.1.1.4.2 alnsn } u;
64 1.1.1.1.4.2 alnsn #if (defined SLJIT_INDIRECT_CALL && SLJIT_INDIRECT_CALL)
65 1.1.1.1.4.2 alnsn struct sljit_function_context context;
66 1.1.1.1.4.2 alnsn #endif
67 1.1.1.1.4.2 alnsn
68 1.1.1.1.4.2 alnsn void *continue_match;
69 1.1.1.1.4.2 alnsn
70 1.1.1.1.4.2 alnsn /* Variable sized array to contain the handler addresses. */
71 1.1.1.1.4.2 alnsn sljit_uw entry_addrs[1];
72 1.1.1.1.4.2 alnsn };
73 1.1.1.1.4.2 alnsn
74 1.1.1.1.4.2 alnsn struct regex_match
75 1.1.1.1.4.2 alnsn {
76 1.1.1.1.4.2 alnsn /* Current and next state array. */
77 1.1.1.1.4.2 alnsn sljit_w *current;
78 1.1.1.1.4.2 alnsn sljit_w *next;
79 1.1.1.1.4.2 alnsn /* Starting. */
80 1.1.1.1.4.2 alnsn sljit_w head;
81 1.1.1.1.4.2 alnsn /* String character index (ever increasing). */
82 1.1.1.1.4.2 alnsn sljit_w index;
83 1.1.1.1.4.2 alnsn /* Best match found so far (members in priority order). */
84 1.1.1.1.4.2 alnsn sljit_w best_begin;
85 1.1.1.1.4.2 alnsn sljit_w best_end;
86 1.1.1.1.4.2 alnsn sljit_w best_id;
87 1.1.1.1.4.2 alnsn /* Bool flags (encoded as word). */
88 1.1.1.1.4.2 alnsn sljit_w fast_quit;
89 1.1.1.1.4.2 alnsn sljit_w fast_forward;
90 1.1.1.1.4.2 alnsn /* Machine. */
91 1.1.1.1.4.2 alnsn struct regex_machine *machine;
92 1.1.1.1.4.2 alnsn
93 1.1.1.1.4.2 alnsn union {
94 1.1.1.1.4.2 alnsn void *continue_match;
95 1.1.1.1.4.2 alnsn void (SLJIT_CALL *call_continue)(struct regex_match *match, const regex_char_t *input_string, int length);
96 1.1.1.1.4.2 alnsn } u;
97 1.1.1.1.4.2 alnsn
98 1.1.1.1.4.2 alnsn /* Variable sized array to contain the state arrays. */
99 1.1.1.1.4.2 alnsn sljit_w states[1];
100 1.1.1.1.4.2 alnsn };
101 1.1.1.1.4.2 alnsn
102 1.1.1.1.4.2 alnsn /* State vector
103 1.1.1.1.4.2 alnsn ITEM[0] - pointer to the address inside the machine code
104 1.1.1.1.4.2 alnsn ITEM[1] - next pointer
105 1.1.1.1.4.2 alnsn ITEM[2] - string started from (optional)
106 1.1.1.1.4.2 alnsn ITEM[3] - max ID (optional) */
107 1.1.1.1.4.2 alnsn
108 1.1.1.1.4.2 alnsn /* Register allocation. */
109 1.1.1.1.4.2 alnsn /* Current state array (loaded & stored: regex_match->current). */
110 1.1.1.1.4.2 alnsn #define R_CURR_STATE SLJIT_SAVED_REG1
111 1.1.1.1.4.2 alnsn /* Next state array (loaded & stored: regex_match->next). */
112 1.1.1.1.4.2 alnsn #define R_NEXT_STATE SLJIT_SAVED_REG2
113 1.1.1.1.4.2 alnsn /* Head (loaded & stored: regex_match->head). */
114 1.1.1.1.4.2 alnsn #define R_NEXT_HEAD SLJIT_SAVED_REG3
115 1.1.1.1.4.2 alnsn /* String fragment pointer. */
116 1.1.1.1.4.2 alnsn #define R_STRING SLJIT_SAVED_EREG1
117 1.1.1.1.4.2 alnsn /* String fragment length. */
118 1.1.1.1.4.2 alnsn #define R_LENGTH SLJIT_SAVED_EREG2
119 1.1.1.1.4.2 alnsn /* 'struct regex_match*' */
120 1.1.1.1.4.2 alnsn #define R_REGEX_MATCH SLJIT_TEMPORARY_REG1
121 1.1.1.1.4.2 alnsn /* Current character. */
122 1.1.1.1.4.2 alnsn #define R_CURR_CHAR SLJIT_TEMPORARY_REG2
123 1.1.1.1.4.2 alnsn /* Temporary register. */
124 1.1.1.1.4.2 alnsn #define R_TEMP SLJIT_TEMPORARY_REG3
125 1.1.1.1.4.2 alnsn /* Caches the regex_match->best_begin. */
126 1.1.1.1.4.2 alnsn #define R_BEST_BEGIN SLJIT_TEMPORARY_EREG1
127 1.1.1.1.4.2 alnsn /* Current character index. */
128 1.1.1.1.4.2 alnsn #define R_CURR_INDEX SLJIT_TEMPORARY_EREG2
129 1.1.1.1.4.2 alnsn
130 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
131 1.1.1.1.4.2 alnsn /* Stack management */
132 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
133 1.1.1.1.4.2 alnsn
134 1.1.1.1.4.2 alnsn /* Try to allocate 2^n blocks. */
135 1.1.1.1.4.2 alnsn #define STACK_FRAGMENT_SIZE (((64 * sizeof(struct stack_item)) - (sizeof(struct stack_fragment_data))) / (sizeof(struct stack_item)))
136 1.1.1.1.4.2 alnsn
137 1.1.1.1.4.2 alnsn struct stack_item {
138 1.1.1.1.4.2 alnsn int type;
139 1.1.1.1.4.2 alnsn int value;
140 1.1.1.1.4.2 alnsn };
141 1.1.1.1.4.2 alnsn
142 1.1.1.1.4.2 alnsn struct stack_fragment_data {
143 1.1.1.1.4.2 alnsn struct stack_fragment *next;
144 1.1.1.1.4.2 alnsn struct stack_fragment *prev;
145 1.1.1.1.4.2 alnsn };
146 1.1.1.1.4.2 alnsn
147 1.1.1.1.4.2 alnsn struct stack_fragment {
148 1.1.1.1.4.2 alnsn struct stack_fragment_data data;
149 1.1.1.1.4.2 alnsn struct stack_item items[STACK_FRAGMENT_SIZE];
150 1.1.1.1.4.2 alnsn };
151 1.1.1.1.4.2 alnsn
152 1.1.1.1.4.2 alnsn struct stack {
153 1.1.1.1.4.2 alnsn struct stack_fragment *first;
154 1.1.1.1.4.2 alnsn struct stack_fragment *last;
155 1.1.1.1.4.2 alnsn int index;
156 1.1.1.1.4.2 alnsn int count;
157 1.1.1.1.4.2 alnsn };
158 1.1.1.1.4.2 alnsn
159 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
160 1.1.1.1.4.2 alnsn
161 1.1.1.1.4.2 alnsn static void stack_check(struct stack *stack)
162 1.1.1.1.4.2 alnsn {
163 1.1.1.1.4.2 alnsn struct stack_fragment *curr;
164 1.1.1.1.4.2 alnsn int found;
165 1.1.1.1.4.2 alnsn
166 1.1.1.1.4.2 alnsn if (!stack)
167 1.1.1.1.4.2 alnsn return;
168 1.1.1.1.4.2 alnsn
169 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->index >= 0 && stack->index < STACK_FRAGMENT_SIZE);
170 1.1.1.1.4.2 alnsn
171 1.1.1.1.4.2 alnsn if (stack->first == NULL) {
172 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->first == NULL && stack->last == NULL);
173 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->index == STACK_FRAGMENT_SIZE - 1 && stack->count == 0);
174 1.1.1.1.4.2 alnsn return;
175 1.1.1.1.4.2 alnsn }
176 1.1.1.1.4.2 alnsn
177 1.1.1.1.4.2 alnsn found = 0;
178 1.1.1.1.4.2 alnsn if (stack->last == NULL) {
179 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->index == STACK_FRAGMENT_SIZE - 1 && stack->count == 0);
180 1.1.1.1.4.2 alnsn found = 1;
181 1.1.1.1.4.2 alnsn }
182 1.1.1.1.4.2 alnsn else
183 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->index >= 0 && stack->count >= 0);
184 1.1.1.1.4.2 alnsn
185 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->first->data.prev == NULL);
186 1.1.1.1.4.2 alnsn curr = stack->first;
187 1.1.1.1.4.2 alnsn while (curr) {
188 1.1.1.1.4.2 alnsn if (curr == stack->last)
189 1.1.1.1.4.2 alnsn found = 1;
190 1.1.1.1.4.2 alnsn if (curr->data.next)
191 1.1.1.1.4.2 alnsn SLJIT_ASSERT(curr->data.next->data.prev == curr);
192 1.1.1.1.4.2 alnsn curr = curr->data.next;
193 1.1.1.1.4.2 alnsn }
194 1.1.1.1.4.2 alnsn SLJIT_ASSERT(found);
195 1.1.1.1.4.2 alnsn }
196 1.1.1.1.4.2 alnsn
197 1.1.1.1.4.2 alnsn #endif
198 1.1.1.1.4.2 alnsn
199 1.1.1.1.4.2 alnsn static void stack_init(struct stack *stack)
200 1.1.1.1.4.2 alnsn {
201 1.1.1.1.4.2 alnsn stack->first = NULL;
202 1.1.1.1.4.2 alnsn stack->last = NULL;
203 1.1.1.1.4.2 alnsn stack->index = STACK_FRAGMENT_SIZE - 1;
204 1.1.1.1.4.2 alnsn stack->count = 0;
205 1.1.1.1.4.2 alnsn }
206 1.1.1.1.4.2 alnsn
207 1.1.1.1.4.2 alnsn static void stack_destroy(struct stack *stack)
208 1.1.1.1.4.2 alnsn {
209 1.1.1.1.4.2 alnsn struct stack_fragment *curr = stack->first;
210 1.1.1.1.4.2 alnsn struct stack_fragment *prev;
211 1.1.1.1.4.2 alnsn
212 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
213 1.1.1.1.4.2 alnsn stack_check(stack);
214 1.1.1.1.4.2 alnsn #endif
215 1.1.1.1.4.2 alnsn
216 1.1.1.1.4.2 alnsn while (curr) {
217 1.1.1.1.4.2 alnsn prev = curr;
218 1.1.1.1.4.2 alnsn curr = curr->data.next;
219 1.1.1.1.4.2 alnsn SLJIT_FREE(prev);
220 1.1.1.1.4.2 alnsn }
221 1.1.1.1.4.2 alnsn }
222 1.1.1.1.4.2 alnsn
223 1.1.1.1.4.2 alnsn static SLJIT_INLINE struct stack_item* stack_top(struct stack *stack)
224 1.1.1.1.4.2 alnsn {
225 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->last);
226 1.1.1.1.4.2 alnsn return stack->last->items + stack->index;
227 1.1.1.1.4.2 alnsn }
228 1.1.1.1.4.2 alnsn
229 1.1.1.1.4.2 alnsn static int stack_push(struct stack *stack, int type, int value)
230 1.1.1.1.4.2 alnsn {
231 1.1.1.1.4.2 alnsn if (stack->last) {
232 1.1.1.1.4.2 alnsn stack->index++;
233 1.1.1.1.4.2 alnsn if (stack->index >= STACK_FRAGMENT_SIZE) {
234 1.1.1.1.4.2 alnsn stack->index = 0;
235 1.1.1.1.4.2 alnsn if (!stack->last->data.next) {
236 1.1.1.1.4.2 alnsn stack->last->data.next = (struct stack_fragment*)SLJIT_MALLOC(sizeof(struct stack_fragment));
237 1.1.1.1.4.2 alnsn if (!stack->last->data.next)
238 1.1.1.1.4.2 alnsn return 1;
239 1.1.1.1.4.2 alnsn stack->last->data.next->data.next = NULL;
240 1.1.1.1.4.2 alnsn stack->last->data.next->data.prev = stack->last;
241 1.1.1.1.4.2 alnsn }
242 1.1.1.1.4.2 alnsn stack->last = stack->last->data.next;
243 1.1.1.1.4.2 alnsn }
244 1.1.1.1.4.2 alnsn }
245 1.1.1.1.4.2 alnsn else if (!stack->first) {
246 1.1.1.1.4.2 alnsn stack->last = (struct stack_fragment*)SLJIT_MALLOC(sizeof(struct stack_fragment));
247 1.1.1.1.4.2 alnsn if (!stack->last)
248 1.1.1.1.4.2 alnsn return 1;
249 1.1.1.1.4.2 alnsn stack->last->data.prev = NULL;
250 1.1.1.1.4.2 alnsn stack->last->data.next = NULL;
251 1.1.1.1.4.2 alnsn stack->first = stack->last;
252 1.1.1.1.4.2 alnsn stack->index = 0;
253 1.1.1.1.4.2 alnsn }
254 1.1.1.1.4.2 alnsn else {
255 1.1.1.1.4.2 alnsn stack->last = stack->first;
256 1.1.1.1.4.2 alnsn stack->index = 0;
257 1.1.1.1.4.2 alnsn }
258 1.1.1.1.4.2 alnsn stack->last->items[stack->index].type = type;
259 1.1.1.1.4.2 alnsn stack->last->items[stack->index].value = value;
260 1.1.1.1.4.2 alnsn stack->count++;
261 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
262 1.1.1.1.4.2 alnsn stack_check(stack);
263 1.1.1.1.4.2 alnsn #endif
264 1.1.1.1.4.2 alnsn return 0;
265 1.1.1.1.4.2 alnsn }
266 1.1.1.1.4.2 alnsn
267 1.1.1.1.4.2 alnsn static struct stack_item* stack_pop(struct stack *stack)
268 1.1.1.1.4.2 alnsn {
269 1.1.1.1.4.2 alnsn struct stack_item *ret = stack_top(stack);
270 1.1.1.1.4.2 alnsn
271 1.1.1.1.4.2 alnsn if (stack->index > 0)
272 1.1.1.1.4.2 alnsn stack->index--;
273 1.1.1.1.4.2 alnsn else {
274 1.1.1.1.4.2 alnsn stack->last = stack->last->data.prev;
275 1.1.1.1.4.2 alnsn stack->index = STACK_FRAGMENT_SIZE - 1;
276 1.1.1.1.4.2 alnsn }
277 1.1.1.1.4.2 alnsn
278 1.1.1.1.4.2 alnsn stack->count--;
279 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
280 1.1.1.1.4.2 alnsn stack_check(stack);
281 1.1.1.1.4.2 alnsn #endif
282 1.1.1.1.4.2 alnsn return ret;
283 1.1.1.1.4.2 alnsn }
284 1.1.1.1.4.2 alnsn
285 1.1.1.1.4.2 alnsn static SLJIT_INLINE void stack_clone(struct stack *src, struct stack *dst)
286 1.1.1.1.4.2 alnsn {
287 1.1.1.1.4.2 alnsn *dst = *src;
288 1.1.1.1.4.2 alnsn }
289 1.1.1.1.4.2 alnsn
290 1.1.1.1.4.2 alnsn static int stack_push_copy(struct stack *stack, int items, int length)
291 1.1.1.1.4.2 alnsn {
292 1.1.1.1.4.2 alnsn struct stack_fragment *frag1;
293 1.1.1.1.4.2 alnsn int ind1;
294 1.1.1.1.4.2 alnsn struct stack_fragment *frag2;
295 1.1.1.1.4.2 alnsn int ind2;
296 1.1.1.1.4.2 alnsn int counter;
297 1.1.1.1.4.2 alnsn
298 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack->count >= length && items <= length && items > 0);
299 1.1.1.1.4.2 alnsn
300 1.1.1.1.4.2 alnsn /* Allocate the necessary elements. */
301 1.1.1.1.4.2 alnsn counter = items;
302 1.1.1.1.4.2 alnsn frag1 = stack->last;
303 1.1.1.1.4.2 alnsn ind1 = stack->index;
304 1.1.1.1.4.2 alnsn while (counter > 0) {
305 1.1.1.1.4.2 alnsn if (stack->index + counter >= STACK_FRAGMENT_SIZE) {
306 1.1.1.1.4.2 alnsn counter -= STACK_FRAGMENT_SIZE - stack->index - 1 + 1;
307 1.1.1.1.4.2 alnsn stack->index = 0;
308 1.1.1.1.4.2 alnsn if (!stack->last->data.next) {
309 1.1.1.1.4.2 alnsn stack->last->data.next = (struct stack_fragment*)SLJIT_MALLOC(sizeof(struct stack_fragment));
310 1.1.1.1.4.2 alnsn if (!stack->last->data.next)
311 1.1.1.1.4.2 alnsn return 1;
312 1.1.1.1.4.2 alnsn stack->last->data.next->data.next = NULL;
313 1.1.1.1.4.2 alnsn stack->last->data.next->data.prev = stack->last;
314 1.1.1.1.4.2 alnsn }
315 1.1.1.1.4.2 alnsn stack->last = stack->last->data.next;
316 1.1.1.1.4.2 alnsn }
317 1.1.1.1.4.2 alnsn else {
318 1.1.1.1.4.2 alnsn stack->index += counter;
319 1.1.1.1.4.2 alnsn counter = 0;
320 1.1.1.1.4.2 alnsn }
321 1.1.1.1.4.2 alnsn }
322 1.1.1.1.4.2 alnsn
323 1.1.1.1.4.2 alnsn frag2 = stack->last;
324 1.1.1.1.4.2 alnsn ind2 = stack->index;
325 1.1.1.1.4.2 alnsn while (length > 0) {
326 1.1.1.1.4.2 alnsn frag2->items[ind2--] = frag1->items[ind1--];
327 1.1.1.1.4.2 alnsn if (ind1 < 0) {
328 1.1.1.1.4.2 alnsn ind1 = STACK_FRAGMENT_SIZE - 1;
329 1.1.1.1.4.2 alnsn frag1 = frag1->data.prev;
330 1.1.1.1.4.2 alnsn }
331 1.1.1.1.4.2 alnsn if (ind2 < 0) {
332 1.1.1.1.4.2 alnsn ind2 = STACK_FRAGMENT_SIZE - 1;
333 1.1.1.1.4.2 alnsn frag2 = frag2->data.prev;
334 1.1.1.1.4.2 alnsn }
335 1.1.1.1.4.2 alnsn length--;
336 1.1.1.1.4.2 alnsn }
337 1.1.1.1.4.2 alnsn
338 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
339 1.1.1.1.4.2 alnsn stack_check(stack);
340 1.1.1.1.4.2 alnsn #endif
341 1.1.1.1.4.2 alnsn stack->count += items;
342 1.1.1.1.4.2 alnsn return 0;
343 1.1.1.1.4.2 alnsn }
344 1.1.1.1.4.2 alnsn
345 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
346 1.1.1.1.4.2 alnsn /* Parser */
347 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
348 1.1.1.1.4.2 alnsn
349 1.1.1.1.4.2 alnsn enum {
350 1.1.1.1.4.2 alnsn /* Common. */
351 1.1.1.1.4.2 alnsn type_begin,
352 1.1.1.1.4.2 alnsn type_end,
353 1.1.1.1.4.2 alnsn type_char,
354 1.1.1.1.4.2 alnsn type_newline,
355 1.1.1.1.4.2 alnsn type_id,
356 1.1.1.1.4.2 alnsn type_rng_start,
357 1.1.1.1.4.2 alnsn type_rng_end,
358 1.1.1.1.4.2 alnsn type_rng_char,
359 1.1.1.1.4.2 alnsn type_rng_left,
360 1.1.1.1.4.2 alnsn type_rng_right,
361 1.1.1.1.4.2 alnsn
362 1.1.1.1.4.2 alnsn /* generator only. */
363 1.1.1.1.4.2 alnsn type_branch,
364 1.1.1.1.4.2 alnsn type_jump,
365 1.1.1.1.4.2 alnsn
366 1.1.1.1.4.2 alnsn /* Parser only. */
367 1.1.1.1.4.2 alnsn type_open_br,
368 1.1.1.1.4.2 alnsn type_close_br,
369 1.1.1.1.4.2 alnsn type_select,
370 1.1.1.1.4.2 alnsn type_asterisk,
371 1.1.1.1.4.2 alnsn type_plus_sign,
372 1.1.1.1.4.2 alnsn type_qestion_mark
373 1.1.1.1.4.2 alnsn };
374 1.1.1.1.4.2 alnsn
375 1.1.1.1.4.2 alnsn struct compiler_common {
376 1.1.1.1.4.2 alnsn /* Temporary stacks. */
377 1.1.1.1.4.2 alnsn struct stack stack;
378 1.1.1.1.4.2 alnsn struct stack depth;
379 1.1.1.1.4.2 alnsn /* REGEX_ flags. */
380 1.1.1.1.4.2 alnsn int flags;
381 1.1.1.1.4.2 alnsn /* Encoded size of the dfa representation. */
382 1.1.1.1.4.2 alnsn sljit_w dfa_size;
383 1.1.1.1.4.2 alnsn /* Number of terms. */
384 1.1.1.1.4.2 alnsn sljit_w terms_size;
385 1.1.1.1.4.2 alnsn /* Number of state descriptors for one term (same as machine->no_states). */
386 1.1.1.1.4.2 alnsn sljit_w no_states;
387 1.1.1.1.4.2 alnsn /* Number of type_rng_(char|left)-s in the longest character range. */
388 1.1.1.1.4.2 alnsn sljit_w longest_range_size;
389 1.1.1.1.4.2 alnsn
390 1.1.1.1.4.2 alnsn /* DFA linear representation (size: dfa_size). */
391 1.1.1.1.4.2 alnsn struct stack_item *dfa_transitions;
392 1.1.1.1.4.2 alnsn /* Term id and search state pairs (size: dfa_size). */
393 1.1.1.1.4.2 alnsn struct stack_item *search_states;
394 1.1.1.1.4.2 alnsn
395 1.1.1.1.4.2 alnsn /* sljit compiler */
396 1.1.1.1.4.2 alnsn struct sljit_compiler *compiler;
397 1.1.1.1.4.2 alnsn /* Machine data, which must be kept for later use. */
398 1.1.1.1.4.2 alnsn struct regex_machine *machine;
399 1.1.1.1.4.2 alnsn /* Temporary space for jumps (size: longest_range_size). */
400 1.1.1.1.4.2 alnsn struct sljit_jump **range_jump_list;
401 1.1.1.1.4.2 alnsn };
402 1.1.1.1.4.2 alnsn
403 1.1.1.1.4.2 alnsn static const regex_char_t* decode_number(const regex_char_t *regex_string, int length, int *result)
404 1.1.1.1.4.2 alnsn {
405 1.1.1.1.4.2 alnsn int value = 0;
406 1.1.1.1.4.2 alnsn
407 1.1.1.1.4.2 alnsn SLJIT_ASSERT(length > 0);
408 1.1.1.1.4.2 alnsn if (*regex_string < '0' || *regex_string > '9') {
409 1.1.1.1.4.2 alnsn *result = -1;
410 1.1.1.1.4.2 alnsn return regex_string;
411 1.1.1.1.4.2 alnsn }
412 1.1.1.1.4.2 alnsn
413 1.1.1.1.4.2 alnsn while (length > 0 && *regex_string >= '0' && *regex_string <= '9') {
414 1.1.1.1.4.2 alnsn value = value * 10 + (*regex_string - '0');
415 1.1.1.1.4.2 alnsn length--;
416 1.1.1.1.4.2 alnsn regex_string++;
417 1.1.1.1.4.2 alnsn }
418 1.1.1.1.4.2 alnsn
419 1.1.1.1.4.2 alnsn *result = value;
420 1.1.1.1.4.2 alnsn return regex_string;
421 1.1.1.1.4.2 alnsn }
422 1.1.1.1.4.2 alnsn
423 1.1.1.1.4.2 alnsn static int iterate(struct stack *stack, int min, int max)
424 1.1.1.1.4.2 alnsn {
425 1.1.1.1.4.2 alnsn struct stack it;
426 1.1.1.1.4.2 alnsn struct stack_item *item;
427 1.1.1.1.4.2 alnsn int count = -1;
428 1.1.1.1.4.2 alnsn int len = 0;
429 1.1.1.1.4.2 alnsn int depth = 0;
430 1.1.1.1.4.2 alnsn
431 1.1.1.1.4.2 alnsn stack_clone(stack, &it);
432 1.1.1.1.4.2 alnsn
433 1.1.1.1.4.2 alnsn /* Calculate size. */
434 1.1.1.1.4.2 alnsn while (count < 0) {
435 1.1.1.1.4.2 alnsn item = stack_pop(&it);
436 1.1.1.1.4.2 alnsn switch (item->type) {
437 1.1.1.1.4.2 alnsn case type_id:
438 1.1.1.1.4.2 alnsn case type_rng_end:
439 1.1.1.1.4.2 alnsn case type_rng_char:
440 1.1.1.1.4.2 alnsn case type_rng_left:
441 1.1.1.1.4.2 alnsn case type_rng_right:
442 1.1.1.1.4.2 alnsn case type_plus_sign:
443 1.1.1.1.4.2 alnsn case type_qestion_mark:
444 1.1.1.1.4.2 alnsn len++;
445 1.1.1.1.4.2 alnsn break;
446 1.1.1.1.4.2 alnsn
447 1.1.1.1.4.2 alnsn case type_asterisk:
448 1.1.1.1.4.2 alnsn len += 2;
449 1.1.1.1.4.2 alnsn break;
450 1.1.1.1.4.2 alnsn
451 1.1.1.1.4.2 alnsn case type_close_br:
452 1.1.1.1.4.2 alnsn depth++;
453 1.1.1.1.4.2 alnsn break;
454 1.1.1.1.4.2 alnsn
455 1.1.1.1.4.2 alnsn case type_open_br:
456 1.1.1.1.4.2 alnsn SLJIT_ASSERT(depth > 0);
457 1.1.1.1.4.2 alnsn depth--;
458 1.1.1.1.4.2 alnsn if (depth == 0)
459 1.1.1.1.4.2 alnsn count = it.count;
460 1.1.1.1.4.2 alnsn break;
461 1.1.1.1.4.2 alnsn
462 1.1.1.1.4.2 alnsn case type_select:
463 1.1.1.1.4.2 alnsn SLJIT_ASSERT(depth > 0);
464 1.1.1.1.4.2 alnsn len += 2;
465 1.1.1.1.4.2 alnsn break;
466 1.1.1.1.4.2 alnsn
467 1.1.1.1.4.2 alnsn default:
468 1.1.1.1.4.2 alnsn SLJIT_ASSERT(item->type != type_begin && item->type != type_end);
469 1.1.1.1.4.2 alnsn if (depth == 0)
470 1.1.1.1.4.2 alnsn count = it.count;
471 1.1.1.1.4.2 alnsn len++;
472 1.1.1.1.4.2 alnsn break;
473 1.1.1.1.4.2 alnsn }
474 1.1.1.1.4.2 alnsn }
475 1.1.1.1.4.2 alnsn
476 1.1.1.1.4.2 alnsn if (min == 0 && max == 0) {
477 1.1.1.1.4.2 alnsn /* {0,0} case, not {0,} case: delete subtree. */
478 1.1.1.1.4.2 alnsn stack_clone(&it, stack);
479 1.1.1.1.4.2 alnsn /* and put an empty bracket expression instead of it. */
480 1.1.1.1.4.2 alnsn if (stack_push(stack, type_open_br, 0))
481 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
482 1.1.1.1.4.2 alnsn if (stack_push(stack, type_close_br, 0))
483 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
484 1.1.1.1.4.2 alnsn return len;
485 1.1.1.1.4.2 alnsn }
486 1.1.1.1.4.2 alnsn
487 1.1.1.1.4.2 alnsn count = stack->count - count;
488 1.1.1.1.4.2 alnsn
489 1.1.1.1.4.2 alnsn /* Put an open bracket before the sequence. */
490 1.1.1.1.4.2 alnsn if (stack_push_copy(stack, 1, count))
491 1.1.1.1.4.2 alnsn return -1;
492 1.1.1.1.4.2 alnsn
493 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
494 1.1.1.1.4.2 alnsn SLJIT_ASSERT(stack_push(&it, type_open_br, 0) == 0);
495 1.1.1.1.4.2 alnsn #else
496 1.1.1.1.4.2 alnsn stack_push(&it, type_open_br, 0);
497 1.1.1.1.4.2 alnsn #endif
498 1.1.1.1.4.2 alnsn
499 1.1.1.1.4.2 alnsn /* Copy the data. */
500 1.1.1.1.4.2 alnsn if (max > 0) {
501 1.1.1.1.4.2 alnsn len = len * (max - 1);
502 1.1.1.1.4.2 alnsn max -= min;
503 1.1.1.1.4.2 alnsn /* Insert ? operators. */
504 1.1.1.1.4.2 alnsn len += max;
505 1.1.1.1.4.2 alnsn
506 1.1.1.1.4.2 alnsn if (min > 0) {
507 1.1.1.1.4.2 alnsn min--;
508 1.1.1.1.4.2 alnsn while (min > 0) {
509 1.1.1.1.4.2 alnsn if (stack_push_copy(stack, count, count))
510 1.1.1.1.4.2 alnsn return -1;
511 1.1.1.1.4.2 alnsn min--;
512 1.1.1.1.4.2 alnsn }
513 1.1.1.1.4.2 alnsn if (max > 0) {
514 1.1.1.1.4.2 alnsn if (stack_push_copy(stack, count, count))
515 1.1.1.1.4.2 alnsn return -1;
516 1.1.1.1.4.2 alnsn if (stack_push(stack, type_qestion_mark, 0))
517 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
518 1.1.1.1.4.2 alnsn count++;
519 1.1.1.1.4.2 alnsn max--;
520 1.1.1.1.4.2 alnsn }
521 1.1.1.1.4.2 alnsn }
522 1.1.1.1.4.2 alnsn else {
523 1.1.1.1.4.2 alnsn SLJIT_ASSERT(max > 0);
524 1.1.1.1.4.2 alnsn max--;
525 1.1.1.1.4.2 alnsn count++;
526 1.1.1.1.4.2 alnsn if (stack_push(stack, type_qestion_mark, 0))
527 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
528 1.1.1.1.4.2 alnsn }
529 1.1.1.1.4.2 alnsn
530 1.1.1.1.4.2 alnsn while (max > 0) {
531 1.1.1.1.4.2 alnsn if (stack_push_copy(stack, count, count))
532 1.1.1.1.4.2 alnsn return -1;
533 1.1.1.1.4.2 alnsn max--;
534 1.1.1.1.4.2 alnsn }
535 1.1.1.1.4.2 alnsn }
536 1.1.1.1.4.2 alnsn else {
537 1.1.1.1.4.2 alnsn SLJIT_ASSERT(min > 0);
538 1.1.1.1.4.2 alnsn min--;
539 1.1.1.1.4.2 alnsn /* Insert + operator. */
540 1.1.1.1.4.2 alnsn len = len * min + 1;
541 1.1.1.1.4.2 alnsn while (min > 0) {
542 1.1.1.1.4.2 alnsn if (stack_push_copy(stack, count, count))
543 1.1.1.1.4.2 alnsn return -1;
544 1.1.1.1.4.2 alnsn min--;
545 1.1.1.1.4.2 alnsn }
546 1.1.1.1.4.2 alnsn
547 1.1.1.1.4.2 alnsn if (stack_push(stack, type_plus_sign, 0))
548 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
549 1.1.1.1.4.2 alnsn }
550 1.1.1.1.4.2 alnsn
551 1.1.1.1.4.2 alnsn /* Close the opened bracket. */
552 1.1.1.1.4.2 alnsn if (stack_push(stack, type_close_br, 0))
553 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
554 1.1.1.1.4.2 alnsn
555 1.1.1.1.4.2 alnsn return len;
556 1.1.1.1.4.2 alnsn }
557 1.1.1.1.4.2 alnsn
558 1.1.1.1.4.2 alnsn static int parse_iterator(const regex_char_t *regex_string, int length, struct stack *stack, sljit_w *dfa_size, int begin)
559 1.1.1.1.4.2 alnsn {
560 1.1.1.1.4.2 alnsn /* We only know that *regex_string == { . */
561 1.1.1.1.4.2 alnsn int val1, val2;
562 1.1.1.1.4.2 alnsn const regex_char_t *base_from = regex_string;
563 1.1.1.1.4.2 alnsn const regex_char_t *from;
564 1.1.1.1.4.2 alnsn
565 1.1.1.1.4.2 alnsn length--;
566 1.1.1.1.4.2 alnsn regex_string++;
567 1.1.1.1.4.2 alnsn
568 1.1.1.1.4.2 alnsn /* Decode left value. */
569 1.1.1.1.4.2 alnsn val2 = -1;
570 1.1.1.1.4.2 alnsn if (length == 0)
571 1.1.1.1.4.2 alnsn return -2;
572 1.1.1.1.4.2 alnsn if (*regex_string == ',') {
573 1.1.1.1.4.2 alnsn val1 = 0;
574 1.1.1.1.4.2 alnsn length--;
575 1.1.1.1.4.2 alnsn regex_string++;
576 1.1.1.1.4.2 alnsn }
577 1.1.1.1.4.2 alnsn else {
578 1.1.1.1.4.2 alnsn from = regex_string;
579 1.1.1.1.4.2 alnsn regex_string = decode_number(regex_string, length, &val1);
580 1.1.1.1.4.2 alnsn if (val1 < 0)
581 1.1.1.1.4.2 alnsn return -2;
582 1.1.1.1.4.2 alnsn length -= regex_string - from;
583 1.1.1.1.4.2 alnsn
584 1.1.1.1.4.2 alnsn if (length == 0)
585 1.1.1.1.4.2 alnsn return -2;
586 1.1.1.1.4.2 alnsn if (*regex_string == '}') {
587 1.1.1.1.4.2 alnsn val2 = val1;
588 1.1.1.1.4.2 alnsn if (val1 == 0)
589 1.1.1.1.4.2 alnsn val1 = -1;
590 1.1.1.1.4.2 alnsn }
591 1.1.1.1.4.2 alnsn else if (length >= 2 && *regex_string == '!' && regex_string[1] == '}') {
592 1.1.1.1.4.2 alnsn /* Non posix extension. */
593 1.1.1.1.4.2 alnsn if (stack_push(stack, type_id, val1))
594 1.1.1.1.4.2 alnsn return -1;
595 1.1.1.1.4.2 alnsn (*dfa_size)++;
596 1.1.1.1.4.2 alnsn return (regex_string - base_from) + 1;
597 1.1.1.1.4.2 alnsn }
598 1.1.1.1.4.2 alnsn else {
599 1.1.1.1.4.2 alnsn if (*regex_string != ',')
600 1.1.1.1.4.2 alnsn return -2;
601 1.1.1.1.4.2 alnsn length--;
602 1.1.1.1.4.2 alnsn regex_string++;
603 1.1.1.1.4.2 alnsn }
604 1.1.1.1.4.2 alnsn }
605 1.1.1.1.4.2 alnsn
606 1.1.1.1.4.2 alnsn if (begin)
607 1.1.1.1.4.2 alnsn return -2;
608 1.1.1.1.4.2 alnsn
609 1.1.1.1.4.2 alnsn /* Decode right value. */
610 1.1.1.1.4.2 alnsn if (val2 == -1) {
611 1.1.1.1.4.2 alnsn if (length == 0)
612 1.1.1.1.4.2 alnsn return -2;
613 1.1.1.1.4.2 alnsn if (*regex_string == '}')
614 1.1.1.1.4.2 alnsn val2 = 0;
615 1.1.1.1.4.2 alnsn else {
616 1.1.1.1.4.2 alnsn from = regex_string;
617 1.1.1.1.4.2 alnsn regex_string = decode_number(regex_string, length, &val2);
618 1.1.1.1.4.2 alnsn length -= regex_string - from;
619 1.1.1.1.4.2 alnsn if (val2 < 0 || length == 0 || *regex_string != '}' || val2 < val1)
620 1.1.1.1.4.2 alnsn return -2;
621 1.1.1.1.4.2 alnsn if (val2 == 0) {
622 1.1.1.1.4.2 alnsn SLJIT_ASSERT(val1 == 0);
623 1.1.1.1.4.2 alnsn val1 = -1;
624 1.1.1.1.4.2 alnsn }
625 1.1.1.1.4.2 alnsn }
626 1.1.1.1.4.2 alnsn }
627 1.1.1.1.4.2 alnsn
628 1.1.1.1.4.2 alnsn /* Fast cases. */
629 1.1.1.1.4.2 alnsn if (val1 > 1 || val2 > 1) {
630 1.1.1.1.4.2 alnsn val1 = iterate(stack, val1, val2);
631 1.1.1.1.4.2 alnsn if (val1 < 0)
632 1.1.1.1.4.2 alnsn return -1;
633 1.1.1.1.4.2 alnsn *dfa_size += val1;
634 1.1.1.1.4.2 alnsn }
635 1.1.1.1.4.2 alnsn else if (val1 == 0 && val2 == 0) {
636 1.1.1.1.4.2 alnsn if (stack_push(stack, type_asterisk, 0))
637 1.1.1.1.4.2 alnsn return -1;
638 1.1.1.1.4.2 alnsn *dfa_size += 2;
639 1.1.1.1.4.2 alnsn }
640 1.1.1.1.4.2 alnsn else if (val1 == 1 && val2 == 0) {
641 1.1.1.1.4.2 alnsn if (stack_push(stack, type_plus_sign, 0))
642 1.1.1.1.4.2 alnsn return -1;
643 1.1.1.1.4.2 alnsn (*dfa_size)++;
644 1.1.1.1.4.2 alnsn }
645 1.1.1.1.4.2 alnsn else if (val1 == 0 && val2 == 1) {
646 1.1.1.1.4.2 alnsn if (stack_push(stack, type_qestion_mark, 0))
647 1.1.1.1.4.2 alnsn return -1;
648 1.1.1.1.4.2 alnsn (*dfa_size)++;
649 1.1.1.1.4.2 alnsn }
650 1.1.1.1.4.2 alnsn else if (val1 == -1) {
651 1.1.1.1.4.2 alnsn val1 = iterate(stack, 0, 0);
652 1.1.1.1.4.2 alnsn if (val1 < 0)
653 1.1.1.1.4.2 alnsn return -1;
654 1.1.1.1.4.2 alnsn *dfa_size -= val1;
655 1.1.1.1.4.2 alnsn SLJIT_ASSERT(*dfa_size >= 2);
656 1.1.1.1.4.2 alnsn }
657 1.1.1.1.4.2 alnsn else {
658 1.1.1.1.4.2 alnsn /* Ignore. */
659 1.1.1.1.4.2 alnsn SLJIT_ASSERT(val1 == 1 && val2 == 1);
660 1.1.1.1.4.2 alnsn }
661 1.1.1.1.4.2 alnsn return regex_string - base_from;
662 1.1.1.1.4.2 alnsn }
663 1.1.1.1.4.2 alnsn
664 1.1.1.1.4.2 alnsn static int parse_char_range(const regex_char_t *regex_string, int length, struct compiler_common *compiler_common)
665 1.1.1.1.4.2 alnsn {
666 1.1.1.1.4.2 alnsn struct stack* stack = &compiler_common->stack;
667 1.1.1.1.4.2 alnsn const regex_char_t *base_from = regex_string;
668 1.1.1.1.4.2 alnsn regex_char_t left_char, right_char, tmp_char;
669 1.1.1.1.4.2 alnsn
670 1.1.1.1.4.2 alnsn length--;
671 1.1.1.1.4.2 alnsn regex_string++;
672 1.1.1.1.4.2 alnsn
673 1.1.1.1.4.2 alnsn if (length == 0)
674 1.1.1.1.4.2 alnsn return -2;
675 1.1.1.1.4.2 alnsn
676 1.1.1.1.4.2 alnsn if (*regex_string != '^') {
677 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_start, 0))
678 1.1.1.1.4.2 alnsn return -1;
679 1.1.1.1.4.2 alnsn }
680 1.1.1.1.4.2 alnsn else {
681 1.1.1.1.4.2 alnsn length--;
682 1.1.1.1.4.2 alnsn regex_string++;
683 1.1.1.1.4.2 alnsn
684 1.1.1.1.4.2 alnsn if (length == 0)
685 1.1.1.1.4.2 alnsn return -2;
686 1.1.1.1.4.2 alnsn
687 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_start, 1))
688 1.1.1.1.4.2 alnsn return -1;
689 1.1.1.1.4.2 alnsn }
690 1.1.1.1.4.2 alnsn /* For both the type_rng_start & type_rng_end. */
691 1.1.1.1.4.2 alnsn compiler_common->dfa_size += 2;
692 1.1.1.1.4.2 alnsn
693 1.1.1.1.4.2 alnsn /* Range must be at least 1 character. */
694 1.1.1.1.4.2 alnsn if (*regex_string == ']') {
695 1.1.1.1.4.2 alnsn length--;
696 1.1.1.1.4.2 alnsn regex_string++;
697 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_char, ']'))
698 1.1.1.1.4.2 alnsn return -1;
699 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
700 1.1.1.1.4.2 alnsn }
701 1.1.1.1.4.2 alnsn
702 1.1.1.1.4.2 alnsn while (1) {
703 1.1.1.1.4.2 alnsn if (length == 0)
704 1.1.1.1.4.2 alnsn return -2;
705 1.1.1.1.4.2 alnsn
706 1.1.1.1.4.2 alnsn if (*regex_string == ']')
707 1.1.1.1.4.2 alnsn break;
708 1.1.1.1.4.2 alnsn
709 1.1.1.1.4.2 alnsn if (*regex_string != '\\')
710 1.1.1.1.4.2 alnsn left_char = *regex_string;
711 1.1.1.1.4.2 alnsn else {
712 1.1.1.1.4.2 alnsn regex_string++;
713 1.1.1.1.4.2 alnsn length--;
714 1.1.1.1.4.2 alnsn if (length == 0)
715 1.1.1.1.4.2 alnsn return -2;
716 1.1.1.1.4.2 alnsn left_char = *regex_string;
717 1.1.1.1.4.2 alnsn }
718 1.1.1.1.4.2 alnsn regex_string++;
719 1.1.1.1.4.2 alnsn length--;
720 1.1.1.1.4.2 alnsn
721 1.1.1.1.4.2 alnsn /* Is a range here? */
722 1.1.1.1.4.2 alnsn if (length >= 3 && *regex_string == '-' && *(regex_string + 1) != ']') {
723 1.1.1.1.4.2 alnsn regex_string++;
724 1.1.1.1.4.2 alnsn length--;
725 1.1.1.1.4.2 alnsn
726 1.1.1.1.4.2 alnsn if (*regex_string != '\\')
727 1.1.1.1.4.2 alnsn right_char = *regex_string;
728 1.1.1.1.4.2 alnsn else {
729 1.1.1.1.4.2 alnsn regex_string++;
730 1.1.1.1.4.2 alnsn length--;
731 1.1.1.1.4.2 alnsn if (length == 0)
732 1.1.1.1.4.2 alnsn return -2;
733 1.1.1.1.4.2 alnsn right_char = *regex_string;
734 1.1.1.1.4.2 alnsn }
735 1.1.1.1.4.2 alnsn regex_string++;
736 1.1.1.1.4.2 alnsn length--;
737 1.1.1.1.4.2 alnsn
738 1.1.1.1.4.2 alnsn if (left_char > right_char) {
739 1.1.1.1.4.2 alnsn /* Swap if necessary. */
740 1.1.1.1.4.2 alnsn tmp_char = left_char;
741 1.1.1.1.4.2 alnsn left_char = right_char;
742 1.1.1.1.4.2 alnsn right_char = tmp_char;
743 1.1.1.1.4.2 alnsn }
744 1.1.1.1.4.2 alnsn
745 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_left, left_char))
746 1.1.1.1.4.2 alnsn return -1;
747 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_right, right_char))
748 1.1.1.1.4.2 alnsn return -1;
749 1.1.1.1.4.2 alnsn compiler_common->dfa_size += 2;
750 1.1.1.1.4.2 alnsn }
751 1.1.1.1.4.2 alnsn else {
752 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_char, left_char))
753 1.1.1.1.4.2 alnsn return -1;
754 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
755 1.1.1.1.4.2 alnsn }
756 1.1.1.1.4.2 alnsn }
757 1.1.1.1.4.2 alnsn
758 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_end, 0))
759 1.1.1.1.4.2 alnsn return -1;
760 1.1.1.1.4.2 alnsn return regex_string - base_from;
761 1.1.1.1.4.2 alnsn }
762 1.1.1.1.4.2 alnsn
763 1.1.1.1.4.2 alnsn static int parse(const regex_char_t *regex_string, int length, struct compiler_common *compiler_common)
764 1.1.1.1.4.2 alnsn {
765 1.1.1.1.4.2 alnsn /* Depth of bracketed expressions. */
766 1.1.1.1.4.2 alnsn int depth = 0;
767 1.1.1.1.4.2 alnsn /* Have we already found a term? '1' if not yet. */
768 1.1.1.1.4.2 alnsn int begin = 1;
769 1.1.1.1.4.2 alnsn /* Cache stack pointer. */
770 1.1.1.1.4.2 alnsn struct stack* stack = &compiler_common->stack;
771 1.1.1.1.4.2 alnsn int tmp;
772 1.1.1.1.4.2 alnsn
773 1.1.1.1.4.2 alnsn /* Type_begin and type_end. */
774 1.1.1.1.4.2 alnsn compiler_common->dfa_size = 2;
775 1.1.1.1.4.2 alnsn stack_init(stack);
776 1.1.1.1.4.2 alnsn if (stack_push(stack, type_begin, 0))
777 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
778 1.1.1.1.4.2 alnsn
779 1.1.1.1.4.2 alnsn if (length > 0 && *regex_string == '^') {
780 1.1.1.1.4.2 alnsn compiler_common->flags |= REGEX_MATCH_BEGIN;
781 1.1.1.1.4.2 alnsn length--;
782 1.1.1.1.4.2 alnsn regex_string++;
783 1.1.1.1.4.2 alnsn }
784 1.1.1.1.4.2 alnsn
785 1.1.1.1.4.2 alnsn if ((compiler_common->flags & (REGEX_MATCH_BEGIN | REGEX_NEWLINE)) == (REGEX_MATCH_BEGIN | REGEX_NEWLINE)) {
786 1.1.1.1.4.2 alnsn /* Replace REGEX_MATCH_BEGIN flag to REGEX_FAKE_MATCH_BEGIN */
787 1.1.1.1.4.2 alnsn compiler_common->flags &= ~REGEX_MATCH_BEGIN;
788 1.1.1.1.4.2 alnsn compiler_common->flags |= REGEX_FAKE_MATCH_BEGIN;
789 1.1.1.1.4.2 alnsn /* and append a new-line search. */
790 1.1.1.1.4.2 alnsn if (stack_push(stack, type_newline, 0))
791 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
792 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
793 1.1.1.1.4.2 alnsn /* Begin intentionally kept as 1. */
794 1.1.1.1.4.2 alnsn }
795 1.1.1.1.4.2 alnsn
796 1.1.1.1.4.2 alnsn while (length > 0) {
797 1.1.1.1.4.2 alnsn switch (*regex_string) {
798 1.1.1.1.4.2 alnsn case '\\' :
799 1.1.1.1.4.2 alnsn length--;
800 1.1.1.1.4.2 alnsn regex_string++;
801 1.1.1.1.4.2 alnsn if (length == 0)
802 1.1.1.1.4.2 alnsn return REGEX_INVALID_REGEX;
803 1.1.1.1.4.2 alnsn if (stack_push(stack, type_char, *regex_string))
804 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
805 1.1.1.1.4.2 alnsn begin = 0;
806 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
807 1.1.1.1.4.2 alnsn break;
808 1.1.1.1.4.2 alnsn
809 1.1.1.1.4.2 alnsn case '.' :
810 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_start, 1))
811 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
812 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_NEWLINE) {
813 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_char, '\n'))
814 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
815 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_char, '\r'))
816 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
817 1.1.1.1.4.2 alnsn compiler_common->dfa_size += 2;
818 1.1.1.1.4.2 alnsn }
819 1.1.1.1.4.2 alnsn if (stack_push(stack, type_rng_end, 1))
820 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
821 1.1.1.1.4.2 alnsn begin = 0;
822 1.1.1.1.4.2 alnsn compiler_common->dfa_size += 2;
823 1.1.1.1.4.2 alnsn break;
824 1.1.1.1.4.2 alnsn
825 1.1.1.1.4.2 alnsn case '(' :
826 1.1.1.1.4.2 alnsn depth++;
827 1.1.1.1.4.2 alnsn if (stack_push(stack, type_open_br, 0))
828 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
829 1.1.1.1.4.2 alnsn begin = 1;
830 1.1.1.1.4.2 alnsn break;
831 1.1.1.1.4.2 alnsn
832 1.1.1.1.4.2 alnsn case ')' :
833 1.1.1.1.4.2 alnsn if (depth == 0)
834 1.1.1.1.4.2 alnsn return REGEX_INVALID_REGEX;
835 1.1.1.1.4.2 alnsn depth--;
836 1.1.1.1.4.2 alnsn if (stack_push(stack, type_close_br, 0))
837 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
838 1.1.1.1.4.2 alnsn begin = 0;
839 1.1.1.1.4.2 alnsn break;
840 1.1.1.1.4.2 alnsn
841 1.1.1.1.4.2 alnsn case '|' :
842 1.1.1.1.4.2 alnsn if (stack_push(stack, type_select, 0))
843 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
844 1.1.1.1.4.2 alnsn begin = 1;
845 1.1.1.1.4.2 alnsn compiler_common->dfa_size += 2;
846 1.1.1.1.4.2 alnsn break;
847 1.1.1.1.4.2 alnsn
848 1.1.1.1.4.2 alnsn case '*' :
849 1.1.1.1.4.2 alnsn if (begin)
850 1.1.1.1.4.2 alnsn return REGEX_INVALID_REGEX;
851 1.1.1.1.4.2 alnsn if (stack_push(stack, type_asterisk, 0))
852 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
853 1.1.1.1.4.2 alnsn compiler_common->dfa_size += 2;
854 1.1.1.1.4.2 alnsn break;
855 1.1.1.1.4.2 alnsn
856 1.1.1.1.4.2 alnsn case '?' :
857 1.1.1.1.4.2 alnsn case '+' :
858 1.1.1.1.4.2 alnsn if (begin)
859 1.1.1.1.4.2 alnsn return REGEX_INVALID_REGEX;
860 1.1.1.1.4.2 alnsn if (stack_push(stack, (*regex_string == '+') ? type_plus_sign : type_qestion_mark, 0))
861 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
862 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
863 1.1.1.1.4.2 alnsn break;
864 1.1.1.1.4.2 alnsn
865 1.1.1.1.4.2 alnsn case '{' :
866 1.1.1.1.4.2 alnsn tmp = parse_iterator(regex_string, length, stack, &compiler_common->dfa_size, begin);
867 1.1.1.1.4.2 alnsn
868 1.1.1.1.4.2 alnsn if (tmp >= 0) {
869 1.1.1.1.4.2 alnsn length -= tmp;
870 1.1.1.1.4.2 alnsn regex_string += tmp;
871 1.1.1.1.4.2 alnsn }
872 1.1.1.1.4.2 alnsn else if (tmp == -1)
873 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
874 1.1.1.1.4.2 alnsn else {
875 1.1.1.1.4.2 alnsn /* Not a valid range expression. */
876 1.1.1.1.4.2 alnsn SLJIT_ASSERT(tmp == -2);
877 1.1.1.1.4.2 alnsn if (stack_push(stack, type_char, '{'))
878 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
879 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
880 1.1.1.1.4.2 alnsn }
881 1.1.1.1.4.2 alnsn break;
882 1.1.1.1.4.2 alnsn
883 1.1.1.1.4.2 alnsn case '[' :
884 1.1.1.1.4.2 alnsn tmp = parse_char_range(regex_string, length, compiler_common);
885 1.1.1.1.4.2 alnsn if (tmp >= 0) {
886 1.1.1.1.4.2 alnsn length -= tmp;
887 1.1.1.1.4.2 alnsn regex_string += tmp;
888 1.1.1.1.4.2 alnsn }
889 1.1.1.1.4.2 alnsn else if (tmp == -1)
890 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
891 1.1.1.1.4.2 alnsn else {
892 1.1.1.1.4.2 alnsn SLJIT_ASSERT(tmp == -2);
893 1.1.1.1.4.2 alnsn return REGEX_INVALID_REGEX;
894 1.1.1.1.4.2 alnsn }
895 1.1.1.1.4.2 alnsn begin = 0;
896 1.1.1.1.4.2 alnsn break;
897 1.1.1.1.4.2 alnsn
898 1.1.1.1.4.2 alnsn default:
899 1.1.1.1.4.2 alnsn if (length == 1 && *regex_string == '$') {
900 1.1.1.1.4.2 alnsn compiler_common->flags |= REGEX_MATCH_END;
901 1.1.1.1.4.2 alnsn break;
902 1.1.1.1.4.2 alnsn }
903 1.1.1.1.4.2 alnsn if (stack_push(stack, type_char, *regex_string))
904 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
905 1.1.1.1.4.2 alnsn begin = 0;
906 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
907 1.1.1.1.4.2 alnsn break;
908 1.1.1.1.4.2 alnsn }
909 1.1.1.1.4.2 alnsn length--;
910 1.1.1.1.4.2 alnsn regex_string++;
911 1.1.1.1.4.2 alnsn }
912 1.1.1.1.4.2 alnsn
913 1.1.1.1.4.2 alnsn if (depth != 0)
914 1.1.1.1.4.2 alnsn return REGEX_INVALID_REGEX;
915 1.1.1.1.4.2 alnsn
916 1.1.1.1.4.2 alnsn if ((compiler_common->flags & (REGEX_MATCH_END | REGEX_NEWLINE)) == (REGEX_MATCH_END | REGEX_NEWLINE)) {
917 1.1.1.1.4.2 alnsn /* Replace REGEX_MATCH_END flag to REGEX_FAKE_MATCH_END */
918 1.1.1.1.4.2 alnsn compiler_common->flags &= ~REGEX_MATCH_END;
919 1.1.1.1.4.2 alnsn compiler_common->flags |= REGEX_FAKE_MATCH_END;
920 1.1.1.1.4.2 alnsn /* and append a new-line search. */
921 1.1.1.1.4.2 alnsn if (stack_push(stack, type_newline, 1))
922 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
923 1.1.1.1.4.2 alnsn compiler_common->dfa_size++;
924 1.1.1.1.4.2 alnsn /* Begin intentionally kept as 1. */
925 1.1.1.1.4.2 alnsn }
926 1.1.1.1.4.2 alnsn
927 1.1.1.1.4.2 alnsn if (stack_push(stack, type_end, 0))
928 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
929 1.1.1.1.4.2 alnsn
930 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
931 1.1.1.1.4.2 alnsn }
932 1.1.1.1.4.2 alnsn
933 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
934 1.1.1.1.4.2 alnsn /* Generating machine state transitions */
935 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
936 1.1.1.1.4.2 alnsn
937 1.1.1.1.4.2 alnsn #define PUT_TRANSITION(typ, val) \
938 1.1.1.1.4.2 alnsn do { \
939 1.1.1.1.4.2 alnsn --transitions_ptr; \
940 1.1.1.1.4.2 alnsn transitions_ptr->type = typ; \
941 1.1.1.1.4.2 alnsn transitions_ptr->value = val; \
942 1.1.1.1.4.2 alnsn } while (0)
943 1.1.1.1.4.2 alnsn
944 1.1.1.1.4.2 alnsn static struct stack_item* handle_iteratives(struct stack_item *transitions_ptr, struct stack_item *transitions, struct stack *depth)
945 1.1.1.1.4.2 alnsn {
946 1.1.1.1.4.2 alnsn struct stack_item *item;
947 1.1.1.1.4.2 alnsn
948 1.1.1.1.4.2 alnsn while (1) {
949 1.1.1.1.4.2 alnsn item = stack_top(depth);
950 1.1.1.1.4.2 alnsn
951 1.1.1.1.4.2 alnsn switch (item->type) {
952 1.1.1.1.4.2 alnsn case type_asterisk:
953 1.1.1.1.4.2 alnsn SLJIT_ASSERT(transitions[item->value].type == type_branch);
954 1.1.1.1.4.2 alnsn transitions[item->value].value = transitions_ptr - transitions;
955 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_branch, item->value + 1);
956 1.1.1.1.4.2 alnsn break;
957 1.1.1.1.4.2 alnsn
958 1.1.1.1.4.2 alnsn case type_plus_sign:
959 1.1.1.1.4.2 alnsn SLJIT_ASSERT(transitions[item->value].type == type_branch);
960 1.1.1.1.4.2 alnsn transitions[item->value].value = transitions_ptr - transitions;
961 1.1.1.1.4.2 alnsn break;
962 1.1.1.1.4.2 alnsn
963 1.1.1.1.4.2 alnsn case type_qestion_mark:
964 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_branch, item->value);
965 1.1.1.1.4.2 alnsn break;
966 1.1.1.1.4.2 alnsn
967 1.1.1.1.4.2 alnsn default:
968 1.1.1.1.4.2 alnsn return transitions_ptr;
969 1.1.1.1.4.2 alnsn }
970 1.1.1.1.4.2 alnsn stack_pop(depth);
971 1.1.1.1.4.2 alnsn }
972 1.1.1.1.4.2 alnsn }
973 1.1.1.1.4.2 alnsn
974 1.1.1.1.4.2 alnsn static int generate_transitions(struct compiler_common *compiler_common)
975 1.1.1.1.4.2 alnsn {
976 1.1.1.1.4.2 alnsn struct stack *stack = &compiler_common->stack;
977 1.1.1.1.4.2 alnsn struct stack *depth = &compiler_common->depth;
978 1.1.1.1.4.2 alnsn struct stack_item *transitions_ptr;
979 1.1.1.1.4.2 alnsn struct stack_item *item;
980 1.1.1.1.4.2 alnsn
981 1.1.1.1.4.2 alnsn stack_init(depth);
982 1.1.1.1.4.2 alnsn compiler_common->dfa_transitions = SLJIT_MALLOC(sizeof(struct stack_item) * compiler_common->dfa_size);
983 1.1.1.1.4.2 alnsn if (!compiler_common->dfa_transitions)
984 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
985 1.1.1.1.4.2 alnsn
986 1.1.1.1.4.2 alnsn /* Go through the items of the stack and generate the necessary branches and jumps (edges of DFA). */
987 1.1.1.1.4.2 alnsn transitions_ptr = compiler_common->dfa_transitions + compiler_common->dfa_size;
988 1.1.1.1.4.2 alnsn while (stack->count > 0) {
989 1.1.1.1.4.2 alnsn item = stack_pop(stack);
990 1.1.1.1.4.2 alnsn switch (item->type) {
991 1.1.1.1.4.2 alnsn case type_begin:
992 1.1.1.1.4.2 alnsn case type_open_br:
993 1.1.1.1.4.2 alnsn item = stack_pop(depth);
994 1.1.1.1.4.2 alnsn if (item->type == type_select)
995 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_branch, item->value + 1);
996 1.1.1.1.4.2 alnsn else
997 1.1.1.1.4.2 alnsn SLJIT_ASSERT(item->type == type_close_br);
998 1.1.1.1.4.2 alnsn if (stack->count == 0)
999 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_begin, 0);
1000 1.1.1.1.4.2 alnsn else
1001 1.1.1.1.4.2 alnsn transitions_ptr = handle_iteratives(transitions_ptr, compiler_common->dfa_transitions, depth);
1002 1.1.1.1.4.2 alnsn break;
1003 1.1.1.1.4.2 alnsn
1004 1.1.1.1.4.2 alnsn case type_end:
1005 1.1.1.1.4.2 alnsn case type_close_br:
1006 1.1.1.1.4.2 alnsn if (item->type == type_end)
1007 1.1.1.1.4.2 alnsn *--transitions_ptr = *item;
1008 1.1.1.1.4.2 alnsn if (stack_push(depth, type_close_br, transitions_ptr - compiler_common->dfa_transitions))
1009 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
1010 1.1.1.1.4.2 alnsn break;
1011 1.1.1.1.4.2 alnsn
1012 1.1.1.1.4.2 alnsn case type_select:
1013 1.1.1.1.4.2 alnsn item = stack_top(depth);
1014 1.1.1.1.4.2 alnsn if (item->type == type_select) {
1015 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common->dfa_transitions[item->value].type == type_jump);
1016 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_branch, item->value + 1);
1017 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_jump, item->value);
1018 1.1.1.1.4.2 alnsn item->value = transitions_ptr - compiler_common->dfa_transitions;
1019 1.1.1.1.4.2 alnsn }
1020 1.1.1.1.4.2 alnsn else {
1021 1.1.1.1.4.2 alnsn SLJIT_ASSERT(item->type == type_close_br);
1022 1.1.1.1.4.2 alnsn item->type = type_select;
1023 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_jump, item->value);
1024 1.1.1.1.4.2 alnsn item->value = transitions_ptr - compiler_common->dfa_transitions;
1025 1.1.1.1.4.2 alnsn }
1026 1.1.1.1.4.2 alnsn break;
1027 1.1.1.1.4.2 alnsn
1028 1.1.1.1.4.2 alnsn case type_asterisk:
1029 1.1.1.1.4.2 alnsn case type_plus_sign:
1030 1.1.1.1.4.2 alnsn case type_qestion_mark:
1031 1.1.1.1.4.2 alnsn if (item->type != type_qestion_mark)
1032 1.1.1.1.4.2 alnsn PUT_TRANSITION(type_branch, 0);
1033 1.1.1.1.4.2 alnsn if (stack_push(depth, item->type, transitions_ptr - compiler_common->dfa_transitions))
1034 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
1035 1.1.1.1.4.2 alnsn break;
1036 1.1.1.1.4.2 alnsn
1037 1.1.1.1.4.2 alnsn case type_char:
1038 1.1.1.1.4.2 alnsn case type_newline:
1039 1.1.1.1.4.2 alnsn case type_rng_start:
1040 1.1.1.1.4.2 alnsn /* Requires handle_iteratives. */
1041 1.1.1.1.4.2 alnsn *--transitions_ptr = *item;
1042 1.1.1.1.4.2 alnsn transitions_ptr = handle_iteratives(transitions_ptr, compiler_common->dfa_transitions, depth);
1043 1.1.1.1.4.2 alnsn break;
1044 1.1.1.1.4.2 alnsn
1045 1.1.1.1.4.2 alnsn default:
1046 1.1.1.1.4.2 alnsn *--transitions_ptr = *item;
1047 1.1.1.1.4.2 alnsn break;
1048 1.1.1.1.4.2 alnsn }
1049 1.1.1.1.4.2 alnsn }
1050 1.1.1.1.4.2 alnsn
1051 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common->dfa_transitions == transitions_ptr);
1052 1.1.1.1.4.2 alnsn SLJIT_ASSERT(depth->count == 0);
1053 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
1054 1.1.1.1.4.2 alnsn }
1055 1.1.1.1.4.2 alnsn
1056 1.1.1.1.4.2 alnsn #undef PUT_TRANSITION
1057 1.1.1.1.4.2 alnsn
1058 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
1059 1.1.1.1.4.2 alnsn
1060 1.1.1.1.4.2 alnsn static void verbose_transitions(struct compiler_common *compiler_common)
1061 1.1.1.1.4.2 alnsn {
1062 1.1.1.1.4.2 alnsn struct stack_item *transitions_ptr = compiler_common->dfa_transitions;
1063 1.1.1.1.4.2 alnsn struct stack_item *transitions_end = transitions_ptr + compiler_common->dfa_size;
1064 1.1.1.1.4.2 alnsn struct stack_item *search_states_ptr = compiler_common->search_states;
1065 1.1.1.1.4.2 alnsn int pos;
1066 1.1.1.1.4.2 alnsn
1067 1.1.1.1.4.2 alnsn printf("-----------------\nTransitions\n-----------------\n");
1068 1.1.1.1.4.2 alnsn pos = 0;
1069 1.1.1.1.4.2 alnsn while (transitions_ptr < transitions_end) {
1070 1.1.1.1.4.2 alnsn printf("[%3d] ", pos++);
1071 1.1.1.1.4.2 alnsn if (search_states_ptr->type >= 0)
1072 1.1.1.1.4.2 alnsn printf("(%3d) ", search_states_ptr->type);
1073 1.1.1.1.4.2 alnsn switch (transitions_ptr->type) {
1074 1.1.1.1.4.2 alnsn case type_begin:
1075 1.1.1.1.4.2 alnsn printf("type_begin\n");
1076 1.1.1.1.4.2 alnsn break;
1077 1.1.1.1.4.2 alnsn
1078 1.1.1.1.4.2 alnsn case type_end:
1079 1.1.1.1.4.2 alnsn printf("type_end\n");
1080 1.1.1.1.4.2 alnsn break;
1081 1.1.1.1.4.2 alnsn
1082 1.1.1.1.4.2 alnsn case type_char:
1083 1.1.1.1.4.2 alnsn if (transitions_ptr->value >= ' ')
1084 1.1.1.1.4.2 alnsn printf("type_char '%c'\n", transitions_ptr->value);
1085 1.1.1.1.4.2 alnsn else
1086 1.1.1.1.4.2 alnsn printf("type_char 0x%x\n", transitions_ptr->value);
1087 1.1.1.1.4.2 alnsn break;
1088 1.1.1.1.4.2 alnsn
1089 1.1.1.1.4.2 alnsn case type_newline:
1090 1.1.1.1.4.2 alnsn printf("type_newline %s\n", transitions_ptr->value ? "(end)" : "(begin)");
1091 1.1.1.1.4.2 alnsn break;
1092 1.1.1.1.4.2 alnsn
1093 1.1.1.1.4.2 alnsn case type_id:
1094 1.1.1.1.4.2 alnsn printf("type_id %d\n", transitions_ptr->value);
1095 1.1.1.1.4.2 alnsn break;
1096 1.1.1.1.4.2 alnsn
1097 1.1.1.1.4.2 alnsn case type_rng_start:
1098 1.1.1.1.4.2 alnsn printf("type_rng_start %s\n", transitions_ptr->value ? "(invert)" : "(normal)");
1099 1.1.1.1.4.2 alnsn break;
1100 1.1.1.1.4.2 alnsn
1101 1.1.1.1.4.2 alnsn case type_rng_end:
1102 1.1.1.1.4.2 alnsn printf("type_rng_end\n");
1103 1.1.1.1.4.2 alnsn break;
1104 1.1.1.1.4.2 alnsn
1105 1.1.1.1.4.2 alnsn case type_rng_char:
1106 1.1.1.1.4.2 alnsn if (transitions_ptr->value >= ' ')
1107 1.1.1.1.4.2 alnsn printf("type_rng_char '%c'\n", transitions_ptr->value);
1108 1.1.1.1.4.2 alnsn else
1109 1.1.1.1.4.2 alnsn printf("type_rng_char 0x%x\n", transitions_ptr->value);
1110 1.1.1.1.4.2 alnsn break;
1111 1.1.1.1.4.2 alnsn
1112 1.1.1.1.4.2 alnsn case type_rng_left:
1113 1.1.1.1.4.2 alnsn if (transitions_ptr->value >= ' ')
1114 1.1.1.1.4.2 alnsn printf("type_rng_left '%c'\n", transitions_ptr->value);
1115 1.1.1.1.4.2 alnsn else
1116 1.1.1.1.4.2 alnsn printf("type_rng_left 0x%x\n", transitions_ptr->value);
1117 1.1.1.1.4.2 alnsn break;
1118 1.1.1.1.4.2 alnsn
1119 1.1.1.1.4.2 alnsn case type_rng_right:
1120 1.1.1.1.4.2 alnsn if (transitions_ptr->value >= ' ')
1121 1.1.1.1.4.2 alnsn printf("type_rng_right '%c'\n", transitions_ptr->value);
1122 1.1.1.1.4.2 alnsn else
1123 1.1.1.1.4.2 alnsn printf("type_rng_right 0x%x\n", transitions_ptr->value);
1124 1.1.1.1.4.2 alnsn break;
1125 1.1.1.1.4.2 alnsn
1126 1.1.1.1.4.2 alnsn case type_branch:
1127 1.1.1.1.4.2 alnsn printf("type_branch -> %d\n", transitions_ptr->value);
1128 1.1.1.1.4.2 alnsn break;
1129 1.1.1.1.4.2 alnsn
1130 1.1.1.1.4.2 alnsn case type_jump:
1131 1.1.1.1.4.2 alnsn printf("type_jump -> %d\n", transitions_ptr->value);
1132 1.1.1.1.4.2 alnsn break;
1133 1.1.1.1.4.2 alnsn
1134 1.1.1.1.4.2 alnsn default:
1135 1.1.1.1.4.2 alnsn printf("UNEXPECTED TYPE\n");
1136 1.1.1.1.4.2 alnsn break;
1137 1.1.1.1.4.2 alnsn }
1138 1.1.1.1.4.2 alnsn transitions_ptr++;
1139 1.1.1.1.4.2 alnsn search_states_ptr++;
1140 1.1.1.1.4.2 alnsn }
1141 1.1.1.1.4.2 alnsn printf("flags: ");
1142 1.1.1.1.4.2 alnsn if (!(compiler_common->flags & (REGEX_MATCH_BEGIN | REGEX_MATCH_END | REGEX_NEWLINE | REGEX_ID_CHECK | REGEX_FAKE_MATCH_BEGIN | REGEX_FAKE_MATCH_END)))
1143 1.1.1.1.4.2 alnsn printf("none ");
1144 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_MATCH_BEGIN)
1145 1.1.1.1.4.2 alnsn printf("REGEX_MATCH_BEGIN ");
1146 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_MATCH_END)
1147 1.1.1.1.4.2 alnsn printf("REGEX_MATCH_END ");
1148 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_NEWLINE)
1149 1.1.1.1.4.2 alnsn printf("REGEX_NEWLINE ");
1150 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_ID_CHECK)
1151 1.1.1.1.4.2 alnsn printf("REGEX_ID_CHECK ");
1152 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_FAKE_MATCH_BEGIN)
1153 1.1.1.1.4.2 alnsn printf("REGEX_FAKE_MATCH_BEGIN ");
1154 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_FAKE_MATCH_END)
1155 1.1.1.1.4.2 alnsn printf("REGEX_FAKE_MATCH_END ");
1156 1.1.1.1.4.2 alnsn if (compiler_common->longest_range_size > 0)
1157 1.1.1.1.4.2 alnsn printf("(longest range: %ld) ", (long)compiler_common->longest_range_size);
1158 1.1.1.1.4.2 alnsn printf("\n");
1159 1.1.1.1.4.2 alnsn }
1160 1.1.1.1.4.2 alnsn
1161 1.1.1.1.4.2 alnsn #endif
1162 1.1.1.1.4.2 alnsn
1163 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
1164 1.1.1.1.4.2 alnsn /* Utilities */
1165 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
1166 1.1.1.1.4.2 alnsn
1167 1.1.1.1.4.2 alnsn static int generate_search_states(struct compiler_common *compiler_common)
1168 1.1.1.1.4.2 alnsn {
1169 1.1.1.1.4.2 alnsn struct stack_item *transitions_ptr = compiler_common->dfa_transitions;
1170 1.1.1.1.4.2 alnsn struct stack_item *transitions_end = transitions_ptr + compiler_common->dfa_size;
1171 1.1.1.1.4.2 alnsn struct stack_item *search_states_ptr;
1172 1.1.1.1.4.2 alnsn struct stack_item *rng_start = NULL;
1173 1.1.1.1.4.2 alnsn
1174 1.1.1.1.4.2 alnsn compiler_common->terms_size = !(compiler_common->flags & REGEX_FAKE_MATCH_END) ? 1 : 2;
1175 1.1.1.1.4.2 alnsn compiler_common->longest_range_size = 0;
1176 1.1.1.1.4.2 alnsn compiler_common->search_states = SLJIT_MALLOC(sizeof(struct stack_item) * compiler_common->dfa_size);
1177 1.1.1.1.4.2 alnsn if (!compiler_common->search_states)
1178 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
1179 1.1.1.1.4.2 alnsn
1180 1.1.1.1.4.2 alnsn search_states_ptr = compiler_common->search_states;
1181 1.1.1.1.4.2 alnsn while (transitions_ptr < transitions_end) {
1182 1.1.1.1.4.2 alnsn switch (transitions_ptr->type) {
1183 1.1.1.1.4.2 alnsn case type_begin:
1184 1.1.1.1.4.2 alnsn case type_end:
1185 1.1.1.1.4.2 alnsn search_states_ptr->type = 0;
1186 1.1.1.1.4.2 alnsn break;
1187 1.1.1.1.4.2 alnsn
1188 1.1.1.1.4.2 alnsn case type_char:
1189 1.1.1.1.4.2 alnsn search_states_ptr->type = compiler_common->terms_size++;
1190 1.1.1.1.4.2 alnsn break;
1191 1.1.1.1.4.2 alnsn
1192 1.1.1.1.4.2 alnsn case type_newline:
1193 1.1.1.1.4.2 alnsn if (transitions_ptr->value)
1194 1.1.1.1.4.2 alnsn search_states_ptr->type = 1;
1195 1.1.1.1.4.2 alnsn else
1196 1.1.1.1.4.2 alnsn search_states_ptr->type = compiler_common->terms_size++;
1197 1.1.1.1.4.2 alnsn SLJIT_ASSERT(search_states_ptr->type == 1 || search_states_ptr->type == 2);
1198 1.1.1.1.4.2 alnsn break;
1199 1.1.1.1.4.2 alnsn
1200 1.1.1.1.4.2 alnsn case type_id:
1201 1.1.1.1.4.2 alnsn if (transitions_ptr->value > 0)
1202 1.1.1.1.4.2 alnsn compiler_common->flags |= REGEX_ID_CHECK;
1203 1.1.1.1.4.2 alnsn search_states_ptr->type = -1;
1204 1.1.1.1.4.2 alnsn break;
1205 1.1.1.1.4.2 alnsn
1206 1.1.1.1.4.2 alnsn case type_rng_start:
1207 1.1.1.1.4.2 alnsn search_states_ptr->type = compiler_common->terms_size;
1208 1.1.1.1.4.2 alnsn rng_start = search_states_ptr;
1209 1.1.1.1.4.2 alnsn break;
1210 1.1.1.1.4.2 alnsn
1211 1.1.1.1.4.2 alnsn case type_rng_end:
1212 1.1.1.1.4.2 alnsn search_states_ptr->type = compiler_common->terms_size++;
1213 1.1.1.1.4.2 alnsn /* Ok, this is a blunt over estimation :) */
1214 1.1.1.1.4.2 alnsn if (compiler_common->longest_range_size < search_states_ptr - rng_start)
1215 1.1.1.1.4.2 alnsn compiler_common->longest_range_size = search_states_ptr - rng_start;
1216 1.1.1.1.4.2 alnsn break;
1217 1.1.1.1.4.2 alnsn
1218 1.1.1.1.4.2 alnsn default:
1219 1.1.1.1.4.2 alnsn search_states_ptr->type = -1;
1220 1.1.1.1.4.2 alnsn break;
1221 1.1.1.1.4.2 alnsn }
1222 1.1.1.1.4.2 alnsn search_states_ptr->value = -1;
1223 1.1.1.1.4.2 alnsn search_states_ptr++;
1224 1.1.1.1.4.2 alnsn transitions_ptr++;
1225 1.1.1.1.4.2 alnsn }
1226 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
1227 1.1.1.1.4.2 alnsn }
1228 1.1.1.1.4.2 alnsn
1229 1.1.1.1.4.2 alnsn static int trace_transitions(int from, struct compiler_common *compiler_common)
1230 1.1.1.1.4.2 alnsn {
1231 1.1.1.1.4.2 alnsn int id = 0;
1232 1.1.1.1.4.2 alnsn struct stack *stack = &compiler_common->stack;
1233 1.1.1.1.4.2 alnsn struct stack *depth = &compiler_common->depth;
1234 1.1.1.1.4.2 alnsn struct stack_item *dfa_transitions = compiler_common->dfa_transitions;
1235 1.1.1.1.4.2 alnsn struct stack_item *search_states = compiler_common->search_states;
1236 1.1.1.1.4.2 alnsn
1237 1.1.1.1.4.2 alnsn SLJIT_ASSERT(search_states[from].type >= 0);
1238 1.1.1.1.4.2 alnsn
1239 1.1.1.1.4.2 alnsn from++;
1240 1.1.1.1.4.2 alnsn
1241 1.1.1.1.4.2 alnsn /* Be prepared for any paths (loops, etc). */
1242 1.1.1.1.4.2 alnsn while (1) {
1243 1.1.1.1.4.2 alnsn if (dfa_transitions[from].type == type_id)
1244 1.1.1.1.4.2 alnsn if (id < dfa_transitions[from].value)
1245 1.1.1.1.4.2 alnsn id = dfa_transitions[from].value;
1246 1.1.1.1.4.2 alnsn
1247 1.1.1.1.4.2 alnsn if (search_states[from].value < id) {
1248 1.1.1.1.4.2 alnsn /* Forward step. */
1249 1.1.1.1.4.2 alnsn if (search_states[from].value == -1)
1250 1.1.1.1.4.2 alnsn if (stack_push(stack, 0, from))
1251 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
1252 1.1.1.1.4.2 alnsn search_states[from].value = id;
1253 1.1.1.1.4.2 alnsn
1254 1.1.1.1.4.2 alnsn if (dfa_transitions[from].type == type_branch) {
1255 1.1.1.1.4.2 alnsn if (stack_push(depth, id, from))
1256 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR;
1257 1.1.1.1.4.2 alnsn from++;
1258 1.1.1.1.4.2 alnsn continue;
1259 1.1.1.1.4.2 alnsn }
1260 1.1.1.1.4.2 alnsn else if (dfa_transitions[from].type == type_jump) {
1261 1.1.1.1.4.2 alnsn from = dfa_transitions[from].value;
1262 1.1.1.1.4.2 alnsn continue;
1263 1.1.1.1.4.2 alnsn }
1264 1.1.1.1.4.2 alnsn else if (search_states[from].type < 0) {
1265 1.1.1.1.4.2 alnsn from++;
1266 1.1.1.1.4.2 alnsn continue;
1267 1.1.1.1.4.2 alnsn }
1268 1.1.1.1.4.2 alnsn }
1269 1.1.1.1.4.2 alnsn
1270 1.1.1.1.4.2 alnsn /* Back tracking. */
1271 1.1.1.1.4.2 alnsn if (depth->count > 0) {
1272 1.1.1.1.4.2 alnsn id = stack_top(depth)->type;
1273 1.1.1.1.4.2 alnsn from = dfa_transitions[stack_pop(depth)->value].value;
1274 1.1.1.1.4.2 alnsn continue;
1275 1.1.1.1.4.2 alnsn }
1276 1.1.1.1.4.2 alnsn return 0;
1277 1.1.1.1.4.2 alnsn }
1278 1.1.1.1.4.2 alnsn }
1279 1.1.1.1.4.2 alnsn
1280 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
1281 1.1.1.1.4.2 alnsn /* Code generator */
1282 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
1283 1.1.1.1.4.2 alnsn
1284 1.1.1.1.4.2 alnsn #define TERM_OFFSET_OF(index, offs) (((index) * no_states + (offs)) * sizeof(sljit_w))
1285 1.1.1.1.4.2 alnsn #define TERM_REL_OFFSET_OF(base, offs) ((base) + ((offs) * sizeof(sljit_w)))
1286 1.1.1.1.4.2 alnsn
1287 1.1.1.1.4.2 alnsn #define EMIT_OP1(type, arg1, arg2, arg3, arg4) \
1288 1.1.1.1.4.2 alnsn CHECK(sljit_emit_op1(compiler, type, arg1, arg2, arg3, arg4))
1289 1.1.1.1.4.2 alnsn
1290 1.1.1.1.4.2 alnsn #define EMIT_OP2(type, arg1, arg2, arg3, arg4, arg5, arg6) \
1291 1.1.1.1.4.2 alnsn CHECK(sljit_emit_op2(compiler, type, arg1, arg2, arg3, arg4, arg5, arg6))
1292 1.1.1.1.4.2 alnsn
1293 1.1.1.1.4.2 alnsn #define EMIT_LABEL(label) \
1294 1.1.1.1.4.2 alnsn label = sljit_emit_label(compiler); \
1295 1.1.1.1.4.2 alnsn CHECK(!label)
1296 1.1.1.1.4.2 alnsn
1297 1.1.1.1.4.2 alnsn #define EMIT_JUMP(jump, type) \
1298 1.1.1.1.4.2 alnsn jump = sljit_emit_jump(compiler, type); \
1299 1.1.1.1.4.2 alnsn CHECK(!jump)
1300 1.1.1.1.4.2 alnsn
1301 1.1.1.1.4.2 alnsn #define EMIT_CMP(jump, type, arg1, arg2, arg3, arg4) \
1302 1.1.1.1.4.2 alnsn jump = sljit_emit_cmp(compiler, type, arg1, arg2, arg3, arg4); \
1303 1.1.1.1.4.2 alnsn CHECK(!jump)
1304 1.1.1.1.4.2 alnsn
1305 1.1.1.1.4.2 alnsn /* CHECK depends on the use case. */
1306 1.1.1.1.4.2 alnsn
1307 1.1.1.1.4.2 alnsn #define CHECK(exp) \
1308 1.1.1.1.4.2 alnsn if (SLJIT_UNLIKELY(exp)) \
1309 1.1.1.1.4.2 alnsn return REGEX_MEMORY_ERROR
1310 1.1.1.1.4.2 alnsn
1311 1.1.1.1.4.2 alnsn static int compile_uncond_tran(struct compiler_common *compiler_common, int reg)
1312 1.1.1.1.4.2 alnsn {
1313 1.1.1.1.4.2 alnsn struct sljit_compiler *compiler = compiler_common->compiler;
1314 1.1.1.1.4.2 alnsn struct stack *stack = &compiler_common->stack;
1315 1.1.1.1.4.2 alnsn struct stack_item *search_states = compiler_common->search_states;
1316 1.1.1.1.4.2 alnsn int flags = compiler_common->flags;
1317 1.1.1.1.4.2 alnsn sljit_w no_states = compiler_common->no_states;
1318 1.1.1.1.4.2 alnsn sljit_uw head = 0;
1319 1.1.1.1.4.2 alnsn sljit_w offset, value;
1320 1.1.1.1.4.2 alnsn
1321 1.1.1.1.4.2 alnsn if (reg != R_CURR_STATE || !(compiler_common->flags & REGEX_FAKE_MATCH_BEGIN)) {
1322 1.1.1.1.4.2 alnsn CHECK(trace_transitions(0, compiler_common));
1323 1.1.1.1.4.2 alnsn }
1324 1.1.1.1.4.2 alnsn else {
1325 1.1.1.1.4.2 alnsn CHECK(trace_transitions(1, compiler_common));
1326 1.1.1.1.4.2 alnsn }
1327 1.1.1.1.4.2 alnsn
1328 1.1.1.1.4.2 alnsn while (stack->count > 0) {
1329 1.1.1.1.4.2 alnsn value = stack_pop(stack)->value;
1330 1.1.1.1.4.2 alnsn if (search_states[value].type >= 0) {
1331 1.1.1.1.4.2 alnsn offset = TERM_OFFSET_OF(search_states[value].type, 0);
1332 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(reg), TERM_REL_OFFSET_OF(offset, 1), SLJIT_IMM, head);
1333 1.1.1.1.4.2 alnsn if (offset > 0)
1334 1.1.1.1.4.2 alnsn head = offset;
1335 1.1.1.1.4.2 alnsn
1336 1.1.1.1.4.2 alnsn if (!(flags & REGEX_MATCH_BEGIN)) {
1337 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(reg), TERM_REL_OFFSET_OF(offset, 2), R_TEMP, 0);
1338 1.1.1.1.4.2 alnsn if (flags & REGEX_ID_CHECK) {
1339 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(reg), TERM_REL_OFFSET_OF(offset, 3), SLJIT_IMM, search_states[value].value);
1340 1.1.1.1.4.2 alnsn }
1341 1.1.1.1.4.2 alnsn }
1342 1.1.1.1.4.2 alnsn else if (flags & REGEX_ID_CHECK) {
1343 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(reg), TERM_REL_OFFSET_OF(offset, 2), SLJIT_IMM, search_states[value].value);
1344 1.1.1.1.4.2 alnsn }
1345 1.1.1.1.4.2 alnsn }
1346 1.1.1.1.4.2 alnsn search_states[value].value = -1;
1347 1.1.1.1.4.2 alnsn }
1348 1.1.1.1.4.2 alnsn if (reg == R_NEXT_STATE) {
1349 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_NEXT_HEAD, 0);
1350 1.1.1.1.4.2 alnsn }
1351 1.1.1.1.4.2 alnsn else if (flags & REGEX_FAKE_MATCH_BEGIN) {
1352 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common->dfa_transitions[1].type == type_newline && !compiler_common->dfa_transitions[1].value);
1353 1.1.1.1.4.2 alnsn offset = TERM_OFFSET_OF(search_states[1].type, 0);
1354 1.1.1.1.4.2 alnsn
1355 1.1.1.1.4.2 alnsn SLJIT_ASSERT(!(flags & REGEX_MATCH_BEGIN));
1356 1.1.1.1.4.2 alnsn
1357 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(reg), TERM_REL_OFFSET_OF(offset, 1), SLJIT_IMM, head);
1358 1.1.1.1.4.2 alnsn head = offset;
1359 1.1.1.1.4.2 alnsn
1360 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(reg), TERM_REL_OFFSET_OF(offset, 2), SLJIT_IMM, 1);
1361 1.1.1.1.4.2 alnsn if (flags & REGEX_ID_CHECK) {
1362 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(reg), TERM_REL_OFFSET_OF(offset, 3), SLJIT_IMM, 0);
1363 1.1.1.1.4.2 alnsn }
1364 1.1.1.1.4.2 alnsn }
1365 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, head);
1366 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
1367 1.1.1.1.4.2 alnsn }
1368 1.1.1.1.4.2 alnsn
1369 1.1.1.1.4.2 alnsn static int compile_cond_tran(struct compiler_common *compiler_common, sljit_w curr_index)
1370 1.1.1.1.4.2 alnsn {
1371 1.1.1.1.4.2 alnsn struct sljit_compiler *compiler = compiler_common->compiler;
1372 1.1.1.1.4.2 alnsn struct stack *stack = &compiler_common->stack;
1373 1.1.1.1.4.2 alnsn struct stack_item *search_states = compiler_common->search_states;
1374 1.1.1.1.4.2 alnsn sljit_w offset;
1375 1.1.1.1.4.2 alnsn int flags;
1376 1.1.1.1.4.2 alnsn sljit_w no_states;
1377 1.1.1.1.4.2 alnsn sljit_w value;
1378 1.1.1.1.4.2 alnsn struct sljit_jump *jump1;
1379 1.1.1.1.4.2 alnsn struct sljit_jump *jump2;
1380 1.1.1.1.4.2 alnsn struct sljit_jump *jump3;
1381 1.1.1.1.4.2 alnsn struct sljit_jump *jump4;
1382 1.1.1.1.4.2 alnsn struct sljit_jump *jump5;
1383 1.1.1.1.4.2 alnsn struct sljit_label *label1;
1384 1.1.1.1.4.2 alnsn
1385 1.1.1.1.4.2 alnsn flags = compiler_common->flags;
1386 1.1.1.1.4.2 alnsn no_states = compiler_common->no_states;
1387 1.1.1.1.4.2 alnsn
1388 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, fast_forward), SLJIT_IMM, 0);
1389 1.1.1.1.4.2 alnsn if (!(flags & (REGEX_ID_CHECK | REGEX_MATCH_BEGIN))) {
1390 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(curr_index, 2));
1391 1.1.1.1.4.2 alnsn }
1392 1.1.1.1.4.2 alnsn
1393 1.1.1.1.4.2 alnsn while (stack->count > 0) {
1394 1.1.1.1.4.2 alnsn value = stack_pop(stack)->value;
1395 1.1.1.1.4.2 alnsn if (search_states[value].type >= 0) {
1396 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
1397 1.1.1.1.4.2 alnsn if (flags & REGEX_MATCH_VERBOSE)
1398 1.1.1.1.4.2 alnsn printf("-> (%3d:%3d) ", search_states[value].type, search_states[value].value);
1399 1.1.1.1.4.2 alnsn #endif
1400 1.1.1.1.4.2 alnsn offset = TERM_OFFSET_OF(search_states[value].type, 0);
1401 1.1.1.1.4.2 alnsn
1402 1.1.1.1.4.2 alnsn if (!(flags & REGEX_ID_CHECK)) {
1403 1.1.1.1.4.2 alnsn if (!(flags & REGEX_MATCH_BEGIN)) {
1404 1.1.1.1.4.2 alnsn /* Check whether item is inserted. */
1405 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_NOT_EQUAL, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), SLJIT_IMM, -1);
1406 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), R_NEXT_HEAD, 0);
1407 1.1.1.1.4.2 alnsn if (offset > 0) {
1408 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, offset);
1409 1.1.1.1.4.2 alnsn }
1410 1.1.1.1.4.2 alnsn EMIT_JUMP(jump2, SLJIT_JUMP);
1411 1.1.1.1.4.2 alnsn
1412 1.1.1.1.4.2 alnsn /* Check whether old index <= index. */
1413 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1414 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1415 1.1.1.1.4.2 alnsn
1416 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_LESS_EQUAL, SLJIT_MEM1(R_NEXT_STATE), offset + 2 * sizeof(sljit_w), R_TEMP, 0);
1417 1.1.1.1.4.2 alnsn
1418 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1419 1.1.1.1.4.2 alnsn sljit_set_label(jump2, label1);
1420 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + 2 * sizeof(sljit_w), R_TEMP, 0);
1421 1.1.1.1.4.2 alnsn
1422 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1423 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1424 1.1.1.1.4.2 alnsn }
1425 1.1.1.1.4.2 alnsn else {
1426 1.1.1.1.4.2 alnsn /* Check whether item is inserted. */
1427 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_NOT_EQUAL, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), SLJIT_IMM, -1);
1428 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), R_NEXT_HEAD, 0);
1429 1.1.1.1.4.2 alnsn if (offset > 0) {
1430 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, offset);
1431 1.1.1.1.4.2 alnsn }
1432 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1433 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1434 1.1.1.1.4.2 alnsn }
1435 1.1.1.1.4.2 alnsn }
1436 1.1.1.1.4.2 alnsn else {
1437 1.1.1.1.4.2 alnsn if (!(flags & REGEX_MATCH_BEGIN)) {
1438 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(curr_index, 2));
1439 1.1.1.1.4.2 alnsn
1440 1.1.1.1.4.2 alnsn /* Check whether item is inserted. */
1441 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_NOT_EQUAL, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), SLJIT_IMM, -1);
1442 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), R_NEXT_HEAD, 0);
1443 1.1.1.1.4.2 alnsn if (offset > 0) {
1444 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, offset);
1445 1.1.1.1.4.2 alnsn }
1446 1.1.1.1.4.2 alnsn EMIT_JUMP(jump2, SLJIT_JUMP);
1447 1.1.1.1.4.2 alnsn
1448 1.1.1.1.4.2 alnsn /* Check whether old index != index. */
1449 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1450 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1451 1.1.1.1.4.2 alnsn
1452 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB | SLJIT_SET_U, SLJIT_UNUSED, 0, SLJIT_MEM1(R_NEXT_STATE), offset + 2 * sizeof(sljit_w), R_TEMP, 0);
1453 1.1.1.1.4.2 alnsn EMIT_JUMP(jump1, SLJIT_C_LESS);
1454 1.1.1.1.4.2 alnsn EMIT_JUMP(jump3, SLJIT_C_GREATER);
1455 1.1.1.1.4.2 alnsn
1456 1.1.1.1.4.2 alnsn /* Old index == index. */
1457 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(curr_index, 3));
1458 1.1.1.1.4.2 alnsn if (search_states[value].value > 0) {
1459 1.1.1.1.4.2 alnsn EMIT_CMP(jump4, SLJIT_C_GREATER, R_TEMP, 0, SLJIT_IMM, search_states[value].value);
1460 1.1.1.1.4.2 alnsn
1461 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_IMM, search_states[value].value);
1462 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1463 1.1.1.1.4.2 alnsn sljit_set_label(jump4, label1);
1464 1.1.1.1.4.2 alnsn }
1465 1.1.1.1.4.2 alnsn
1466 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB | SLJIT_SET_U, SLJIT_UNUSED, 0, SLJIT_MEM1(R_NEXT_STATE), offset + 3 * sizeof(sljit_w), R_TEMP, 0);
1467 1.1.1.1.4.2 alnsn EMIT_JUMP(jump4, SLJIT_C_GREATER_EQUAL);
1468 1.1.1.1.4.2 alnsn EMIT_JUMP(jump5, SLJIT_JUMP);
1469 1.1.1.1.4.2 alnsn
1470 1.1.1.1.4.2 alnsn /* Overwrite index & id. */
1471 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1472 1.1.1.1.4.2 alnsn sljit_set_label(jump3, label1);
1473 1.1.1.1.4.2 alnsn sljit_set_label(jump2, label1);
1474 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + 2 * sizeof(sljit_w), R_TEMP, 0);
1475 1.1.1.1.4.2 alnsn
1476 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(curr_index, 3));
1477 1.1.1.1.4.2 alnsn if (search_states[value].value > 0) {
1478 1.1.1.1.4.2 alnsn EMIT_CMP(jump3, SLJIT_C_GREATER, R_TEMP, 0, SLJIT_IMM, search_states[value].value);
1479 1.1.1.1.4.2 alnsn
1480 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_IMM, search_states[value].value);
1481 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1482 1.1.1.1.4.2 alnsn sljit_set_label(jump3, label1);
1483 1.1.1.1.4.2 alnsn }
1484 1.1.1.1.4.2 alnsn
1485 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1486 1.1.1.1.4.2 alnsn sljit_set_label(jump5, label1);
1487 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + 3 * sizeof(sljit_w), R_TEMP, 0);
1488 1.1.1.1.4.2 alnsn
1489 1.1.1.1.4.2 alnsn /* Exit. */
1490 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1491 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1492 1.1.1.1.4.2 alnsn sljit_set_label(jump4, label1);
1493 1.1.1.1.4.2 alnsn }
1494 1.1.1.1.4.2 alnsn else {
1495 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(curr_index, 2));
1496 1.1.1.1.4.2 alnsn
1497 1.1.1.1.4.2 alnsn if (search_states[value].value > 0) {
1498 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_GREATER, R_TEMP, 0, SLJIT_IMM, search_states[value].value);
1499 1.1.1.1.4.2 alnsn
1500 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_IMM, search_states[value].value);
1501 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1502 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1503 1.1.1.1.4.2 alnsn }
1504 1.1.1.1.4.2 alnsn
1505 1.1.1.1.4.2 alnsn /* Check whether item is inserted. */
1506 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_NOT_EQUAL, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), SLJIT_IMM, -1);
1507 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + sizeof(sljit_w), R_NEXT_HEAD, 0);
1508 1.1.1.1.4.2 alnsn if (offset > 0) {
1509 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, offset);
1510 1.1.1.1.4.2 alnsn }
1511 1.1.1.1.4.2 alnsn EMIT_JUMP(jump2, SLJIT_JUMP);
1512 1.1.1.1.4.2 alnsn
1513 1.1.1.1.4.2 alnsn /* Check whether old id >= id. */
1514 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1515 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1516 1.1.1.1.4.2 alnsn
1517 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_GREATER_EQUAL, SLJIT_MEM1(R_NEXT_STATE), offset + 2 * sizeof(sljit_w), R_TEMP, 0);
1518 1.1.1.1.4.2 alnsn
1519 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1520 1.1.1.1.4.2 alnsn sljit_set_label(jump2, label1);
1521 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), offset + 2 * sizeof(sljit_w), R_TEMP, 0);
1522 1.1.1.1.4.2 alnsn
1523 1.1.1.1.4.2 alnsn EMIT_LABEL(label1);
1524 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label1);
1525 1.1.1.1.4.2 alnsn }
1526 1.1.1.1.4.2 alnsn }
1527 1.1.1.1.4.2 alnsn }
1528 1.1.1.1.4.2 alnsn search_states[value].value = -1;
1529 1.1.1.1.4.2 alnsn }
1530 1.1.1.1.4.2 alnsn
1531 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
1532 1.1.1.1.4.2 alnsn if (flags & REGEX_MATCH_VERBOSE)
1533 1.1.1.1.4.2 alnsn printf("\n");
1534 1.1.1.1.4.2 alnsn #endif
1535 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
1536 1.1.1.1.4.2 alnsn }
1537 1.1.1.1.4.2 alnsn
1538 1.1.1.1.4.2 alnsn static int compile_end_check(struct compiler_common *compiler_common, struct sljit_label *end_check_label)
1539 1.1.1.1.4.2 alnsn {
1540 1.1.1.1.4.2 alnsn struct sljit_compiler *compiler = compiler_common->compiler;
1541 1.1.1.1.4.2 alnsn struct sljit_jump *jump;
1542 1.1.1.1.4.2 alnsn struct sljit_jump *clear_states_jump;
1543 1.1.1.1.4.2 alnsn struct sljit_label *label;
1544 1.1.1.1.4.2 alnsn struct sljit_label *leave_label;
1545 1.1.1.1.4.2 alnsn struct sljit_label *begin_loop_label;
1546 1.1.1.1.4.2 alnsn
1547 1.1.1.1.4.2 alnsn /* Priority order: best_begin > best_end > best_id.
1548 1.1.1.1.4.2 alnsn In other words:
1549 1.1.1.1.4.2 alnsn if (new best_begin > old test_begin) do nothing
1550 1.1.1.1.4.2 alnsn otherwise we know that new_end > old_end, since R_CURR_INDEX ever increasing
1551 1.1.1.1.4.2 alnsn therefore we must overwrite all best_* variables (new_id also contains the highest id for this turn). */
1552 1.1.1.1.4.2 alnsn
1553 1.1.1.1.4.2 alnsn /* Both R_CURR_CHAR and R_BEST_BEGIN used as temporary registers. */
1554 1.1.1.1.4.2 alnsn
1555 1.1.1.1.4.2 alnsn if (!(compiler_common->flags & REGEX_MATCH_BEGIN)) {
1556 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_CURR_CHAR, 0, SLJIT_MEM1(R_CURR_STATE), TERM_REL_OFFSET_OF(0, 2));
1557 1.1.1.1.4.2 alnsn EMIT_CMP(jump, !(compiler_common->flags & REGEX_MATCH_NON_GREEDY) ? SLJIT_C_LESS : SLJIT_C_LESS_EQUAL, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_begin), R_CURR_CHAR, 0);
1558 1.1.1.1.4.2 alnsn sljit_set_label(jump, end_check_label);
1559 1.1.1.1.4.2 alnsn
1560 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_begin), R_CURR_CHAR, 0);
1561 1.1.1.1.4.2 alnsn if (!(compiler_common->flags & (REGEX_FAKE_MATCH_BEGIN | REGEX_FAKE_MATCH_END))) {
1562 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_end), R_CURR_INDEX, 0);
1563 1.1.1.1.4.2 alnsn }
1564 1.1.1.1.4.2 alnsn else {
1565 1.1.1.1.4.2 alnsn if ((compiler_common->flags & (REGEX_FAKE_MATCH_BEGIN | REGEX_FAKE_MATCH_END)) == (REGEX_FAKE_MATCH_BEGIN | REGEX_FAKE_MATCH_END)) {
1566 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_end), R_CURR_INDEX, 0, SLJIT_IMM, 2);
1567 1.1.1.1.4.2 alnsn }
1568 1.1.1.1.4.2 alnsn else {
1569 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_end), R_CURR_INDEX, 0, SLJIT_IMM, 1);
1570 1.1.1.1.4.2 alnsn }
1571 1.1.1.1.4.2 alnsn }
1572 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_ID_CHECK) {
1573 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_id), SLJIT_MEM1(R_CURR_STATE), TERM_REL_OFFSET_OF(0, 3));
1574 1.1.1.1.4.2 alnsn }
1575 1.1.1.1.4.2 alnsn
1576 1.1.1.1.4.2 alnsn EMIT_CMP(clear_states_jump, SLJIT_C_LESS, R_CURR_CHAR, 0, R_BEST_BEGIN, 0);
1577 1.1.1.1.4.2 alnsn
1578 1.1.1.1.4.2 alnsn EMIT_LABEL(leave_label);
1579 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_BEST_BEGIN, 0, R_CURR_CHAR, 0);
1580 1.1.1.1.4.2 alnsn EMIT_JUMP(jump, SLJIT_JUMP);
1581 1.1.1.1.4.2 alnsn sljit_set_label(jump, end_check_label);
1582 1.1.1.1.4.2 alnsn
1583 1.1.1.1.4.2 alnsn /* A loop to clear all states, which are > (or >=) than R_CURR_CHAR. */
1584 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
1585 1.1.1.1.4.2 alnsn sljit_set_label(clear_states_jump, label);
1586 1.1.1.1.4.2 alnsn
1587 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_NEXT_HEAD, 0);
1588 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, 0);
1589 1.1.1.1.4.2 alnsn
1590 1.1.1.1.4.2 alnsn /* Begin of the loop. */
1591 1.1.1.1.4.2 alnsn EMIT_LABEL(begin_loop_label);
1592 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_EQUAL, R_TEMP, 0, SLJIT_IMM, 0);
1593 1.1.1.1.4.2 alnsn sljit_set_label(jump, leave_label);
1594 1.1.1.1.4.2 alnsn
1595 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_TEMP, 0, R_TEMP, 0, R_CURR_STATE, 0);
1596 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_BEST_BEGIN, 0, SLJIT_MEM1(R_TEMP), sizeof(sljit_w));
1597 1.1.1.1.4.2 alnsn EMIT_CMP(clear_states_jump, !(compiler_common->flags & REGEX_MATCH_NON_GREEDY) ? SLJIT_C_GREATER : SLJIT_C_GREATER_EQUAL, SLJIT_MEM1(R_TEMP), 2 * sizeof(sljit_w), R_CURR_CHAR, 0);
1598 1.1.1.1.4.2 alnsn
1599 1.1.1.1.4.2 alnsn /* Case 1: keep this case. */
1600 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_TEMP), sizeof(sljit_w), R_NEXT_HEAD, 0);
1601 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB, R_NEXT_HEAD, 0, R_TEMP, 0, R_CURR_STATE, 0);
1602 1.1.1.1.4.2 alnsn
1603 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_BEST_BEGIN, 0);
1604 1.1.1.1.4.2 alnsn EMIT_JUMP(jump, SLJIT_JUMP);
1605 1.1.1.1.4.2 alnsn sljit_set_label(jump, begin_loop_label);
1606 1.1.1.1.4.2 alnsn
1607 1.1.1.1.4.2 alnsn /* Case 2: remove this case. */
1608 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
1609 1.1.1.1.4.2 alnsn sljit_set_label(clear_states_jump, label);
1610 1.1.1.1.4.2 alnsn
1611 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_TEMP), sizeof(sljit_w), SLJIT_IMM, -1);
1612 1.1.1.1.4.2 alnsn
1613 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_BEST_BEGIN, 0);
1614 1.1.1.1.4.2 alnsn EMIT_JUMP(jump, SLJIT_JUMP);
1615 1.1.1.1.4.2 alnsn sljit_set_label(jump, begin_loop_label);
1616 1.1.1.1.4.2 alnsn }
1617 1.1.1.1.4.2 alnsn else {
1618 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_BEST_BEGIN, 0, SLJIT_IMM, 0);
1619 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_begin), SLJIT_IMM, 0);
1620 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_end), R_CURR_INDEX, 0);
1621 1.1.1.1.4.2 alnsn if (compiler_common->flags & REGEX_ID_CHECK) {
1622 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_id), SLJIT_MEM1(R_CURR_STATE), TERM_REL_OFFSET_OF(0, 2));
1623 1.1.1.1.4.2 alnsn }
1624 1.1.1.1.4.2 alnsn EMIT_JUMP(jump, SLJIT_JUMP);
1625 1.1.1.1.4.2 alnsn sljit_set_label(jump, end_check_label);
1626 1.1.1.1.4.2 alnsn }
1627 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
1628 1.1.1.1.4.2 alnsn }
1629 1.1.1.1.4.2 alnsn
1630 1.1.1.1.4.2 alnsn static int compile_leave_fast_forward(struct compiler_common *compiler_common, struct sljit_label *fast_forward_label)
1631 1.1.1.1.4.2 alnsn {
1632 1.1.1.1.4.2 alnsn struct sljit_compiler *compiler = compiler_common->compiler;
1633 1.1.1.1.4.2 alnsn struct stack *stack = &compiler_common->stack;
1634 1.1.1.1.4.2 alnsn struct stack_item *dfa_transitions = compiler_common->dfa_transitions;
1635 1.1.1.1.4.2 alnsn struct stack_item *search_states = compiler_common->search_states;
1636 1.1.1.1.4.2 alnsn int ind;
1637 1.1.1.1.4.2 alnsn struct sljit_jump *jump;
1638 1.1.1.1.4.2 alnsn int init_range = 1, prev_value = 0;
1639 1.1.1.1.4.2 alnsn
1640 1.1.1.1.4.2 alnsn while (stack->count > 0) {
1641 1.1.1.1.4.2 alnsn ind = stack_pop(stack)->value;
1642 1.1.1.1.4.2 alnsn search_states[ind].value = -1;
1643 1.1.1.1.4.2 alnsn if (search_states[ind].type >= 0) {
1644 1.1.1.1.4.2 alnsn if (dfa_transitions[ind].type == type_char) {
1645 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, dfa_transitions[ind].value);
1646 1.1.1.1.4.2 alnsn sljit_set_label(jump, fast_forward_label);
1647 1.1.1.1.4.2 alnsn }
1648 1.1.1.1.4.2 alnsn else if (dfa_transitions[ind].type == type_rng_start) {
1649 1.1.1.1.4.2 alnsn SLJIT_ASSERT(!dfa_transitions[ind].value);
1650 1.1.1.1.4.2 alnsn ind++;
1651 1.1.1.1.4.2 alnsn while (dfa_transitions[ind].type != type_rng_end) {
1652 1.1.1.1.4.2 alnsn if (dfa_transitions[ind].type == type_rng_char) {
1653 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, dfa_transitions[ind].value);
1654 1.1.1.1.4.2 alnsn sljit_set_label(jump, fast_forward_label);
1655 1.1.1.1.4.2 alnsn }
1656 1.1.1.1.4.2 alnsn else {
1657 1.1.1.1.4.2 alnsn SLJIT_ASSERT(dfa_transitions[ind].type == type_rng_left);
1658 1.1.1.1.4.2 alnsn if (init_range) {
1659 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_CURR_CHAR, 0);
1660 1.1.1.1.4.2 alnsn init_range = 0;
1661 1.1.1.1.4.2 alnsn }
1662 1.1.1.1.4.2 alnsn if (dfa_transitions[ind].value != prev_value) {
1663 1.1.1.1.4.2 alnsn /* Best compatibility to all archs. */
1664 1.1.1.1.4.2 alnsn prev_value -= dfa_transitions[ind].value;
1665 1.1.1.1.4.2 alnsn if (prev_value < 0) {
1666 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB, R_TEMP, 0, R_TEMP, 0, SLJIT_IMM, -prev_value);
1667 1.1.1.1.4.2 alnsn }
1668 1.1.1.1.4.2 alnsn else {
1669 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_TEMP, 0, R_TEMP, 0, SLJIT_IMM, prev_value);
1670 1.1.1.1.4.2 alnsn }
1671 1.1.1.1.4.2 alnsn prev_value = dfa_transitions[ind].value;
1672 1.1.1.1.4.2 alnsn }
1673 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_LESS_EQUAL, R_TEMP, 0, SLJIT_IMM, dfa_transitions[ind + 1].value - dfa_transitions[ind].value);
1674 1.1.1.1.4.2 alnsn sljit_set_label(jump, fast_forward_label);
1675 1.1.1.1.4.2 alnsn ind++;
1676 1.1.1.1.4.2 alnsn }
1677 1.1.1.1.4.2 alnsn ind++;
1678 1.1.1.1.4.2 alnsn }
1679 1.1.1.1.4.2 alnsn }
1680 1.1.1.1.4.2 alnsn else {
1681 1.1.1.1.4.2 alnsn SLJIT_ASSERT(dfa_transitions[ind].type == type_newline);
1682 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, '\n');
1683 1.1.1.1.4.2 alnsn sljit_set_label(jump, fast_forward_label);
1684 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, '\r');
1685 1.1.1.1.4.2 alnsn sljit_set_label(jump, fast_forward_label);
1686 1.1.1.1.4.2 alnsn }
1687 1.1.1.1.4.2 alnsn }
1688 1.1.1.1.4.2 alnsn }
1689 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
1690 1.1.1.1.4.2 alnsn }
1691 1.1.1.1.4.2 alnsn
1692 1.1.1.1.4.2 alnsn static int compile_newline_check(struct compiler_common *compiler_common, sljit_w ind)
1693 1.1.1.1.4.2 alnsn {
1694 1.1.1.1.4.2 alnsn struct sljit_compiler *compiler = compiler_common->compiler;
1695 1.1.1.1.4.2 alnsn struct sljit_jump *jump1;
1696 1.1.1.1.4.2 alnsn struct sljit_jump *jump2;
1697 1.1.1.1.4.2 alnsn struct sljit_label *label;
1698 1.1.1.1.4.2 alnsn sljit_w no_states;
1699 1.1.1.1.4.2 alnsn sljit_w offset;
1700 1.1.1.1.4.2 alnsn
1701 1.1.1.1.4.2 alnsn /* Check whether a new-line character is found. */
1702 1.1.1.1.4.2 alnsn EMIT_CMP(jump1, SLJIT_C_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, '\n');
1703 1.1.1.1.4.2 alnsn EMIT_CMP(jump2, SLJIT_C_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, '\r');
1704 1.1.1.1.4.2 alnsn
1705 1.1.1.1.4.2 alnsn no_states = compiler_common->no_states;
1706 1.1.1.1.4.2 alnsn offset = TERM_OFFSET_OF(compiler_common->search_states[ind].type, 1);
1707 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), offset);
1708 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_CURR_STATE), offset, SLJIT_IMM, -1);
1709 1.1.1.1.4.2 alnsn CHECK(sljit_emit_ijump(compiler, SLJIT_JUMP, SLJIT_MEM2(R_CURR_STATE, R_TEMP), 0));
1710 1.1.1.1.4.2 alnsn
1711 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
1712 1.1.1.1.4.2 alnsn sljit_set_label(jump1, label);
1713 1.1.1.1.4.2 alnsn sljit_set_label(jump2, label);
1714 1.1.1.1.4.2 alnsn return REGEX_NO_ERROR;
1715 1.1.1.1.4.2 alnsn }
1716 1.1.1.1.4.2 alnsn
1717 1.1.1.1.4.2 alnsn #undef CHECK
1718 1.1.1.1.4.2 alnsn
1719 1.1.1.1.4.2 alnsn #define CHECK(exp) \
1720 1.1.1.1.4.2 alnsn if (SLJIT_UNLIKELY(exp)) \
1721 1.1.1.1.4.2 alnsn return 0
1722 1.1.1.1.4.2 alnsn
1723 1.1.1.1.4.2 alnsn static SLJIT_INLINE void range_set_label(struct sljit_jump **range_jump_list, struct sljit_label *label)
1724 1.1.1.1.4.2 alnsn {
1725 1.1.1.1.4.2 alnsn while (*range_jump_list) {
1726 1.1.1.1.4.2 alnsn sljit_set_label(*range_jump_list, label);
1727 1.1.1.1.4.2 alnsn range_jump_list++;
1728 1.1.1.1.4.2 alnsn }
1729 1.1.1.1.4.2 alnsn }
1730 1.1.1.1.4.2 alnsn
1731 1.1.1.1.4.2 alnsn static sljit_w compile_range_check(struct compiler_common *compiler_common, sljit_w ind)
1732 1.1.1.1.4.2 alnsn {
1733 1.1.1.1.4.2 alnsn struct sljit_compiler *compiler = compiler_common->compiler;
1734 1.1.1.1.4.2 alnsn struct stack_item *dfa_transitions = compiler_common->dfa_transitions;
1735 1.1.1.1.4.2 alnsn struct sljit_jump **range_jump_list = compiler_common->range_jump_list;
1736 1.1.1.1.4.2 alnsn int invert = dfa_transitions[ind].value;
1737 1.1.1.1.4.2 alnsn struct sljit_label *label;
1738 1.1.1.1.4.2 alnsn sljit_w no_states;
1739 1.1.1.1.4.2 alnsn sljit_w offset;
1740 1.1.1.1.4.2 alnsn int init_range = 1, prev_value = 0;
1741 1.1.1.1.4.2 alnsn
1742 1.1.1.1.4.2 alnsn ind++;
1743 1.1.1.1.4.2 alnsn
1744 1.1.1.1.4.2 alnsn while (dfa_transitions[ind].type != type_rng_end) {
1745 1.1.1.1.4.2 alnsn if (dfa_transitions[ind].type == type_rng_char) {
1746 1.1.1.1.4.2 alnsn EMIT_CMP(*range_jump_list, SLJIT_C_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, dfa_transitions[ind].value);
1747 1.1.1.1.4.2 alnsn range_jump_list++;
1748 1.1.1.1.4.2 alnsn }
1749 1.1.1.1.4.2 alnsn else {
1750 1.1.1.1.4.2 alnsn SLJIT_ASSERT(dfa_transitions[ind].type == type_rng_left);
1751 1.1.1.1.4.2 alnsn if (init_range) {
1752 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_CURR_CHAR, 0);
1753 1.1.1.1.4.2 alnsn init_range = 0;
1754 1.1.1.1.4.2 alnsn }
1755 1.1.1.1.4.2 alnsn if (dfa_transitions[ind].value != prev_value) {
1756 1.1.1.1.4.2 alnsn /* Best compatibility to all archs. */
1757 1.1.1.1.4.2 alnsn prev_value -= dfa_transitions[ind].value;
1758 1.1.1.1.4.2 alnsn if (prev_value < 0) {
1759 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB, R_TEMP, 0, R_TEMP, 0, SLJIT_IMM, -prev_value);
1760 1.1.1.1.4.2 alnsn }
1761 1.1.1.1.4.2 alnsn else {
1762 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_TEMP, 0, R_TEMP, 0, SLJIT_IMM, prev_value);
1763 1.1.1.1.4.2 alnsn }
1764 1.1.1.1.4.2 alnsn prev_value = dfa_transitions[ind].value;
1765 1.1.1.1.4.2 alnsn }
1766 1.1.1.1.4.2 alnsn EMIT_CMP(*range_jump_list, SLJIT_C_LESS_EQUAL, R_TEMP, 0, SLJIT_IMM, dfa_transitions[ind + 1].value - dfa_transitions[ind].value);
1767 1.1.1.1.4.2 alnsn range_jump_list++;
1768 1.1.1.1.4.2 alnsn ind++;
1769 1.1.1.1.4.2 alnsn }
1770 1.1.1.1.4.2 alnsn ind++;
1771 1.1.1.1.4.2 alnsn }
1772 1.1.1.1.4.2 alnsn
1773 1.1.1.1.4.2 alnsn *range_jump_list = NULL;
1774 1.1.1.1.4.2 alnsn
1775 1.1.1.1.4.2 alnsn if (!invert) {
1776 1.1.1.1.4.2 alnsn no_states = compiler_common->no_states;
1777 1.1.1.1.4.2 alnsn offset = TERM_OFFSET_OF(compiler_common->search_states[ind].type, 1);
1778 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), offset);
1779 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_CURR_STATE), offset, SLJIT_IMM, -1);
1780 1.1.1.1.4.2 alnsn CHECK(sljit_emit_ijump(compiler, SLJIT_JUMP, SLJIT_MEM2(R_CURR_STATE, R_TEMP), 0));
1781 1.1.1.1.4.2 alnsn
1782 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
1783 1.1.1.1.4.2 alnsn range_set_label(compiler_common->range_jump_list, label);
1784 1.1.1.1.4.2 alnsn /* Clears the jump list. */
1785 1.1.1.1.4.2 alnsn *compiler_common->range_jump_list = NULL;
1786 1.1.1.1.4.2 alnsn }
1787 1.1.1.1.4.2 alnsn return ind;
1788 1.1.1.1.4.2 alnsn }
1789 1.1.1.1.4.2 alnsn
1790 1.1.1.1.4.2 alnsn #undef TERM_OFFSET_OF
1791 1.1.1.1.4.2 alnsn #undef EMIT_OP1
1792 1.1.1.1.4.2 alnsn #undef EMIT_OP2
1793 1.1.1.1.4.2 alnsn #undef EMIT_LABEL
1794 1.1.1.1.4.2 alnsn #undef EMIT_JUMP
1795 1.1.1.1.4.2 alnsn #undef EMIT_CMP
1796 1.1.1.1.4.2 alnsn #undef CHECK
1797 1.1.1.1.4.2 alnsn
1798 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
1799 1.1.1.1.4.2 alnsn /* Main compiler */
1800 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
1801 1.1.1.1.4.2 alnsn
1802 1.1.1.1.4.2 alnsn #define TERM_OFFSET_OF(ind, offs) (((ind) * compiler_common.no_states + (offs)) * sizeof(sljit_w))
1803 1.1.1.1.4.2 alnsn
1804 1.1.1.1.4.2 alnsn #define EMIT_OP1(type, arg1, arg2, arg3, arg4) \
1805 1.1.1.1.4.2 alnsn CHECK(sljit_emit_op1(compiler_common.compiler, type, arg1, arg2, arg3, arg4))
1806 1.1.1.1.4.2 alnsn
1807 1.1.1.1.4.2 alnsn #define EMIT_OP2(type, arg1, arg2, arg3, arg4, arg5, arg6) \
1808 1.1.1.1.4.2 alnsn CHECK(sljit_emit_op2(compiler_common.compiler, type, arg1, arg2, arg3, arg4, arg5, arg6))
1809 1.1.1.1.4.2 alnsn
1810 1.1.1.1.4.2 alnsn #define EMIT_LABEL(label) \
1811 1.1.1.1.4.2 alnsn label = sljit_emit_label(compiler_common.compiler); \
1812 1.1.1.1.4.2 alnsn CHECK(!label)
1813 1.1.1.1.4.2 alnsn
1814 1.1.1.1.4.2 alnsn #define EMIT_JUMP(jump, type) \
1815 1.1.1.1.4.2 alnsn jump = sljit_emit_jump(compiler_common.compiler, type); \
1816 1.1.1.1.4.2 alnsn CHECK(!jump)
1817 1.1.1.1.4.2 alnsn
1818 1.1.1.1.4.2 alnsn #define EMIT_CMP(jump, type, arg1, arg2, arg3, arg4) \
1819 1.1.1.1.4.2 alnsn jump = sljit_emit_cmp(compiler_common.compiler, type, arg1, arg2, arg3, arg4); \
1820 1.1.1.1.4.2 alnsn CHECK(!jump)
1821 1.1.1.1.4.2 alnsn
1822 1.1.1.1.4.2 alnsn /* A do {} while(0) expression helps to avoid goto statements. */
1823 1.1.1.1.4.2 alnsn #define BEGIN_GUARD \
1824 1.1.1.1.4.2 alnsn do {
1825 1.1.1.1.4.2 alnsn
1826 1.1.1.1.4.2 alnsn #define END_GUARD \
1827 1.1.1.1.4.2 alnsn } while(0);
1828 1.1.1.1.4.2 alnsn
1829 1.1.1.1.4.2 alnsn #define CHECK(exp) \
1830 1.1.1.1.4.2 alnsn if (SLJIT_UNLIKELY(exp)) \
1831 1.1.1.1.4.2 alnsn break;
1832 1.1.1.1.4.2 alnsn
1833 1.1.1.1.4.2 alnsn struct regex_machine* regex_compile(const regex_char_t *regex_string, int length, int re_flags, int *error)
1834 1.1.1.1.4.2 alnsn {
1835 1.1.1.1.4.2 alnsn struct compiler_common compiler_common;
1836 1.1.1.1.4.2 alnsn sljit_w ind;
1837 1.1.1.1.4.2 alnsn int error_code, done, suggest_fast_forward;
1838 1.1.1.1.4.2 alnsn /* ID of an empty match (-1 if not reachable). */
1839 1.1.1.1.4.2 alnsn int empty_match_id;
1840 1.1.1.1.4.2 alnsn
1841 1.1.1.1.4.2 alnsn struct sljit_jump *jump;
1842 1.1.1.1.4.2 alnsn struct sljit_jump *best_match_found_jump;
1843 1.1.1.1.4.2 alnsn struct sljit_jump *fast_forward_jump = NULL;
1844 1.1.1.1.4.2 alnsn struct sljit_jump *length_is_zero_jump;
1845 1.1.1.1.4.2 alnsn struct sljit_jump *end_check_jump = NULL;
1846 1.1.1.1.4.2 alnsn struct sljit_jump *best_match_check_jump = NULL;
1847 1.1.1.1.4.2 alnsn struct sljit_jump *non_greedy_end_jump = NULL;
1848 1.1.1.1.4.2 alnsn struct sljit_label *label;
1849 1.1.1.1.4.2 alnsn struct sljit_label *end_check_label = NULL;
1850 1.1.1.1.4.2 alnsn struct sljit_label *start_label;
1851 1.1.1.1.4.2 alnsn struct sljit_label *fast_forward_label;
1852 1.1.1.1.4.2 alnsn struct sljit_label *fast_forward_return_label;
1853 1.1.1.1.4.2 alnsn
1854 1.1.1.1.4.2 alnsn if (error)
1855 1.1.1.1.4.2 alnsn *error = REGEX_NO_ERROR;
1856 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
1857 1.1.1.1.4.2 alnsn compiler_common.flags = re_flags & (REGEX_MATCH_BEGIN | REGEX_MATCH_END | REGEX_MATCH_NON_GREEDY | REGEX_NEWLINE | REGEX_MATCH_VERBOSE);
1858 1.1.1.1.4.2 alnsn #else
1859 1.1.1.1.4.2 alnsn compiler_common.flags = re_flags & (REGEX_MATCH_BEGIN | REGEX_MATCH_END | REGEX_MATCH_NON_GREEDY | REGEX_NEWLINE);
1860 1.1.1.1.4.2 alnsn #endif
1861 1.1.1.1.4.2 alnsn
1862 1.1.1.1.4.2 alnsn /* Step 1: parsing (Left->Right).
1863 1.1.1.1.4.2 alnsn Syntax check and AST generator. */
1864 1.1.1.1.4.2 alnsn error_code = parse(regex_string, length, &compiler_common);
1865 1.1.1.1.4.2 alnsn if (error_code) {
1866 1.1.1.1.4.2 alnsn stack_destroy(&compiler_common.stack);
1867 1.1.1.1.4.2 alnsn if (error)
1868 1.1.1.1.4.2 alnsn *error = error_code;
1869 1.1.1.1.4.2 alnsn return NULL;
1870 1.1.1.1.4.2 alnsn }
1871 1.1.1.1.4.2 alnsn
1872 1.1.1.1.4.2 alnsn /* Step 2: generating branches (Right->Left). */
1873 1.1.1.1.4.2 alnsn error_code = generate_transitions(&compiler_common);
1874 1.1.1.1.4.2 alnsn stack_destroy(&compiler_common.stack);
1875 1.1.1.1.4.2 alnsn stack_destroy(&compiler_common.depth);
1876 1.1.1.1.4.2 alnsn if (error_code) {
1877 1.1.1.1.4.2 alnsn if (compiler_common.dfa_transitions)
1878 1.1.1.1.4.2 alnsn SLJIT_FREE(compiler_common.dfa_transitions);
1879 1.1.1.1.4.2 alnsn if (error)
1880 1.1.1.1.4.2 alnsn *error = error_code;
1881 1.1.1.1.4.2 alnsn return NULL;
1882 1.1.1.1.4.2 alnsn }
1883 1.1.1.1.4.2 alnsn
1884 1.1.1.1.4.2 alnsn /* Step 3: Generate necessary data for depth-first search (Left->Right). */
1885 1.1.1.1.4.2 alnsn error_code = generate_search_states(&compiler_common);
1886 1.1.1.1.4.2 alnsn if (error_code) {
1887 1.1.1.1.4.2 alnsn SLJIT_FREE(compiler_common.dfa_transitions);
1888 1.1.1.1.4.2 alnsn if (error)
1889 1.1.1.1.4.2 alnsn *error = error_code;
1890 1.1.1.1.4.2 alnsn return NULL;
1891 1.1.1.1.4.2 alnsn }
1892 1.1.1.1.4.2 alnsn
1893 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
1894 1.1.1.1.4.2 alnsn if (compiler_common.flags & REGEX_MATCH_VERBOSE)
1895 1.1.1.1.4.2 alnsn verbose_transitions(&compiler_common);
1896 1.1.1.1.4.2 alnsn #endif
1897 1.1.1.1.4.2 alnsn
1898 1.1.1.1.4.2 alnsn /* Step 4: Left->Right generate code. */
1899 1.1.1.1.4.2 alnsn stack_init(&compiler_common.stack);
1900 1.1.1.1.4.2 alnsn stack_init(&compiler_common.depth);
1901 1.1.1.1.4.2 alnsn done = 0;
1902 1.1.1.1.4.2 alnsn compiler_common.machine = NULL;
1903 1.1.1.1.4.2 alnsn compiler_common.compiler = NULL;
1904 1.1.1.1.4.2 alnsn compiler_common.range_jump_list = NULL;
1905 1.1.1.1.4.2 alnsn
1906 1.1.1.1.4.2 alnsn BEGIN_GUARD
1907 1.1.1.1.4.2 alnsn
1908 1.1.1.1.4.2 alnsn compiler_common.machine = (struct regex_machine*)SLJIT_MALLOC(sizeof(struct regex_machine) + (compiler_common.terms_size - 1) * sizeof(sljit_uw));
1909 1.1.1.1.4.2 alnsn CHECK(!compiler_common.machine);
1910 1.1.1.1.4.2 alnsn
1911 1.1.1.1.4.2 alnsn compiler_common.compiler = sljit_create_compiler();
1912 1.1.1.1.4.2 alnsn CHECK(!compiler_common.compiler);
1913 1.1.1.1.4.2 alnsn
1914 1.1.1.1.4.2 alnsn if (compiler_common.longest_range_size > 0) {
1915 1.1.1.1.4.2 alnsn compiler_common.range_jump_list = (struct sljit_jump**)SLJIT_MALLOC(sizeof(struct sljit_jump*) * compiler_common.longest_range_size);
1916 1.1.1.1.4.2 alnsn CHECK(!compiler_common.range_jump_list);
1917 1.1.1.1.4.2 alnsn }
1918 1.1.1.1.4.2 alnsn
1919 1.1.1.1.4.2 alnsn if ((compiler_common.flags & REGEX_ID_CHECK) && !(compiler_common.flags & REGEX_MATCH_BEGIN))
1920 1.1.1.1.4.2 alnsn compiler_common.no_states = 4;
1921 1.1.1.1.4.2 alnsn else if (!(compiler_common.flags & REGEX_ID_CHECK) && (compiler_common.flags & REGEX_MATCH_BEGIN))
1922 1.1.1.1.4.2 alnsn compiler_common.no_states = 2;
1923 1.1.1.1.4.2 alnsn else
1924 1.1.1.1.4.2 alnsn compiler_common.no_states = 3;
1925 1.1.1.1.4.2 alnsn
1926 1.1.1.1.4.2 alnsn compiler_common.machine->flags = compiler_common.flags;
1927 1.1.1.1.4.2 alnsn compiler_common.machine->no_states = compiler_common.no_states;
1928 1.1.1.1.4.2 alnsn compiler_common.machine->size = compiler_common.machine->no_states * compiler_common.terms_size;
1929 1.1.1.1.4.2 alnsn
1930 1.1.1.1.4.2 alnsn /* Study the regular expression. */
1931 1.1.1.1.4.2 alnsn empty_match_id = -1;
1932 1.1.1.1.4.2 alnsn suggest_fast_forward = 1;
1933 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_FAKE_MATCH_BEGIN)) {
1934 1.1.1.1.4.2 alnsn CHECK(trace_transitions(0, &compiler_common));
1935 1.1.1.1.4.2 alnsn while (compiler_common.stack.count > 0) {
1936 1.1.1.1.4.2 alnsn ind = stack_pop(&compiler_common.stack)->value;
1937 1.1.1.1.4.2 alnsn if (compiler_common.search_states[ind].type == 0) {
1938 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common.dfa_transitions[ind].type == type_end);
1939 1.1.1.1.4.2 alnsn suggest_fast_forward = 0;
1940 1.1.1.1.4.2 alnsn empty_match_id = compiler_common.search_states[ind].value;
1941 1.1.1.1.4.2 alnsn }
1942 1.1.1.1.4.2 alnsn else if (compiler_common.search_states[ind].type > 0) {
1943 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common.dfa_transitions[ind].type != type_end);
1944 1.1.1.1.4.2 alnsn if (compiler_common.dfa_transitions[ind].type == type_rng_start && compiler_common.dfa_transitions[ind].value)
1945 1.1.1.1.4.2 alnsn suggest_fast_forward = 0;
1946 1.1.1.1.4.2 alnsn }
1947 1.1.1.1.4.2 alnsn compiler_common.search_states[ind].value = -1;
1948 1.1.1.1.4.2 alnsn }
1949 1.1.1.1.4.2 alnsn }
1950 1.1.1.1.4.2 alnsn else {
1951 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common.dfa_transitions[1].type == type_newline);
1952 1.1.1.1.4.2 alnsn CHECK(trace_transitions(1, &compiler_common));
1953 1.1.1.1.4.2 alnsn while (compiler_common.stack.count > 0) {
1954 1.1.1.1.4.2 alnsn ind = stack_pop(&compiler_common.stack)->value;
1955 1.1.1.1.4.2 alnsn if (compiler_common.search_states[ind].type == 0) {
1956 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common.dfa_transitions[ind].type == type_end);
1957 1.1.1.1.4.2 alnsn suggest_fast_forward = 0;
1958 1.1.1.1.4.2 alnsn empty_match_id = compiler_common.search_states[ind].value;
1959 1.1.1.1.4.2 alnsn }
1960 1.1.1.1.4.2 alnsn compiler_common.search_states[ind].value = -1;
1961 1.1.1.1.4.2 alnsn }
1962 1.1.1.1.4.2 alnsn }
1963 1.1.1.1.4.2 alnsn
1964 1.1.1.1.4.2 alnsn /* Step 4.1: Generate entry. */
1965 1.1.1.1.4.2 alnsn CHECK(sljit_emit_enter(compiler_common.compiler, 3, 5, 5, 0));
1966 1.1.1.1.4.2 alnsn
1967 1.1.1.1.4.2 alnsn /* Copy arguments to their place. */
1968 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_REGEX_MATCH, 0, SLJIT_SAVED_REG1, 0);
1969 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_STRING, 0, SLJIT_SAVED_REG2, 0);
1970 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_LENGTH, 0, SLJIT_SAVED_REG3, 0, SLJIT_IMM, 1);
1971 1.1.1.1.4.2 alnsn
1972 1.1.1.1.4.2 alnsn /* Init global registers. */
1973 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_CURR_STATE, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, current));
1974 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_STATE, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, next));
1975 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, head));
1976 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_BEST_BEGIN, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_begin));
1977 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_CURR_INDEX, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, index));
1978 1.1.1.1.4.2 alnsn
1979 1.1.1.1.4.2 alnsn /* Check whether the best match has already found in a previous frame. */
1980 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_EQUAL, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, fast_quit), SLJIT_IMM, 0);
1981 1.1.1.1.4.2 alnsn EMIT_JUMP(best_match_found_jump, SLJIT_JUMP);
1982 1.1.1.1.4.2 alnsn
1983 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
1984 1.1.1.1.4.2 alnsn if (compiler_common.flags & REGEX_MATCH_VERBOSE)
1985 1.1.1.1.4.2 alnsn printf("\n-----------------\nTrace\n-----------------\n");
1986 1.1.1.1.4.2 alnsn #endif
1987 1.1.1.1.4.2 alnsn
1988 1.1.1.1.4.2 alnsn /* Step 4.2: Generate code for state 0. */
1989 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
1990 1.1.1.1.4.2 alnsn compiler_common.machine->entry_addrs[0] = (sljit_uw)label;
1991 1.1.1.1.4.2 alnsn
1992 1.1.1.1.4.2 alnsn /* Swapping current and next. */
1993 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_CURR_STATE, 0);
1994 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_CURR_STATE, 0, R_NEXT_STATE, 0);
1995 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_STATE, 0, R_TEMP, 0);
1996 1.1.1.1.4.2 alnsn
1997 1.1.1.1.4.2 alnsn /* Checking whether the best case needs to be updated. */
1998 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_END)) {
1999 1.1.1.1.4.2 alnsn EMIT_CMP(end_check_jump, SLJIT_C_NOT_EQUAL, SLJIT_MEM1(R_CURR_STATE), TERM_REL_OFFSET_OF(0, 1), SLJIT_IMM, -1);
2000 1.1.1.1.4.2 alnsn EMIT_LABEL(end_check_label);
2001 1.1.1.1.4.2 alnsn }
2002 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_NEXT_STATE), TERM_REL_OFFSET_OF(0, 1), SLJIT_IMM, -1);
2003 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_CURR_INDEX, 0, R_CURR_INDEX, 0, SLJIT_IMM, 1);
2004 1.1.1.1.4.2 alnsn
2005 1.1.1.1.4.2 alnsn /* Checking whether best case has already found. */
2006 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_END) || (compiler_common.flags & REGEX_MATCH_BEGIN)) {
2007 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_BEGIN)) {
2008 1.1.1.1.4.2 alnsn /* We can bail out if no more active states remain and R_BEST_BEGIN != -1. */
2009 1.1.1.1.4.2 alnsn EMIT_CMP(best_match_check_jump, SLJIT_C_NOT_EQUAL, R_BEST_BEGIN, 0, SLJIT_IMM, -1);
2010 1.1.1.1.4.2 alnsn }
2011 1.1.1.1.4.2 alnsn else {
2012 1.1.1.1.4.2 alnsn /* We can bail out if no more active states remain (regardless of R_BEST_BEGIN). */
2013 1.1.1.1.4.2 alnsn EMIT_CMP(best_match_check_jump, SLJIT_C_EQUAL, R_NEXT_HEAD, 0, SLJIT_IMM, 0);
2014 1.1.1.1.4.2 alnsn }
2015 1.1.1.1.4.2 alnsn }
2016 1.1.1.1.4.2 alnsn
2017 1.1.1.1.4.2 alnsn EMIT_LABEL(start_label);
2018 1.1.1.1.4.2 alnsn sljit_set_label(jump, start_label);
2019 1.1.1.1.4.2 alnsn
2020 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_BEGIN) && suggest_fast_forward) {
2021 1.1.1.1.4.2 alnsn EMIT_CMP(fast_forward_jump, SLJIT_C_NOT_EQUAL, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, fast_forward), SLJIT_IMM, 0);
2022 1.1.1.1.4.2 alnsn }
2023 1.1.1.1.4.2 alnsn
2024 1.1.1.1.4.2 alnsn /* Loading the next character. */
2025 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB | SLJIT_SET_E, R_LENGTH, 0, R_LENGTH, 0, SLJIT_IMM, 1);
2026 1.1.1.1.4.2 alnsn EMIT_JUMP(length_is_zero_jump, SLJIT_C_EQUAL);
2027 1.1.1.1.4.2 alnsn
2028 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_STRING, 0);
2029 1.1.1.1.4.2 alnsn #ifdef REGEX_USE_8BIT_CHARS
2030 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV_UB, R_CURR_CHAR, 0, SLJIT_MEM1(R_TEMP), 0);
2031 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_TEMP, 0, R_TEMP, 0, SLJIT_IMM, 1);
2032 1.1.1.1.4.2 alnsn #else
2033 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV_UH, R_CURR_CHAR, 0, SLJIT_MEM1(R_TEMP), 0);
2034 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_TEMP, 0, R_TEMP, 0, SLJIT_IMM, 2);
2035 1.1.1.1.4.2 alnsn #endif
2036 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_STRING, 0, R_TEMP, 0);
2037 1.1.1.1.4.2 alnsn
2038 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
2039 1.1.1.1.4.2 alnsn if (compiler_common.flags & REGEX_MATCH_VERBOSE) {
2040 1.1.1.1.4.2 alnsn printf("(%3d): ", 0);
2041 1.1.1.1.4.2 alnsn CHECK(trace_transitions(0, &compiler_common));
2042 1.1.1.1.4.2 alnsn while (compiler_common.stack.count > 0) {
2043 1.1.1.1.4.2 alnsn ind = stack_pop(&compiler_common.stack)->value;
2044 1.1.1.1.4.2 alnsn if (compiler_common.search_states[ind].type >= 0)
2045 1.1.1.1.4.2 alnsn printf("-> (%3d:%3d) ", compiler_common.search_states[ind].type, compiler_common.search_states[ind].value);
2046 1.1.1.1.4.2 alnsn compiler_common.search_states[ind].value = -1;
2047 1.1.1.1.4.2 alnsn }
2048 1.1.1.1.4.2 alnsn printf("\n");
2049 1.1.1.1.4.2 alnsn }
2050 1.1.1.1.4.2 alnsn #endif
2051 1.1.1.1.4.2 alnsn
2052 1.1.1.1.4.2 alnsn EMIT_LABEL(fast_forward_return_label);
2053 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_BEGIN)) {
2054 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, fast_forward), SLJIT_IMM, 1);
2055 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_END)) {
2056 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_NOT_EQUAL, R_BEST_BEGIN, 0, SLJIT_IMM, -1);
2057 1.1.1.1.4.2 alnsn }
2058 1.1.1.1.4.2 alnsn
2059 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_CURR_INDEX, 0);
2060 1.1.1.1.4.2 alnsn CHECK(compile_uncond_tran(&compiler_common, R_NEXT_STATE));
2061 1.1.1.1.4.2 alnsn /* And branching to the first state. */
2062 1.1.1.1.4.2 alnsn CHECK(sljit_emit_ijump(compiler_common.compiler, SLJIT_JUMP, SLJIT_MEM2(R_CURR_STATE, R_TEMP), 0));
2063 1.1.1.1.4.2 alnsn
2064 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_END)) {
2065 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2066 1.1.1.1.4.2 alnsn sljit_set_label(jump, label);
2067 1.1.1.1.4.2 alnsn }
2068 1.1.1.1.4.2 alnsn }
2069 1.1.1.1.4.2 alnsn /* This is the case where we only have to reset the R_NEXT_HEAD. */
2070 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, R_NEXT_HEAD, 0);
2071 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, 0);
2072 1.1.1.1.4.2 alnsn CHECK(sljit_emit_ijump(compiler_common.compiler, SLJIT_JUMP, SLJIT_MEM2(R_CURR_STATE, R_TEMP), 0));
2073 1.1.1.1.4.2 alnsn
2074 1.1.1.1.4.2 alnsn /* Fast-forward loop. */
2075 1.1.1.1.4.2 alnsn if (fast_forward_jump) {
2076 1.1.1.1.4.2 alnsn /* Quit from fast-forward loop. */
2077 1.1.1.1.4.2 alnsn EMIT_LABEL(fast_forward_label);
2078 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB, R_TEMP, 0, R_NEXT_HEAD, 0, SLJIT_IMM, 1);
2079 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_LENGTH, 0, R_NEXT_STATE, 0);
2080 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_STRING, 0, R_CURR_STATE, 0);
2081 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_CURR_INDEX, 0, R_NEXT_HEAD, 0);
2082 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_STATE, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, next));
2083 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_CURR_STATE, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, current));
2084 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, head));
2085 1.1.1.1.4.2 alnsn
2086 1.1.1.1.4.2 alnsn /* Update the start field of the locations. */
2087 1.1.1.1.4.2 alnsn CHECK(trace_transitions(0, &compiler_common));
2088 1.1.1.1.4.2 alnsn while (compiler_common.stack.count > 0) {
2089 1.1.1.1.4.2 alnsn ind = stack_pop(&compiler_common.stack)->value;
2090 1.1.1.1.4.2 alnsn if (compiler_common.search_states[ind].type >= 0) {
2091 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(compiler_common.search_states[ind].type, 2), R_TEMP, 0);
2092 1.1.1.1.4.2 alnsn }
2093 1.1.1.1.4.2 alnsn compiler_common.search_states[ind].value = -1;
2094 1.1.1.1.4.2 alnsn }
2095 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, fast_forward), SLJIT_IMM, 0);
2096 1.1.1.1.4.2 alnsn EMIT_JUMP(jump, SLJIT_JUMP);
2097 1.1.1.1.4.2 alnsn sljit_set_label(jump, fast_forward_return_label);
2098 1.1.1.1.4.2 alnsn
2099 1.1.1.1.4.2 alnsn /* Start fast-forward. */
2100 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2101 1.1.1.1.4.2 alnsn sljit_set_label(fast_forward_jump, label);
2102 1.1.1.1.4.2 alnsn
2103 1.1.1.1.4.2 alnsn /* Moving everything to registers. */
2104 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, next), R_NEXT_STATE, 0);
2105 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, current), R_CURR_STATE, 0);
2106 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, head), R_NEXT_HEAD, 0);
2107 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_STATE, 0, R_LENGTH, 0);
2108 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_CURR_STATE, 0, R_STRING, 0);
2109 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, R_CURR_INDEX, 0);
2110 1.1.1.1.4.2 alnsn
2111 1.1.1.1.4.2 alnsn /* Fast forward mainloop. */
2112 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2113 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_SUB | SLJIT_SET_E, R_NEXT_STATE, 0, R_NEXT_STATE, 0, SLJIT_IMM, 1);
2114 1.1.1.1.4.2 alnsn EMIT_JUMP(fast_forward_jump, SLJIT_C_EQUAL);
2115 1.1.1.1.4.2 alnsn
2116 1.1.1.1.4.2 alnsn #ifdef REGEX_USE_8BIT_CHARS
2117 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV_UB, R_CURR_CHAR, 0, SLJIT_MEM1(R_CURR_STATE), 0);
2118 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_CURR_STATE, 0, R_CURR_STATE, 0, SLJIT_IMM, 1);
2119 1.1.1.1.4.2 alnsn #else
2120 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV_UH, R_CURR_CHAR, 0, SLJIT_MEM1(R_CURR_STATE), 0);
2121 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_CURR_STATE, 0, R_CURR_STATE, 0, SLJIT_IMM, 2);
2122 1.1.1.1.4.2 alnsn #endif
2123 1.1.1.1.4.2 alnsn
2124 1.1.1.1.4.2 alnsn CHECK(trace_transitions(0, &compiler_common));
2125 1.1.1.1.4.2 alnsn CHECK(compile_leave_fast_forward(&compiler_common, fast_forward_label));
2126 1.1.1.1.4.2 alnsn
2127 1.1.1.1.4.2 alnsn EMIT_OP2(SLJIT_ADD, R_NEXT_HEAD, 0, R_NEXT_HEAD, 0, SLJIT_IMM, 1);
2128 1.1.1.1.4.2 alnsn EMIT_JUMP(jump, SLJIT_JUMP);
2129 1.1.1.1.4.2 alnsn sljit_set_label(jump, label);
2130 1.1.1.1.4.2 alnsn
2131 1.1.1.1.4.2 alnsn /* String is finished. */
2132 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2133 1.1.1.1.4.2 alnsn sljit_set_label(fast_forward_jump, label);
2134 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, index), R_NEXT_HEAD, 0);
2135 1.1.1.1.4.2 alnsn EMIT_JUMP(fast_forward_jump, SLJIT_JUMP);
2136 1.1.1.1.4.2 alnsn }
2137 1.1.1.1.4.2 alnsn
2138 1.1.1.1.4.2 alnsn /* End check. */
2139 1.1.1.1.4.2 alnsn if (end_check_jump) {
2140 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2141 1.1.1.1.4.2 alnsn sljit_set_label(end_check_jump, label);
2142 1.1.1.1.4.2 alnsn
2143 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_NON_GREEDY) || !(compiler_common.flags & REGEX_MATCH_BEGIN)) {
2144 1.1.1.1.4.2 alnsn CHECK(compile_end_check(&compiler_common, end_check_label));
2145 1.1.1.1.4.2 alnsn }
2146 1.1.1.1.4.2 alnsn else {
2147 1.1.1.1.4.2 alnsn /* Since we leave, we do not need to update the R_BEST_BEGIN. */
2148 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_begin), SLJIT_IMM, 0);
2149 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_end), R_CURR_INDEX, 0);
2150 1.1.1.1.4.2 alnsn if (compiler_common.flags & REGEX_ID_CHECK) {
2151 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, best_id), SLJIT_MEM1(R_CURR_STATE), TERM_REL_OFFSET_OF(0, 2));
2152 1.1.1.1.4.2 alnsn }
2153 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, fast_quit), SLJIT_IMM, 1);
2154 1.1.1.1.4.2 alnsn EMIT_JUMP(non_greedy_end_jump, SLJIT_JUMP);
2155 1.1.1.1.4.2 alnsn }
2156 1.1.1.1.4.2 alnsn }
2157 1.1.1.1.4.2 alnsn
2158 1.1.1.1.4.2 alnsn /* Finish check. */
2159 1.1.1.1.4.2 alnsn if (best_match_check_jump) {
2160 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2161 1.1.1.1.4.2 alnsn sljit_set_label(best_match_check_jump, label);
2162 1.1.1.1.4.2 alnsn
2163 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_BEGIN)) {
2164 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_NOT_EQUAL, R_NEXT_HEAD, 0, SLJIT_IMM, 0);
2165 1.1.1.1.4.2 alnsn sljit_set_label(jump, start_label);
2166 1.1.1.1.4.2 alnsn }
2167 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, fast_quit), SLJIT_IMM, 1);
2168 1.1.1.1.4.2 alnsn }
2169 1.1.1.1.4.2 alnsn
2170 1.1.1.1.4.2 alnsn /* Leaving matching and storing the necessary values. */
2171 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2172 1.1.1.1.4.2 alnsn sljit_set_label(length_is_zero_jump, label);
2173 1.1.1.1.4.2 alnsn if (non_greedy_end_jump)
2174 1.1.1.1.4.2 alnsn sljit_set_label(non_greedy_end_jump, label);
2175 1.1.1.1.4.2 alnsn
2176 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, index), R_CURR_INDEX, 0);
2177 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, head), R_NEXT_HEAD, 0);
2178 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, next), R_NEXT_STATE, 0);
2179 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_REGEX_MATCH), SLJIT_OFFSETOF(struct regex_match, current), R_CURR_STATE, 0);
2180 1.1.1.1.4.2 alnsn
2181 1.1.1.1.4.2 alnsn /* Exit from JIT. */
2182 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2183 1.1.1.1.4.2 alnsn sljit_set_label(best_match_found_jump, label);
2184 1.1.1.1.4.2 alnsn if (fast_forward_jump)
2185 1.1.1.1.4.2 alnsn sljit_set_label(fast_forward_jump, label);
2186 1.1.1.1.4.2 alnsn CHECK(sljit_emit_return(compiler_common.compiler, SLJIT_UNUSED, 0, 0));
2187 1.1.1.1.4.2 alnsn
2188 1.1.1.1.4.2 alnsn ind = 1;
2189 1.1.1.1.4.2 alnsn while (ind < compiler_common.dfa_size - 1) {
2190 1.1.1.1.4.2 alnsn if (compiler_common.search_states[ind].type >= 0) {
2191 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common.search_states[ind].type < compiler_common.terms_size);
2192 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2193 1.1.1.1.4.2 alnsn compiler_common.machine->entry_addrs[compiler_common.search_states[ind].type] = (sljit_uw)label;
2194 1.1.1.1.4.2 alnsn
2195 1.1.1.1.4.2 alnsn if (compiler_common.dfa_transitions[ind].type == type_char) {
2196 1.1.1.1.4.2 alnsn EMIT_CMP(jump, SLJIT_C_NOT_EQUAL, R_CURR_CHAR, 0, SLJIT_IMM, compiler_common.dfa_transitions[ind].value);
2197 1.1.1.1.4.2 alnsn }
2198 1.1.1.1.4.2 alnsn else if (compiler_common.dfa_transitions[ind].type == type_rng_start) {
2199 1.1.1.1.4.2 alnsn ind = compile_range_check(&compiler_common, ind);
2200 1.1.1.1.4.2 alnsn CHECK(!ind);
2201 1.1.1.1.4.2 alnsn }
2202 1.1.1.1.4.2 alnsn else {
2203 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common.dfa_transitions[ind].type == type_newline);
2204 1.1.1.1.4.2 alnsn CHECK(compile_newline_check(&compiler_common, ind));
2205 1.1.1.1.4.2 alnsn }
2206 1.1.1.1.4.2 alnsn
2207 1.1.1.1.4.2 alnsn CHECK(trace_transitions(ind, &compiler_common));
2208 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
2209 1.1.1.1.4.2 alnsn if (compiler_common.flags & REGEX_MATCH_VERBOSE)
2210 1.1.1.1.4.2 alnsn printf("(%3d): ", compiler_common.search_states[ind].type);
2211 1.1.1.1.4.2 alnsn #endif
2212 1.1.1.1.4.2 alnsn CHECK(compile_cond_tran(&compiler_common, compiler_common.search_states[ind].type));
2213 1.1.1.1.4.2 alnsn
2214 1.1.1.1.4.2 alnsn if (compiler_common.dfa_transitions[ind].type == type_char) {
2215 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2216 1.1.1.1.4.2 alnsn sljit_set_label(jump, label);
2217 1.1.1.1.4.2 alnsn }
2218 1.1.1.1.4.2 alnsn else if (compiler_common.dfa_transitions[ind].type == type_rng_end) {
2219 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2220 1.1.1.1.4.2 alnsn range_set_label(compiler_common.range_jump_list, label);
2221 1.1.1.1.4.2 alnsn }
2222 1.1.1.1.4.2 alnsn else {
2223 1.1.1.1.4.2 alnsn SLJIT_ASSERT(compiler_common.dfa_transitions[ind].type == type_newline);
2224 1.1.1.1.4.2 alnsn }
2225 1.1.1.1.4.2 alnsn
2226 1.1.1.1.4.2 alnsn /* Branch to the next item in the list. */
2227 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(compiler_common.search_states[ind].type, 1));
2228 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(R_CURR_STATE), TERM_OFFSET_OF(compiler_common.search_states[ind].type, 1), SLJIT_IMM, -1);
2229 1.1.1.1.4.2 alnsn CHECK(sljit_emit_ijump(compiler_common.compiler, SLJIT_JUMP, SLJIT_MEM2(R_CURR_STATE, R_TEMP), 0));
2230 1.1.1.1.4.2 alnsn }
2231 1.1.1.1.4.2 alnsn ind++;
2232 1.1.1.1.4.2 alnsn }
2233 1.1.1.1.4.2 alnsn
2234 1.1.1.1.4.2 alnsn if (ind == compiler_common.dfa_size - 1) {
2235 1.1.1.1.4.2 alnsn /* Generate an init stub function. */
2236 1.1.1.1.4.2 alnsn EMIT_LABEL(label);
2237 1.1.1.1.4.2 alnsn CHECK(sljit_emit_enter(compiler_common.compiler, 2, 3, 3, 0));
2238 1.1.1.1.4.2 alnsn
2239 1.1.1.1.4.2 alnsn if (empty_match_id == -1) {
2240 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(SLJIT_SAVED_REG2), SLJIT_OFFSETOF(struct regex_match, best_begin), SLJIT_IMM, -1);
2241 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(SLJIT_SAVED_REG2), SLJIT_OFFSETOF(struct regex_match, best_id), SLJIT_IMM, 0);
2242 1.1.1.1.4.2 alnsn }
2243 1.1.1.1.4.2 alnsn else {
2244 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(SLJIT_SAVED_REG2), SLJIT_OFFSETOF(struct regex_match, best_begin), SLJIT_IMM, 0);
2245 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(SLJIT_SAVED_REG2), SLJIT_OFFSETOF(struct regex_match, best_id), SLJIT_IMM, empty_match_id);
2246 1.1.1.1.4.2 alnsn }
2247 1.1.1.1.4.2 alnsn
2248 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, SLJIT_MEM1(SLJIT_SAVED_REG2), SLJIT_OFFSETOF(struct regex_match, index), SLJIT_IMM, !(compiler_common.flags & REGEX_FAKE_MATCH_BEGIN) ? 1 : 2);
2249 1.1.1.1.4.2 alnsn
2250 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_NON_GREEDY) || empty_match_id == -1) {
2251 1.1.1.1.4.2 alnsn /* The else is a really rare event, so we still generate an empty function instead of a runtime pointer check. */
2252 1.1.1.1.4.2 alnsn SLJIT_ASSERT(R_CURR_STATE == SLJIT_SAVED_REG1);
2253 1.1.1.1.4.2 alnsn if (!(compiler_common.flags & REGEX_MATCH_BEGIN)) {
2254 1.1.1.1.4.2 alnsn /* R_CURR_INDEX (put to R_TEMP) is zero. */
2255 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_TEMP, 0, SLJIT_IMM, 0);
2256 1.1.1.1.4.2 alnsn }
2257 1.1.1.1.4.2 alnsn CHECK(compile_uncond_tran(&compiler_common, R_CURR_STATE));
2258 1.1.1.1.4.2 alnsn }
2259 1.1.1.1.4.2 alnsn else {
2260 1.1.1.1.4.2 alnsn EMIT_OP1(SLJIT_MOV, R_NEXT_HEAD, 0, SLJIT_IMM, 0);
2261 1.1.1.1.4.2 alnsn }
2262 1.1.1.1.4.2 alnsn CHECK(sljit_emit_return(compiler_common.compiler, SLJIT_MOV, R_NEXT_HEAD, 0));
2263 1.1.1.1.4.2 alnsn
2264 1.1.1.1.4.2 alnsn compiler_common.machine->continue_match = sljit_generate_code(compiler_common.compiler);
2265 1.1.1.1.4.2 alnsn #ifndef SLJIT_INDIRECT_CALL
2266 1.1.1.1.4.2 alnsn compiler_common.machine->u.init_match = (void*)(sljit_w)sljit_get_label_addr(label);
2267 1.1.1.1.4.2 alnsn #else
2268 1.1.1.1.4.2 alnsn sljit_set_function_context(&compiler_common.machine->u.init_match, &compiler_common.machine->context, sljit_get_label_addr(label), regex_compile);
2269 1.1.1.1.4.2 alnsn #endif
2270 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
2271 1.1.1.1.4.2 alnsn if (compiler_common.flags & REGEX_MATCH_VERBOSE)
2272 1.1.1.1.4.2 alnsn printf("Continue match: %p Init match: %p\n\n", compiler_common.machine->continue_match, compiler_common.machine->u.init_match);
2273 1.1.1.1.4.2 alnsn #endif
2274 1.1.1.1.4.2 alnsn if (compiler_common.machine->continue_match) {
2275 1.1.1.1.4.2 alnsn for (ind = 0; ind < compiler_common.terms_size; ++ind)
2276 1.1.1.1.4.2 alnsn compiler_common.machine->entry_addrs[ind] = sljit_get_label_addr((struct sljit_label*)compiler_common.machine->entry_addrs[ind]);
2277 1.1.1.1.4.2 alnsn done = 1;
2278 1.1.1.1.4.2 alnsn }
2279 1.1.1.1.4.2 alnsn }
2280 1.1.1.1.4.2 alnsn END_GUARD
2281 1.1.1.1.4.2 alnsn
2282 1.1.1.1.4.2 alnsn stack_destroy(&compiler_common.stack);
2283 1.1.1.1.4.2 alnsn stack_destroy(&compiler_common.depth);
2284 1.1.1.1.4.2 alnsn SLJIT_FREE(compiler_common.dfa_transitions);
2285 1.1.1.1.4.2 alnsn SLJIT_FREE(compiler_common.search_states);
2286 1.1.1.1.4.2 alnsn if (compiler_common.range_jump_list)
2287 1.1.1.1.4.2 alnsn SLJIT_FREE(compiler_common.range_jump_list);
2288 1.1.1.1.4.2 alnsn if (compiler_common.compiler)
2289 1.1.1.1.4.2 alnsn sljit_free_compiler(compiler_common.compiler);
2290 1.1.1.1.4.2 alnsn if (done)
2291 1.1.1.1.4.2 alnsn return compiler_common.machine;
2292 1.1.1.1.4.2 alnsn
2293 1.1.1.1.4.2 alnsn if (compiler_common.machine) {
2294 1.1.1.1.4.2 alnsn SLJIT_FREE(compiler_common.machine);
2295 1.1.1.1.4.2 alnsn }
2296 1.1.1.1.4.2 alnsn if (error)
2297 1.1.1.1.4.2 alnsn *error = REGEX_MEMORY_ERROR;
2298 1.1.1.1.4.2 alnsn return NULL;
2299 1.1.1.1.4.2 alnsn }
2300 1.1.1.1.4.2 alnsn
2301 1.1.1.1.4.2 alnsn #undef TERM_OFFSET_OF
2302 1.1.1.1.4.2 alnsn #undef EMIT_OP1
2303 1.1.1.1.4.2 alnsn #undef EMIT_OP2
2304 1.1.1.1.4.2 alnsn #undef EMIT_LABEL
2305 1.1.1.1.4.2 alnsn #undef EMIT_JUMP
2306 1.1.1.1.4.2 alnsn #undef EMIT_CMP
2307 1.1.1.1.4.2 alnsn #undef BEGIN_GUARD
2308 1.1.1.1.4.2 alnsn #undef END_GUARD
2309 1.1.1.1.4.2 alnsn #undef CHECK
2310 1.1.1.1.4.2 alnsn
2311 1.1.1.1.4.2 alnsn void regex_free_machine(struct regex_machine *machine)
2312 1.1.1.1.4.2 alnsn {
2313 1.1.1.1.4.2 alnsn sljit_free_code(machine->continue_match);
2314 1.1.1.1.4.2 alnsn SLJIT_FREE(machine);
2315 1.1.1.1.4.2 alnsn }
2316 1.1.1.1.4.2 alnsn
2317 1.1.1.1.4.2 alnsn const char* regex_get_platform_name(void)
2318 1.1.1.1.4.2 alnsn {
2319 1.1.1.1.4.2 alnsn return sljit_get_platform_name();
2320 1.1.1.1.4.2 alnsn }
2321 1.1.1.1.4.2 alnsn
2322 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
2323 1.1.1.1.4.2 alnsn /* Mathching utilities */
2324 1.1.1.1.4.2 alnsn /* --------------------------------------------------------------------- */
2325 1.1.1.1.4.2 alnsn
2326 1.1.1.1.4.2 alnsn struct regex_match* regex_begin_match(struct regex_machine *machine)
2327 1.1.1.1.4.2 alnsn {
2328 1.1.1.1.4.2 alnsn sljit_w *ptr1;
2329 1.1.1.1.4.2 alnsn sljit_w *ptr2;
2330 1.1.1.1.4.2 alnsn sljit_w *end;
2331 1.1.1.1.4.2 alnsn sljit_w *entry_addrs;
2332 1.1.1.1.4.2 alnsn
2333 1.1.1.1.4.2 alnsn struct regex_match *match = (struct regex_match*)SLJIT_MALLOC(sizeof(struct regex_match) + (machine->size * 2 - 1) * sizeof(sljit_w));
2334 1.1.1.1.4.2 alnsn if (!match)
2335 1.1.1.1.4.2 alnsn return NULL;
2336 1.1.1.1.4.2 alnsn
2337 1.1.1.1.4.2 alnsn ptr1 = match->states;
2338 1.1.1.1.4.2 alnsn ptr2 = match->states + machine->size;
2339 1.1.1.1.4.2 alnsn end = ptr2;
2340 1.1.1.1.4.2 alnsn entry_addrs = (sljit_w*)machine->entry_addrs;
2341 1.1.1.1.4.2 alnsn
2342 1.1.1.1.4.2 alnsn match->current = ptr1;
2343 1.1.1.1.4.2 alnsn match->next = ptr2;
2344 1.1.1.1.4.2 alnsn match->head = 0;
2345 1.1.1.1.4.2 alnsn match->machine = machine;
2346 1.1.1.1.4.2 alnsn
2347 1.1.1.1.4.2 alnsn /* Init machine states. */
2348 1.1.1.1.4.2 alnsn switch (machine->no_states) {
2349 1.1.1.1.4.2 alnsn case 2:
2350 1.1.1.1.4.2 alnsn while (ptr1 < end) {
2351 1.1.1.1.4.2 alnsn *ptr1++ = *entry_addrs;
2352 1.1.1.1.4.2 alnsn *ptr2++ = *entry_addrs++;
2353 1.1.1.1.4.2 alnsn *ptr1++ = -1;
2354 1.1.1.1.4.2 alnsn *ptr2++ = -1;
2355 1.1.1.1.4.2 alnsn }
2356 1.1.1.1.4.2 alnsn break;
2357 1.1.1.1.4.2 alnsn
2358 1.1.1.1.4.2 alnsn case 3:
2359 1.1.1.1.4.2 alnsn while (ptr1 < end) {
2360 1.1.1.1.4.2 alnsn *ptr1++ = *entry_addrs;
2361 1.1.1.1.4.2 alnsn *ptr2++ = *entry_addrs++;
2362 1.1.1.1.4.2 alnsn *ptr1++ = -1;
2363 1.1.1.1.4.2 alnsn *ptr2++ = -1;
2364 1.1.1.1.4.2 alnsn *ptr1++ = 0;
2365 1.1.1.1.4.2 alnsn *ptr2++ = 0;
2366 1.1.1.1.4.2 alnsn }
2367 1.1.1.1.4.2 alnsn break;
2368 1.1.1.1.4.2 alnsn
2369 1.1.1.1.4.2 alnsn case 4:
2370 1.1.1.1.4.2 alnsn while (ptr1 < end) {
2371 1.1.1.1.4.2 alnsn *ptr1++ = *entry_addrs;
2372 1.1.1.1.4.2 alnsn *ptr2++ = *entry_addrs++;
2373 1.1.1.1.4.2 alnsn *ptr1++ = -1;
2374 1.1.1.1.4.2 alnsn *ptr2++ = -1;
2375 1.1.1.1.4.2 alnsn *ptr1++ = 0;
2376 1.1.1.1.4.2 alnsn *ptr2++ = 0;
2377 1.1.1.1.4.2 alnsn *ptr1++ = 0;
2378 1.1.1.1.4.2 alnsn *ptr2++ = 0;
2379 1.1.1.1.4.2 alnsn }
2380 1.1.1.1.4.2 alnsn break;
2381 1.1.1.1.4.2 alnsn
2382 1.1.1.1.4.2 alnsn default:
2383 1.1.1.1.4.2 alnsn SLJIT_ASSERT_STOP();
2384 1.1.1.1.4.2 alnsn break;
2385 1.1.1.1.4.2 alnsn }
2386 1.1.1.1.4.2 alnsn
2387 1.1.1.1.4.2 alnsn SLJIT_ASSERT(ptr1 == end);
2388 1.1.1.1.4.2 alnsn
2389 1.1.1.1.4.2 alnsn match->u.continue_match = machine->continue_match;
2390 1.1.1.1.4.2 alnsn
2391 1.1.1.1.4.2 alnsn regex_reset_match(match);
2392 1.1.1.1.4.2 alnsn return match;
2393 1.1.1.1.4.2 alnsn }
2394 1.1.1.1.4.2 alnsn
2395 1.1.1.1.4.2 alnsn void regex_reset_match(struct regex_match *match)
2396 1.1.1.1.4.2 alnsn {
2397 1.1.1.1.4.2 alnsn struct regex_machine *machine = match->machine;
2398 1.1.1.1.4.2 alnsn sljit_w current, ind;
2399 1.1.1.1.4.2 alnsn sljit_w *current_ptr;
2400 1.1.1.1.4.2 alnsn
2401 1.1.1.1.4.2 alnsn match->best_end = 0;
2402 1.1.1.1.4.2 alnsn match->fast_quit = 0;
2403 1.1.1.1.4.2 alnsn match->fast_forward = 0;
2404 1.1.1.1.4.2 alnsn
2405 1.1.1.1.4.2 alnsn if (match->head != 0) {
2406 1.1.1.1.4.2 alnsn /* Clear the current state. */
2407 1.1.1.1.4.2 alnsn current = match->head;
2408 1.1.1.1.4.2 alnsn current_ptr = match->current;
2409 1.1.1.1.4.2 alnsn do {
2410 1.1.1.1.4.2 alnsn ind = (current / sizeof(sljit_w)) + 1;
2411 1.1.1.1.4.2 alnsn current = current_ptr[ind];
2412 1.1.1.1.4.2 alnsn current_ptr[ind] = -1;
2413 1.1.1.1.4.2 alnsn } while (current != 0);
2414 1.1.1.1.4.2 alnsn }
2415 1.1.1.1.4.2 alnsn match->head = machine->u.call_init(match->current, match);
2416 1.1.1.1.4.2 alnsn }
2417 1.1.1.1.4.2 alnsn
2418 1.1.1.1.4.2 alnsn void regex_free_match(struct regex_match *match)
2419 1.1.1.1.4.2 alnsn {
2420 1.1.1.1.4.2 alnsn SLJIT_FREE(match);
2421 1.1.1.1.4.2 alnsn }
2422 1.1.1.1.4.2 alnsn
2423 1.1.1.1.4.2 alnsn void regex_continue_match(struct regex_match *match, const regex_char_t *input_string, int length)
2424 1.1.1.1.4.2 alnsn {
2425 1.1.1.1.4.2 alnsn match->u.call_continue(match, input_string, length);
2426 1.1.1.1.4.2 alnsn }
2427 1.1.1.1.4.2 alnsn
2428 1.1.1.1.4.2 alnsn int regex_get_result(struct regex_match *match, int *end, int *id)
2429 1.1.1.1.4.2 alnsn {
2430 1.1.1.1.4.2 alnsn int flags = match->machine->flags;
2431 1.1.1.1.4.2 alnsn sljit_w no_states;
2432 1.1.1.1.4.2 alnsn
2433 1.1.1.1.4.2 alnsn *end = match->best_end;
2434 1.1.1.1.4.2 alnsn *id = match->best_id;
2435 1.1.1.1.4.2 alnsn if (!(flags & (REGEX_MATCH_END | REGEX_FAKE_MATCH_END)))
2436 1.1.1.1.4.2 alnsn return match->best_begin;
2437 1.1.1.1.4.2 alnsn
2438 1.1.1.1.4.2 alnsn if (flags & REGEX_FAKE_MATCH_END) {
2439 1.1.1.1.4.2 alnsn SLJIT_ASSERT(!(flags & (REGEX_MATCH_BEGIN | REGEX_MATCH_END)));
2440 1.1.1.1.4.2 alnsn if (match->best_begin != -1)
2441 1.1.1.1.4.2 alnsn return match->best_begin;
2442 1.1.1.1.4.2 alnsn
2443 1.1.1.1.4.2 alnsn no_states = match->machine->no_states;
2444 1.1.1.1.4.2 alnsn if (match->current[no_states + 1] == -1)
2445 1.1.1.1.4.2 alnsn return -1;
2446 1.1.1.1.4.2 alnsn if (flags & REGEX_ID_CHECK)
2447 1.1.1.1.4.2 alnsn *id = match->current[no_states + 3];
2448 1.1.1.1.4.2 alnsn if (!(flags & REGEX_FAKE_MATCH_BEGIN))
2449 1.1.1.1.4.2 alnsn *end = match->index - 1;
2450 1.1.1.1.4.2 alnsn else
2451 1.1.1.1.4.2 alnsn *end = match->index - 2;
2452 1.1.1.1.4.2 alnsn return match->current[no_states + 2];
2453 1.1.1.1.4.2 alnsn }
2454 1.1.1.1.4.2 alnsn else {
2455 1.1.1.1.4.2 alnsn /* Check the status of the last code. */
2456 1.1.1.1.4.2 alnsn if (!(flags & REGEX_MATCH_BEGIN)) {
2457 1.1.1.1.4.2 alnsn /* No shortcut in this case. */
2458 1.1.1.1.4.2 alnsn if (!(flags & REGEX_ID_CHECK)) {
2459 1.1.1.1.4.2 alnsn if (match->current[1] == -1)
2460 1.1.1.1.4.2 alnsn return -1;
2461 1.1.1.1.4.2 alnsn *end = match->index - 1;
2462 1.1.1.1.4.2 alnsn return match->current[2];
2463 1.1.1.1.4.2 alnsn }
2464 1.1.1.1.4.2 alnsn
2465 1.1.1.1.4.2 alnsn if (match->current[1] == -1)
2466 1.1.1.1.4.2 alnsn return -1;
2467 1.1.1.1.4.2 alnsn *end = match->index - 1;
2468 1.1.1.1.4.2 alnsn *id = match->current[3];
2469 1.1.1.1.4.2 alnsn return match->current[2];
2470 1.1.1.1.4.2 alnsn }
2471 1.1.1.1.4.2 alnsn
2472 1.1.1.1.4.2 alnsn /* Shortcut is possible in this case. */
2473 1.1.1.1.4.2 alnsn if (!(flags & REGEX_ID_CHECK)) {
2474 1.1.1.1.4.2 alnsn if (match->current[1] == -1 || match->head == -1)
2475 1.1.1.1.4.2 alnsn return -1;
2476 1.1.1.1.4.2 alnsn *end = match->index - 1;
2477 1.1.1.1.4.2 alnsn return 0;
2478 1.1.1.1.4.2 alnsn }
2479 1.1.1.1.4.2 alnsn
2480 1.1.1.1.4.2 alnsn if (match->current[1] == -1 || match->head == -1)
2481 1.1.1.1.4.2 alnsn return -1;
2482 1.1.1.1.4.2 alnsn *end = match->index - 1;
2483 1.1.1.1.4.2 alnsn *id = match->current[2];
2484 1.1.1.1.4.2 alnsn return 0;
2485 1.1.1.1.4.2 alnsn }
2486 1.1.1.1.4.2 alnsn }
2487 1.1.1.1.4.2 alnsn
2488 1.1.1.1.4.2 alnsn int regex_is_match_finished(struct regex_match *match)
2489 1.1.1.1.4.2 alnsn {
2490 1.1.1.1.4.2 alnsn return match->fast_quit;
2491 1.1.1.1.4.2 alnsn }
2492 1.1.1.1.4.2 alnsn
2493 1.1.1.1.4.2 alnsn #ifdef REGEX_MATCH_VERBOSE
2494 1.1.1.1.4.2 alnsn void regex_continue_match_debug(struct regex_match *match, const regex_char_t *input_string, int length)
2495 1.1.1.1.4.2 alnsn {
2496 1.1.1.1.4.2 alnsn sljit_w *ptr;
2497 1.1.1.1.4.2 alnsn sljit_w *end;
2498 1.1.1.1.4.2 alnsn sljit_w count;
2499 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
2500 1.1.1.1.4.2 alnsn sljit_w current;
2501 1.1.1.1.4.2 alnsn #endif
2502 1.1.1.1.4.2 alnsn sljit_w no_states = match->machine->no_states;
2503 1.1.1.1.4.2 alnsn sljit_w len = match->machine->size;
2504 1.1.1.1.4.2 alnsn
2505 1.1.1.1.4.2 alnsn while (length > 0) {
2506 1.1.1.1.4.2 alnsn match->u.call_continue(match, input_string, 1);
2507 1.1.1.1.4.2 alnsn
2508 1.1.1.1.4.2 alnsn if (match->fast_forward) {
2509 1.1.1.1.4.2 alnsn if (match->machine->flags & REGEX_MATCH_VERBOSE)
2510 1.1.1.1.4.2 alnsn printf("fast forward\n");
2511 1.1.1.1.4.2 alnsn }
2512 1.1.1.1.4.2 alnsn
2513 1.1.1.1.4.2 alnsn /* Verbose (first). */
2514 1.1.1.1.4.2 alnsn if (match->machine->flags & REGEX_MATCH_VERBOSE) {
2515 1.1.1.1.4.2 alnsn ptr = match->current;
2516 1.1.1.1.4.2 alnsn end = ptr + len;
2517 1.1.1.1.4.2 alnsn count = 0;
2518 1.1.1.1.4.2 alnsn printf("'%c' (%3ld->%3ld [%3ld]) ", *input_string, (long)match->best_begin, (long)match->best_end, (long)match->best_id);
2519 1.1.1.1.4.2 alnsn while (ptr < end) {
2520 1.1.1.1.4.2 alnsn printf("[%3ld:", (long)count++);
2521 1.1.1.1.4.2 alnsn switch (no_states) {
2522 1.1.1.1.4.2 alnsn case 2:
2523 1.1.1.1.4.2 alnsn if (ptr[1] != -1)
2524 1.1.1.1.4.2 alnsn printf("+] ");
2525 1.1.1.1.4.2 alnsn else
2526 1.1.1.1.4.2 alnsn printf(" ] ");
2527 1.1.1.1.4.2 alnsn break;
2528 1.1.1.1.4.2 alnsn
2529 1.1.1.1.4.2 alnsn case 3:
2530 1.1.1.1.4.2 alnsn if (ptr[1] != -1)
2531 1.1.1.1.4.2 alnsn printf("+,%3ld] ", (long)ptr[2]);
2532 1.1.1.1.4.2 alnsn else
2533 1.1.1.1.4.2 alnsn printf(" ,XXX] ");
2534 1.1.1.1.4.2 alnsn break;
2535 1.1.1.1.4.2 alnsn
2536 1.1.1.1.4.2 alnsn case 4:
2537 1.1.1.1.4.2 alnsn if (ptr[1] != -1)
2538 1.1.1.1.4.2 alnsn printf("+,%3ld,%3ld] ", (long)ptr[2], (long)ptr[3]);
2539 1.1.1.1.4.2 alnsn else
2540 1.1.1.1.4.2 alnsn printf(" ,XXX,XXX] ");
2541 1.1.1.1.4.2 alnsn break;
2542 1.1.1.1.4.2 alnsn }
2543 1.1.1.1.4.2 alnsn ptr += no_states;
2544 1.1.1.1.4.2 alnsn }
2545 1.1.1.1.4.2 alnsn printf("\n");
2546 1.1.1.1.4.2 alnsn }
2547 1.1.1.1.4.2 alnsn
2548 1.1.1.1.4.2 alnsn #if (defined SLJIT_DEBUG && SLJIT_DEBUG)
2549 1.1.1.1.4.2 alnsn /* Sanity check (later). */
2550 1.1.1.1.4.2 alnsn ptr = match->next;
2551 1.1.1.1.4.2 alnsn end = ptr + len;
2552 1.1.1.1.4.2 alnsn while (ptr < end) {
2553 1.1.1.1.4.2 alnsn SLJIT_ASSERT(ptr[1] == -1);
2554 1.1.1.1.4.2 alnsn ptr += no_states;
2555 1.1.1.1.4.2 alnsn }
2556 1.1.1.1.4.2 alnsn
2557 1.1.1.1.4.2 alnsn /* Check number of active elements. */
2558 1.1.1.1.4.2 alnsn ptr = match->current + no_states;
2559 1.1.1.1.4.2 alnsn end = ptr + len - no_states;
2560 1.1.1.1.4.2 alnsn count = 0;
2561 1.1.1.1.4.2 alnsn while (ptr < end) {
2562 1.1.1.1.4.2 alnsn if (ptr[1] != -1)
2563 1.1.1.1.4.2 alnsn count++;
2564 1.1.1.1.4.2 alnsn ptr += no_states;
2565 1.1.1.1.4.2 alnsn }
2566 1.1.1.1.4.2 alnsn
2567 1.1.1.1.4.2 alnsn /* Check chain list. */
2568 1.1.1.1.4.2 alnsn current = match->head;
2569 1.1.1.1.4.2 alnsn ptr = match->current;
2570 1.1.1.1.4.2 alnsn while (current != 0) {
2571 1.1.1.1.4.2 alnsn SLJIT_ASSERT(current >= 0 && current < len * sizeof(sljit_w));
2572 1.1.1.1.4.2 alnsn SLJIT_ASSERT((current % (no_states * sizeof(sljit_w))) == 0);
2573 1.1.1.1.4.2 alnsn SLJIT_ASSERT(count > 0);
2574 1.1.1.1.4.2 alnsn current = ptr[(current / sizeof(sljit_w)) + 1];
2575 1.1.1.1.4.2 alnsn count--;
2576 1.1.1.1.4.2 alnsn }
2577 1.1.1.1.4.2 alnsn SLJIT_ASSERT(count == 0);
2578 1.1.1.1.4.2 alnsn #endif
2579 1.1.1.1.4.2 alnsn
2580 1.1.1.1.4.2 alnsn if (match->fast_quit) {
2581 1.1.1.1.4.2 alnsn /* the machine has stopped working. */
2582 1.1.1.1.4.2 alnsn if (match->machine->flags & REGEX_MATCH_VERBOSE)
2583 1.1.1.1.4.2 alnsn printf("Best match has found\n");
2584 1.1.1.1.4.2 alnsn break;
2585 1.1.1.1.4.2 alnsn }
2586 1.1.1.1.4.2 alnsn
2587 1.1.1.1.4.2 alnsn input_string++;
2588 1.1.1.1.4.2 alnsn length--;
2589 1.1.1.1.4.2 alnsn }
2590 1.1.1.1.4.2 alnsn }
2591 1.1.1.1.4.2 alnsn #endif
2592