mpn/ia64/mul_2.asm

    1.1  mrg dnl  IA-64 mpn_mul_2 -- Multiply a n-limb number with a 2-limb number and store
    1.1  mrg dnl  store the result to a (n+1)-limb number.
    1.1  mrg
1.1.1.2  mrg dnl  Contributed to the GNU project by Torbjorn Granlund.
1.1.1.2  mrg
1.1.1.2  mrg dnl  Copyright 2004, 2011 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg dnl  This file is part of the GNU MP Library.
    1.1  mrg
    1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
    1.1  mrg dnl  it under the terms of the GNU Lesser General Public License as published
    1.1  mrg dnl  by the Free Software Foundation; either version 3 of the License, or (at
    1.1  mrg dnl  your option) any later version.
    1.1  mrg
    1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
    1.1  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
    1.1  mrg dnl  License for more details.
    1.1  mrg
    1.1  mrg dnl  You should have received a copy of the GNU Lesser General Public License
    1.1  mrg dnl  along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.
    1.1  mrg
    1.1  mrg include(`../config.m4')
    1.1  mrg
    1.1  mrg C         cycles/limb
1.1.1.2  mrg C Itanium:    ?
1.1.1.2  mrg C Itanium 2:  1.5
    1.1  mrg
    1.1  mrg C TODO
    1.1  mrg C  * Clean up variable names, and try to decrease the number of distinct
    1.1  mrg C    registers used.
1.1.1.2  mrg C  * Clean up feed-in code to not require zeroing several registers.
    1.1  mrg C  * Make sure we don't depend on uninitialized predicate registers.
    1.1  mrg C  * Could perhaps save a few cycles by using 1 c/l carry propagation in
    1.1  mrg C    wind-down code.
    1.1  mrg C  * Ultimately rewrite.  The problem with this code is that it first uses a
    1.1  mrg C    loaded u value in one xma pair, then leaves it live over several unrelated
    1.1  mrg C    xma pairs, before it uses it again.  It should actually be quite possible
    1.1  mrg C    to just swap some aligned xma pairs around.  But we should then schedule
    1.1  mrg C    u loads further from the first use.
    1.1  mrg
    1.1  mrg C INPUT PARAMETERS
    1.1  mrg define(`rp',`r32')
    1.1  mrg define(`up',`r33')
    1.1  mrg define(`n',`r34')
    1.1  mrg define(`vp',`r35')
    1.1  mrg
    1.1  mrg define(`srp',`r3')
    1.1  mrg
    1.1  mrg define(`v0',`f6')
    1.1  mrg define(`v1',`f7')
    1.1  mrg
    1.1  mrg define(`s0',`r14')
    1.1  mrg define(`acc0',`r15')
    1.1  mrg
    1.1  mrg define(`pr0_0',`r16') define(`pr0_1',`r17')
    1.1  mrg define(`pr0_2',`r18') define(`pr0_3',`r19')
    1.1  mrg
    1.1  mrg define(`pr1_0',`r20') define(`pr1_1',`r21')
    1.1  mrg define(`pr1_2',`r22') define(`pr1_3',`r23')
    1.1  mrg
    1.1  mrg define(`acc1_0',`r24') define(`acc1_1',`r25')
    1.1  mrg define(`acc1_2',`r26') define(`acc1_3',`r27')
    1.1  mrg
    1.1  mrg dnl define(`',`r28')
    1.1  mrg dnl define(`',`r29')
    1.1  mrg dnl define(`',`r30')
    1.1  mrg dnl define(`',`r31')
    1.1  mrg
    1.1  mrg define(`fp0b_0',`f8') define(`fp0b_1',`f9')
    1.1  mrg define(`fp0b_2',`f10') define(`fp0b_3',`f11')
    1.1  mrg
    1.1  mrg define(`fp1a_0',`f12') define(`fp1a_1',`f13')
    1.1  mrg define(`fp1a_2',`f14') define(`fp1a_3',`f15')
    1.1  mrg
    1.1  mrg define(`fp1b_0',`f32') define(`fp1b_1',`f33')
    1.1  mrg define(`fp1b_2',`f34') define(`fp1b_3',`f35')
    1.1  mrg
    1.1  mrg define(`fp2a_0',`f36') define(`fp2a_1',`f37')
    1.1  mrg define(`fp2a_2',`f38') define(`fp2a_3',`f39')
    1.1  mrg
    1.1  mrg define(`u_0',`f44') define(`u_1',`f45')
    1.1  mrg define(`u_2',`f46') define(`u_3',`f47')
    1.1  mrg
    1.1  mrg define(`ux',`f49')
    1.1  mrg define(`uy',`f51')
    1.1  mrg
    1.1  mrg ASM_START()
    1.1  mrg PROLOGUE(mpn_mul_2)
    1.1  mrg 	.prologue
    1.1  mrg 	.save	ar.lc, r2
    1.1  mrg 	.body
    1.1  mrg
1.1.1.2  mrg ifdef(`HAVE_ABI_32',`
1.1.1.2  mrg .mmi;		addp4	rp = 0, rp		C			M I
1.1.1.2  mrg 		addp4	up = 0, up		C			M I
1.1.1.2  mrg 		addp4	vp = 0, vp		C			M I
1.1.1.2  mrg .mmi;		nop	1
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg 		zxt4	n = n			C			I
    1.1  mrg 	;;')
    1.1  mrg
1.1.1.2  mrg .mmi;		ldf8	ux = [up], 8		C			M
1.1.1.2  mrg 		ldf8	v0 = [vp], 8		C			M
1.1.1.2  mrg 		mov	r2 = ar.lc		C			I0
1.1.1.2  mrg .mmi;		nop	1			C			M
1.1.1.2  mrg 		and	r14 = 3, n		C			M I
1.1.1.2  mrg 		add	n = -2, n		C			M I
1.1.1.2  mrg 	;;
1.1.1.2  mrg .mmi;		ldf8	uy = [up], 8		C			M
1.1.1.2  mrg 		ldf8	v1 = [vp]		C			M
1.1.1.2  mrg 		shr.u	n = n, 2		C			I
1.1.1.2  mrg .mmi;		nop	1			C			M
1.1.1.2  mrg 		cmp.eq	p10, p0 = 1, r14	C			M I
1.1.1.2  mrg 		cmp.eq	p11, p0 = 2, r14	C			M I
1.1.1.2  mrg 	;;
1.1.1.2  mrg .mmi;		nop	1			C			M
1.1.1.2  mrg 		cmp.eq	p12, p0 = 3, r14	C			M I
1.1.1.2  mrg 		mov	ar.lc = n		C			I0
1.1.1.2  mrg .bbb;	(p10)	br.dptk	L(b01)			C			B
1.1.1.2  mrg 	(p11)	br.dptk	L(b10)			C			B
1.1.1.2  mrg 	(p12)	br.dptk	L(b11)			C			B
    1.1  mrg 	;;
    1.1  mrg
    1.1  mrg 	ALIGN(32)
1.1.1.2  mrg L(b00):		ldf8	u_1 = [up], 8
1.1.1.2  mrg 		mov	acc1_2 = 0
1.1.1.2  mrg 		mov	pr1_2 = 0
1.1.1.2  mrg 		mov	pr0_3 = 0
1.1.1.2  mrg 		cmp.ne	p8, p9 = r0, r0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_3 = ux, v0, f0
1.1.1.2  mrg 		cmp.ne	p12, p13 = r0, r0
1.1.1.2  mrg 		ldf8	u_2 = [up], 8
1.1.1.2  mrg 		xma.hu	fp1a_3 = ux, v0, f0
1.1.1.2  mrg 		br.cloop.dptk	L(gt4)
1.1.1.2  mrg
1.1.1.2  mrg 		xma.l	fp0b_0 = uy, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_0 = uy, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc0 = fp0b_3
1.1.1.2  mrg 		xma.l	fp1b_3 = ux, v1, fp1a_3
1.1.1.2  mrg 		xma.hu	fp2a_3 = ux, v1, fp1a_3
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_1 = u_1, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_1 = u_1, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr0_0 = fp0b_0
1.1.1.2  mrg 		xma.l	fp1b_0 = uy, v1, fp1a_0
1.1.1.2  mrg 		xma.hu	fp2a_0 = uy, v1, fp1a_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr1_3 = fp1b_3
1.1.1.2  mrg 		getfsig	acc1_3 = fp2a_3
1.1.1.2  mrg 		xma.l	fp0b_2 = u_2, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_2 = u_2, v0, f0
1.1.1.2  mrg 		br	L(cj4)
1.1.1.2  mrg
1.1.1.2  mrg L(gt4):		xma.l	fp0b_0 = uy, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_0 = uy, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc0 = fp0b_3
1.1.1.2  mrg 		xma.l	fp1b_3 = ux, v1, fp1a_3
1.1.1.2  mrg 		ldf8	u_3 = [up], 8
1.1.1.2  mrg 		xma.hu	fp2a_3 = ux, v1, fp1a_3
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_1 = u_1, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_1 = u_1, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr0_0 = fp0b_0
1.1.1.2  mrg 		xma.l	fp1b_0 = uy, v1, fp1a_0
1.1.1.2  mrg 		xma.hu	fp2a_0 = uy, v1, fp1a_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		ldf8	u_0 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_3 = fp1b_3
1.1.1.2  mrg 		xma.l	fp0b_2 = u_2, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc1_3 = fp2a_3
1.1.1.2  mrg 		xma.hu	fp1a_2 = u_2, v0, f0
1.1.1.2  mrg 		br	L(00)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	ALIGN(32)
1.1.1.2  mrg L(b01):		ldf8	u_0 = [up], 8		C M
1.1.1.2  mrg 		mov	acc1_1 = 0		C M I
1.1.1.2  mrg 		mov	pr1_1 = 0		C M I
1.1.1.2  mrg 		mov	pr0_2 = 0		C M I
1.1.1.2  mrg 		cmp.ne	p6, p7 = r0, r0		C M I
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_2 = ux, v0, f0	C F
1.1.1.2  mrg 		cmp.ne	p10, p11 = r0, r0	C M I
1.1.1.2  mrg 		ldf8	u_1 = [up], 8		C M
1.1.1.2  mrg 		xma.hu	fp1a_2 = ux, v0, f0	C F
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_3 = uy, v0, f0	C F
1.1.1.2  mrg 		xma.hu	fp1a_3 = uy, v0, f0	C F
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc0 = fp0b_2		C M
1.1.1.2  mrg 		xma.l	fp1b_2 = ux, v1,fp1a_2	C F
1.1.1.2  mrg 		ldf8	u_2 = [up], 8		C M
1.1.1.2  mrg 		xma.hu	fp2a_2 = ux, v1,fp1a_2	C F
1.1.1.2  mrg 		br.cloop.dptk	L(gt5)
1.1.1.2  mrg
1.1.1.2  mrg 		xma.l	fp0b_0 = u_0, v0, f0	C F
1.1.1.2  mrg 		xma.hu	fp1a_0 = u_0, v0, f0	C F
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr0_3 = fp0b_3		C M
1.1.1.2  mrg 		xma.l	fp1b_3 = uy, v1,fp1a_3	C F
1.1.1.2  mrg 		xma.hu	fp2a_3 = uy, v1,fp1a_3	C F
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr1_2 = fp1b_2		C M
1.1.1.2  mrg 		getfsig	acc1_2 = fp2a_2		C M
1.1.1.2  mrg 		xma.l	fp0b_1 = u_1, v0, f0	C F
1.1.1.2  mrg 		xma.hu	fp1a_1 = u_1, v0, f0	C F
1.1.1.2  mrg 		br	L(cj5)
1.1.1.2  mrg
1.1.1.2  mrg L(gt5):		xma.l	fp0b_0 = u_0, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_0 = u_0, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr0_3 = fp0b_3
1.1.1.2  mrg 		xma.l	fp1b_3 = uy, v1, fp1a_3
1.1.1.2  mrg 		xma.hu	fp2a_3 = uy, v1, fp1a_3
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		ldf8	u_3 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_2 = fp1b_2
1.1.1.2  mrg 		xma.l	fp0b_1 = u_1, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc1_2 = fp2a_2
1.1.1.2  mrg 		xma.hu	fp1a_1 = u_1, v0, f0
1.1.1.2  mrg 		br	L(01)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	ALIGN(32)
1.1.1.2  mrg L(b10):		br.cloop.dptk	L(gt2)
1.1.1.2  mrg 		xma.l	fp0b_1 = ux, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_1 = ux, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_2 = uy, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_2 = uy, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		stf8	[rp] = fp0b_1, 8
1.1.1.2  mrg 		xma.l	fp1b_1 = ux, v1, fp1a_1
1.1.1.2  mrg 		xma.hu	fp2a_1 = ux, v1, fp1a_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc0 = fp0b_2
1.1.1.2  mrg 		xma.l	fp1b_2 = uy, v1, fp1a_2
1.1.1.2  mrg 		xma.hu	fp2a_2 = uy, v1, fp1a_2
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr1_1 = fp1b_1
1.1.1.2  mrg 		getfsig	acc1_1 = fp2a_1
1.1.1.2  mrg 		mov	ar.lc = r2
1.1.1.2  mrg 		getfsig	pr1_2 = fp1b_2
1.1.1.2  mrg 		getfsig	r8 = fp2a_2
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		add	s0 = pr1_1, acc0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 		cmp.ltu	p8, p9 = s0, pr1_1
1.1.1.2  mrg 		sub	r31 = -1, acc1_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 	(p8)	add	acc0 = pr1_2, acc1_1, 1
1.1.1.2  mrg 	(p9)	add	acc0 = pr1_2, acc1_1
1.1.1.2  mrg 	(p8)	cmp.leu	p10, p0 = r31, pr1_2
1.1.1.2  mrg 	(p9)	cmp.ltu	p10, p0 = r31, pr1_2
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		st8	[rp] = acc0, 8
1.1.1.2  mrg 	(p10)	add	r8 = 1, r8
1.1.1.2  mrg 		br.ret.sptk.many b0
1.1.1.2  mrg
1.1.1.2  mrg L(gt2):		ldf8	u_3 = [up], 8
1.1.1.2  mrg 		mov	acc1_0 = 0
1.1.1.2  mrg 		mov	pr1_0 = 0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		mov	pr0_1 = 0
1.1.1.2  mrg 		xma.l	fp0b_1 = ux, v0, f0
1.1.1.2  mrg 		ldf8	u_0 = [up], 8
1.1.1.2  mrg 		xma.hu	fp1a_1 = ux, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_2 = uy, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_2 = uy, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc0 = fp0b_1
1.1.1.2  mrg 		xma.l	fp1b_1 = ux, v1, fp1a_1
1.1.1.2  mrg 		xma.hu	fp2a_1 = ux, v1, fp1a_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		ldf8	u_1 = [up], 8
1.1.1.2  mrg 		xma.l	fp0b_3 = u_3, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_3 = u_3, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr0_2 = fp0b_2
1.1.1.2  mrg 		xma.l	fp1b_2 = uy, v1, fp1a_2
1.1.1.2  mrg 		xma.hu	fp2a_2 = uy, v1, fp1a_2
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		ldf8	u_2 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_1 = fp1b_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg .mfi;		getfsig	acc1_1 = fp2a_1
1.1.1.2  mrg 		xma.l	fp0b_0 = u_0, v0, f0
1.1.1.2  mrg 		cmp.ne	p8, p9 = r0, r0
1.1.1.2  mrg .mfb;		cmp.ne	p12, p13 = r0, r0
1.1.1.2  mrg 		xma.hu	fp1a_0 = u_0, v0, f0
1.1.1.2  mrg 		br	L(10)
    1.1  mrg
    1.1  mrg
    1.1  mrg 	ALIGN(32)
1.1.1.2  mrg L(b11):		mov	acc1_3 = 0
1.1.1.2  mrg 		mov	pr1_3 = 0
1.1.1.2  mrg 		mov	pr0_0 = 0
1.1.1.2  mrg 		ldf8	u_2 = [up], 8
1.1.1.2  mrg 		cmp.ne	p6, p7 = r0, r0
1.1.1.2  mrg 		br.cloop.dptk	L(gt3)
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_0 = ux, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_0 = ux, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		cmp.ne	p10, p11 = r0, r0
1.1.1.2  mrg 		xma.l	fp0b_1 = uy, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_1 = uy, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc0 = fp0b_0
1.1.1.2  mrg 		xma.l	fp1b_0 = ux, v1, fp1a_0
1.1.1.2  mrg 		xma.hu	fp2a_0 = ux, v1, fp1a_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_2 = u_2, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_2 = u_2, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr0_1 = fp0b_1
1.1.1.2  mrg 		xma.l	fp1b_1 = uy, v1, fp1a_1
1.1.1.2  mrg 		xma.hu	fp2a_1 = uy, v1, fp1a_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr1_0 = fp1b_0
1.1.1.2  mrg 		getfsig	acc1_0 = fp2a_0
1.1.1.2  mrg 		br	L(cj3)
1.1.1.2  mrg
1.1.1.2  mrg L(gt3):		xma.l	fp0b_0 = ux, v0, f0
1.1.1.2  mrg 		cmp.ne	p10, p11 = r0, r0
1.1.1.2  mrg 		ldf8	u_3 = [up], 8
1.1.1.2  mrg 		xma.hu	fp1a_0 = ux, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_1 = uy, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_1 = uy, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc0 = fp0b_0
1.1.1.2  mrg 		xma.l	fp1b_0 = ux, v1, fp1a_0
1.1.1.2  mrg 		ldf8	u_0 = [up], 8
1.1.1.2  mrg 		xma.hu	fp2a_0 = ux, v1, fp1a_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		xma.l	fp0b_2 = u_2, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_2 = u_2, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	pr0_1 = fp0b_1
1.1.1.2  mrg 		xma.l	fp1b_1 = uy, v1, fp1a_1
1.1.1.2  mrg 		xma.hu	fp2a_1 = uy, v1, fp1a_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		ldf8	u_1 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_0 = fp1b_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		getfsig	acc1_0 = fp2a_0
1.1.1.2  mrg 		xma.l	fp0b_3 = u_3, v0, f0
1.1.1.2  mrg 		xma.hu	fp1a_3 = u_3, v0, f0
1.1.1.2  mrg 		br	L(11)
    1.1  mrg
    1.1  mrg
    1.1  mrg C *** MAIN LOOP START ***
    1.1  mrg 	ALIGN(32)
1.1.1.2  mrg L(top):						C 00
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg 		ldf8	u_3 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_2 = fp1b_2
1.1.1.2  mrg 	(p8)	cmp.leu	p6, p7 = acc0, pr0_1
1.1.1.2  mrg 	(p9)	cmp.ltu	p6, p7 = acc0, pr0_1
1.1.1.2  mrg 	(p12)	cmp.leu	p10, p11 = s0, pr1_0
1.1.1.2  mrg 	(p13)	cmp.ltu	p10, p11 = s0, pr1_0
    1.1  mrg 	;;					C 01
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg 		getfsig	acc1_2 = fp2a_2
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 		xma.l	fp0b_1 = u_1, v0, f0
1.1.1.2  mrg 	(p6)	add	acc0 = pr0_2, acc1_0, 1
1.1.1.2  mrg 	(p7)	add	acc0 = pr0_2, acc1_0
1.1.1.2  mrg 		xma.hu	fp1a_1 = u_1, v0, f0
    1.1  mrg 	;;					C 02
1.1.1.2  mrg L(01):
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg 		getfsig	pr0_0 = fp0b_0
1.1.1.2  mrg 		xma.l	fp1b_0 = u_0, v1, fp1a_0
1.1.1.2  mrg 	(p10)	add	s0 = pr1_1, acc0, 1
1.1.1.2  mrg 	(p11)	add	s0 = pr1_1, acc0
1.1.1.2  mrg 		xma.hu	fp2a_0 = u_0, v1, fp1a_0
1.1.1.2  mrg 		nop	1
    1.1  mrg 	;;					C 03
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg 		ldf8	u_0 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_3 = fp1b_3
1.1.1.2  mrg 	(p6)	cmp.leu	p8, p9 = acc0, pr0_2
1.1.1.2  mrg 	(p7)	cmp.ltu	p8, p9 = acc0, pr0_2
1.1.1.2  mrg 	(p10)	cmp.leu	p12, p13 = s0, pr1_1
1.1.1.2  mrg 	(p11)	cmp.ltu	p12, p13 = s0, pr1_1
    1.1  mrg 	;;					C 04
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 		getfsig	acc1_3 = fp2a_3
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 		xma.l	fp0b_2 = u_2, v0, f0
1.1.1.2  mrg 	(p8)	add	acc0 = pr0_3, acc1_1, 1
1.1.1.2  mrg 	(p9)	add	acc0 = pr0_3, acc1_1
1.1.1.2  mrg 		xma.hu	fp1a_2 = u_2, v0, f0
    1.1  mrg 	;;					C 05
1.1.1.2  mrg L(00):
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg 		getfsig	pr0_1 = fp0b_1
1.1.1.2  mrg 		xma.l	fp1b_1 = u_1, v1, fp1a_1
1.1.1.2  mrg 	(p12)	add	s0 = pr1_2, acc0, 1
1.1.1.2  mrg 	(p13)	add	s0 = pr1_2, acc0
1.1.1.2  mrg 		xma.hu	fp2a_1 = u_1, v1, fp1a_1
1.1.1.2  mrg 		nop	1
    1.1  mrg 	;;					C 06
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg 		ldf8	u_1 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_0 = fp1b_0
1.1.1.2  mrg 	(p8)	cmp.leu	p6, p7 = acc0, pr0_3
1.1.1.2  mrg 	(p9)	cmp.ltu	p6, p7 = acc0, pr0_3
1.1.1.2  mrg 	(p12)	cmp.leu	p10, p11 = s0, pr1_2
1.1.1.2  mrg 	(p13)	cmp.ltu	p10, p11 = s0, pr1_2
    1.1  mrg 	;;					C 07
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg 		getfsig	acc1_0 = fp2a_0
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 		xma.l	fp0b_3 = u_3, v0, f0
1.1.1.2  mrg 	(p6)	add	acc0 = pr0_0, acc1_2, 1
1.1.1.2  mrg 	(p7)	add	acc0 = pr0_0, acc1_2
1.1.1.2  mrg 		xma.hu	fp1a_3 = u_3, v0, f0
    1.1  mrg 	;;					C 08
1.1.1.2  mrg L(11):
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg 		getfsig	pr0_2 = fp0b_2
1.1.1.2  mrg 		xma.l	fp1b_2 = u_2, v1, fp1a_2
1.1.1.2  mrg 	(p10)	add	s0 = pr1_3, acc0, 1
1.1.1.2  mrg 	(p11)	add	s0 = pr1_3, acc0
1.1.1.2  mrg 		xma.hu	fp2a_2 = u_2, v1, fp1a_2
1.1.1.2  mrg 		nop	1
    1.1  mrg 	;;					C 09
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg 		ldf8	u_2 = [up], 8
1.1.1.2  mrg 		getfsig	pr1_1 = fp1b_1
1.1.1.2  mrg 	(p6)	cmp.leu	p8, p9 = acc0, pr0_0
1.1.1.2  mrg 	(p7)	cmp.ltu	p8, p9 = acc0, pr0_0
1.1.1.2  mrg 	(p10)	cmp.leu	p12, p13 = s0, pr1_3
1.1.1.2  mrg 	(p11)	cmp.ltu	p12, p13 = s0, pr1_3
    1.1  mrg 	;;					C 10
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 		getfsig	acc1_1 = fp2a_1
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 		xma.l	fp0b_0 = u_0, v0, f0
1.1.1.2  mrg 	(p8)	add	acc0 = pr0_1, acc1_3, 1
1.1.1.2  mrg 	(p9)	add	acc0 = pr0_1, acc1_3
1.1.1.2  mrg 		xma.hu	fp1a_0 = u_0, v0, f0
    1.1  mrg 	;;					C 11
1.1.1.2  mrg L(10):
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg 		getfsig	pr0_3 = fp0b_3
1.1.1.2  mrg 		xma.l	fp1b_3 = u_3, v1, fp1a_3
1.1.1.2  mrg 	(p12)	add	s0 = pr1_0, acc0, 1
1.1.1.2  mrg 	(p13)	add	s0 = pr1_0, acc0
1.1.1.2  mrg 		xma.hu	fp2a_3 = u_3, v1, fp1a_3
1.1.1.2  mrg 		br.cloop.dptk	L(top)
    1.1  mrg 	;;
    1.1  mrg C *** MAIN LOOP END ***
    1.1  mrg
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg .mmi;		getfsig	pr1_2 = fp1b_2
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 	(p8)	cmp.leu	p6, p7 = acc0, pr0_1
1.1.1.2  mrg .mmi;	(p9)	cmp.ltu	p6, p7 = acc0, pr0_1
1.1.1.2  mrg 	(p12)	cmp.leu	p10, p11 = s0, pr1_0
1.1.1.2  mrg 	(p13)	cmp.ltu	p10, p11 = s0, pr1_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg .mfi;		getfsig	acc1_2 = fp2a_2
1.1.1.2  mrg 		xma.l	fp0b_1 = u_1, v0, f0
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg .mmf;	(p6)	add	acc0 = pr0_2, acc1_0, 1
1.1.1.2  mrg 	(p7)	add	acc0 = pr0_2, acc1_0
1.1.1.2  mrg 		xma.hu	fp1a_1 = u_1, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg L(cj5):
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg .mfi;		getfsig	pr0_0 = fp0b_0
1.1.1.2  mrg 		xma.l	fp1b_0 = u_0, v1, fp1a_0
1.1.1.2  mrg 	(p10)	add	s0 = pr1_1, acc0, 1
1.1.1.2  mrg .mfi;	(p11)	add	s0 = pr1_1, acc0
1.1.1.2  mrg 		xma.hu	fp2a_0 = u_0, v1, fp1a_0
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg .mmi;		getfsig	pr1_3 = fp1b_3
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 	(p6)	cmp.leu	p8, p9 = acc0, pr0_2
1.1.1.2  mrg .mmi;	(p7)	cmp.ltu	p8, p9 = acc0, pr0_2
1.1.1.2  mrg 	(p10)	cmp.leu	p12, p13 = s0, pr1_1
1.1.1.2  mrg 	(p11)	cmp.ltu	p12, p13 = s0, pr1_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg .mfi;		getfsig	acc1_3 = fp2a_3
1.1.1.2  mrg 		xma.l	fp0b_2 = u_2, v0, f0
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg .mmf;	(p8)	add	acc0 = pr0_3, acc1_1, 1
1.1.1.2  mrg 	(p9)	add	acc0 = pr0_3, acc1_1
1.1.1.2  mrg 		xma.hu	fp1a_2 = u_2, v0, f0
1.1.1.2  mrg 	;;
1.1.1.2  mrg L(cj4):
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg .mfi;		getfsig	pr0_1 = fp0b_1
1.1.1.2  mrg 		xma.l	fp1b_1 = u_1, v1, fp1a_1
1.1.1.2  mrg 	(p12)	add	s0 = pr1_2, acc0, 1
1.1.1.2  mrg .mfi;	(p13)	add	s0 = pr1_2, acc0
1.1.1.2  mrg 		xma.hu	fp2a_1 = u_1, v1, fp1a_1
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg .mmi;		getfsig	pr1_0 = fp1b_0
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 	(p8)	cmp.leu	p6, p7 = acc0, pr0_3
1.1.1.2  mrg .mmi;	(p9)	cmp.ltu	p6, p7 = acc0, pr0_3
1.1.1.2  mrg 	(p12)	cmp.leu	p10, p11 = s0, pr1_2
1.1.1.2  mrg 	(p13)	cmp.ltu	p10, p11 = s0, pr1_2
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg .mmi;		getfsig	acc1_0 = fp2a_0
1.1.1.2  mrg 	(p6)	add	acc0 = pr0_0, acc1_2, 1
1.1.1.2  mrg 	(p7)	add	acc0 = pr0_0, acc1_2
1.1.1.2  mrg 	;;
1.1.1.2  mrg L(cj3):
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg .mfi;		getfsig	pr0_2 = fp0b_2
1.1.1.2  mrg 		xma.l	fp1b_2 = u_2, v1, fp1a_2
1.1.1.2  mrg 	(p10)	add	s0 = pr1_3, acc0, 1
1.1.1.2  mrg .mfi;	(p11)	add	s0 = pr1_3, acc0
1.1.1.2  mrg 		xma.hu	fp2a_2 = u_2, v1, fp1a_2
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg .mmi;		getfsig	pr1_1 = fp1b_1
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 	(p6)	cmp.leu	p8, p9 = acc0, pr0_0
1.1.1.2  mrg .mmi;	(p7)	cmp.ltu	p8, p9 = acc0, pr0_0
1.1.1.2  mrg 	(p10)	cmp.leu	p12, p13 = s0, pr1_3
1.1.1.2  mrg 	(p11)	cmp.ltu	p12, p13 = s0, pr1_3
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg .mmi;		getfsig	acc1_1 = fp2a_1
1.1.1.2  mrg 	(p8)	add	acc0 = pr0_1, acc1_3, 1
1.1.1.2  mrg 	(p9)	add	acc0 = pr0_1, acc1_3
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg .mmi;	(p12)	add	s0 = pr1_0, acc0, 1
1.1.1.2  mrg 	(p13)	add	s0 = pr1_0, acc0
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg 		.pred.rel "mutex", p12, p13
1.1.1.2  mrg .mmi;		getfsig	pr1_2 = fp1b_2
1.1.1.2  mrg 		st8	[rp] = s0, 8
1.1.1.2  mrg 	(p8)	cmp.leu	p6, p7 = acc0, pr0_1
1.1.1.2  mrg .mmi;	(p9)	cmp.ltu	p6, p7 = acc0, pr0_1
1.1.1.2  mrg 	(p12)	cmp.leu	p10, p11 = s0, pr1_0
1.1.1.2  mrg 	(p13)	cmp.ltu	p10, p11 = s0, pr1_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p6, p7
1.1.1.2  mrg .mmi;		getfsig	r8 = fp2a_2
1.1.1.2  mrg 	(p6)	add	acc0 = pr0_2, acc1_0, 1
1.1.1.2  mrg 	(p7)	add	acc0 = pr0_2, acc1_0
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg .mmi;	(p10)	add	s0 = pr1_1, acc0, 1
1.1.1.2  mrg 	(p11)	add	s0 = pr1_1, acc0
1.1.1.2  mrg 	(p6)	cmp.leu	p8, p9 = acc0, pr0_2
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p10, p11
1.1.1.2  mrg .mmi;	(p7)	cmp.ltu	p8, p9 = acc0, pr0_2
1.1.1.2  mrg 	(p10)	cmp.leu	p12, p13 = s0, pr1_1
1.1.1.2  mrg 	(p11)	cmp.ltu	p12, p13 = s0, pr1_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg .mmi;		st8	[rp] = s0, 8
1.1.1.2  mrg 	(p8)	add	acc0 = pr1_2, acc1_1, 1
1.1.1.2  mrg 	(p9)	add	acc0 = pr1_2, acc1_1
1.1.1.2  mrg 	;;
1.1.1.2  mrg 		.pred.rel "mutex", p8, p9
1.1.1.2  mrg .mmi;	(p8)	cmp.leu	p10, p11 = acc0, pr1_2
1.1.1.2  mrg 	(p9)	cmp.ltu	p10, p11 = acc0, pr1_2
1.1.1.2  mrg 	(p12)	add	acc0 = 1, acc0
1.1.1.2  mrg 	;;
1.1.1.2  mrg .mmi;		st8	[rp] = acc0, 8
1.1.1.2  mrg 	(p12)	cmpeqor	p10, p0 = 0, acc0
1.1.1.2  mrg 		nop	1
1.1.1.2  mrg 	;;
1.1.1.2  mrg .mib;	(p10)	add	r8 = 1, r8
1.1.1.2  mrg 		mov	ar.lc = r2
1.1.1.2  mrg 		br.ret.sptk.many b0
    1.1  mrg EPILOGUE()
    1.1  mrg ASM_END()