mpn/ia64/mul_2.asm

1.1  mrg dnl  IA-64 mpn_mul_2 -- Multiply a n-limb number with a 2-limb number and store
1.1  mrg dnl  store the result to a (n+1)-limb number.
1.1  mrg
1.1  mrg dnl  Copyright 2004 Free Software Foundation, Inc.
1.1  mrg
1.1  mrg dnl  This file is part of the GNU MP Library.
1.1  mrg
1.1  mrg dnl  The GNU MP Library is free software; you can redistribute it and/or modify
1.1  mrg dnl  it under the terms of the GNU Lesser General Public License as published
1.1  mrg dnl  by the Free Software Foundation; either version 3 of the License, or (at
1.1  mrg dnl  your option) any later version.
1.1  mrg
1.1  mrg dnl  The GNU MP Library is distributed in the hope that it will be useful, but
1.1  mrg dnl  WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1  mrg dnl  or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU Lesser General Public
1.1  mrg dnl  License for more details.
1.1  mrg
1.1  mrg dnl  You should have received a copy of the GNU Lesser General Public License
1.1  mrg dnl  along with the GNU MP Library.  If not, see http://www.gnu.org/licenses/.
1.1  mrg
1.1  mrg include(`../config.m4')
1.1  mrg
1.1  mrg C         cycles/limb
1.1  mrg C Itanium:    3.15
1.1  mrg C Itanium 2:  1.625
1.1  mrg
1.1  mrg C Note that this is very similar to addmul_2.asm.  If you change this file,
1.1  mrg C please change that file too.
1.1  mrg
1.1  mrg C TODO
1.1  mrg C  * Clean up variable names, and try to decrease the number of distinct
1.1  mrg C    registers used.
1.1  mrg C  * Cleanup feed-in code to not require zeroing several registers.
1.1  mrg C  * Make sure we don't depend on uninitialized predicate registers.
1.1  mrg C  * We currently cross-jump very aggressively, at the expense of a few cycles
1.1  mrg C    per operation.  Consider changing that.
1.1  mrg C  * Could perhaps save a few cycles by using 1 c/l carry propagation in
1.1  mrg C    wind-down code.
1.1  mrg C  * Ultimately rewrite.  The problem with this code is that it first uses a
1.1  mrg C    loaded u value in one xma pair, then leaves it live over several unrelated
1.1  mrg C    xma pairs, before it uses it again.  It should actually be quite possible
1.1  mrg C    to just swap some aligned xma pairs around.  But we should then schedule
1.1  mrg C    u loads further from the first use.
1.1  mrg
1.1  mrg C INPUT PARAMETERS
1.1  mrg define(`rp',`r32')
1.1  mrg define(`up',`r33')
1.1  mrg define(`n',`r34')
1.1  mrg define(`vp',`r35')
1.1  mrg
1.1  mrg define(`srp',`r3')
1.1  mrg
1.1  mrg define(`v0',`f6')
1.1  mrg define(`v1',`f7')
1.1  mrg
1.1  mrg define(`s0',`r14')
1.1  mrg define(`acc0',`r15')
1.1  mrg
1.1  mrg define(`pr0_0',`r16') define(`pr0_1',`r17')
1.1  mrg define(`pr0_2',`r18') define(`pr0_3',`r19')
1.1  mrg
1.1  mrg define(`pr1_0',`r20') define(`pr1_1',`r21')
1.1  mrg define(`pr1_2',`r22') define(`pr1_3',`r23')
1.1  mrg
1.1  mrg define(`acc1_0',`r24') define(`acc1_1',`r25')
1.1  mrg define(`acc1_2',`r26') define(`acc1_3',`r27')
1.1  mrg
1.1  mrg dnl define(`',`r28')
1.1  mrg dnl define(`',`r29')
1.1  mrg dnl define(`',`r30')
1.1  mrg dnl define(`',`r31')
1.1  mrg
1.1  mrg define(`fp0b_0',`f8') define(`fp0b_1',`f9')
1.1  mrg define(`fp0b_2',`f10') define(`fp0b_3',`f11')
1.1  mrg
1.1  mrg define(`fp1a_0',`f12') define(`fp1a_1',`f13')
1.1  mrg define(`fp1a_2',`f14') define(`fp1a_3',`f15')
1.1  mrg
1.1  mrg define(`fp1b_0',`f32') define(`fp1b_1',`f33')
1.1  mrg define(`fp1b_2',`f34') define(`fp1b_3',`f35')
1.1  mrg
1.1  mrg define(`fp2a_0',`f36') define(`fp2a_1',`f37')
1.1  mrg define(`fp2a_2',`f38') define(`fp2a_3',`f39')
1.1  mrg
1.1  mrg define(`u_0',`f44') define(`u_1',`f45')
1.1  mrg define(`u_2',`f46') define(`u_3',`f47')
1.1  mrg
1.1  mrg define(`ux',`f49')
1.1  mrg define(`uy',`f51')
1.1  mrg
1.1  mrg ASM_START()
1.1  mrg PROLOGUE(mpn_mul_2)
1.1  mrg 	.prologue
1.1  mrg 	.save	ar.lc, r2
1.1  mrg 	.body
1.1  mrg
1.1  mrg ifdef(`HAVE_ABI_32',
1.1  mrg `	addp4		rp = 0, rp		C			M I
1.1  mrg 	addp4		up = 0, up		C			M I
1.1  mrg 	addp4		vp = 0, vp		C			M I
1.1  mrg 	zxt4		n = n			C			I
1.1  mrg 	;;')
1.1  mrg
1.1  mrg {.mmi		C 00
1.1  mrg 	ldf8		ux = [up], 8		C			M
1.1  mrg 	ldf8		v0 = [vp], 8		C			M
1.1  mrg 	mov.i		r2 = ar.lc		C			I0
1.1  mrg }{.mmi
1.1  mrg 	nop		0			C			M
1.1  mrg 	and		r14 = 3, n		C			M I
1.1  mrg 	add		n = -2, n		C			M I
1.1  mrg 	;;
1.1  mrg }{.mmi		C 01
1.1  mrg 	ldf8		uy = [up], 8		C			M
1.1  mrg 	ldf8		v1 = [vp]		C			M
1.1  mrg 	shr.u		n = n, 2		C			I
1.1  mrg }{.mmi
1.1  mrg 	nop		0			C			M
1.1  mrg 	cmp.eq		p10, p0 = 1, r14	C			M I
1.1  mrg 	cmp.eq		p11, p0 = 2, r14	C			M I
1.1  mrg 	;;
1.1  mrg }{.mmi		C 02
1.1  mrg 	nop		0			C			M
1.1  mrg 	cmp.eq		p12, p0 = 3, r14	C			M I
1.1  mrg 	mov.i		ar.lc = n		C			I0
1.1  mrg }{.bbb
1.1  mrg   (p10) br.dptk		.Lb01			C			B
1.1  mrg   (p11) br.dptk		.Lb10			C			B
1.1  mrg   (p12) br.dptk		.Lb11			C			B
1.1  mrg 	;;
1.1  mrg }
1.1  mrg
1.1  mrg 	ALIGN(32)
1.1  mrg .Lb00:	ldf8		u_1 = [up], 8
1.1  mrg 	mov		acc1_2 = 0
1.1  mrg 	mov		pr1_2 = 0
1.1  mrg 	mov		pr0_3 = 0
1.1  mrg 	cmp.ne		p8, p9 = r0, r0
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_3 = ux, v0, f0
1.1  mrg 	cmp.ne		p12, p13 = r0, r0
1.1  mrg 	ldf8		u_2 = [up], 8
1.1  mrg 	xma.hu		fp1a_3 = ux, v0, f0
1.1  mrg 	br.cloop.dptk	.grt4
1.1  mrg
1.1  mrg 	xma.l		fp0b_0 = uy, v0, f0
1.1  mrg 	xma.hu		fp1a_0 = uy, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc0 = fp0b_3
1.1  mrg 	xma.l		fp1b_3 = ux, v1, fp1a_3
1.1  mrg 	xma.hu		fp2a_3 = ux, v1, fp1a_3
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_1 = u_1, v0, f0
1.1  mrg 	xma.hu		fp1a_1 = u_1, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr0_0 = fp0b_0
1.1  mrg 	xma.l		fp1b_0 = uy, v1, fp1a_0
1.1  mrg 	xma.hu		fp2a_0 = uy, v1, fp1a_0
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr1_3 = fp1b_3
1.1  mrg 	getf.sig	acc1_3 = fp2a_3
1.1  mrg 	xma.l		fp0b_2 = u_2, v0, f0
1.1  mrg 	xma.hu		fp1a_2 = u_2, v0, f0
1.1  mrg 	br		.Lcj4
1.1  mrg
1.1  mrg .grt4:	xma.l		fp0b_0 = uy, v0, f0
1.1  mrg 	xma.hu		fp1a_0 = uy, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc0 = fp0b_3
1.1  mrg 	xma.l		fp1b_3 = ux, v1, fp1a_3
1.1  mrg 	ldf8		u_3 = [up], 8
1.1  mrg 	xma.hu		fp2a_3 = ux, v1, fp1a_3
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_1 = u_1, v0, f0
1.1  mrg 	xma.hu		fp1a_1 = u_1, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr0_0 = fp0b_0
1.1  mrg 	xma.l		fp1b_0 = uy, v1, fp1a_0
1.1  mrg 	xma.hu		fp2a_0 = uy, v1, fp1a_0
1.1  mrg 	;;
1.1  mrg 	ldf8		u_0 = [up], 8
1.1  mrg 	getf.sig	pr1_3 = fp1b_3
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc1_3 = fp2a_3
1.1  mrg 	xma.l		fp0b_2 = u_2, v0, f0
1.1  mrg 	xma.hu		fp1a_2 = u_2, v0, f0
1.1  mrg 	br		.LL00
1.1  mrg
1.1  mrg
1.1  mrg 	ALIGN(32)
1.1  mrg .Lb01:	ldf8		u_0 = [up], 8		C M
1.1  mrg 	mov		acc1_1 = 0		C M I
1.1  mrg 	mov		pr1_1 = 0		C M I
1.1  mrg 	mov		pr0_2 = 0		C M I
1.1  mrg 	cmp.ne		p6, p7 = r0, r0		C M I
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_2 = ux, v0, f0	C F
1.1  mrg 	cmp.ne		p10, p11 = r0, r0	C M I
1.1  mrg 	ldf8		u_1 = [up], 8		C M
1.1  mrg 	xma.hu		fp1a_2 = ux, v0, f0	C F
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_3 = uy, v0, f0	C F
1.1  mrg 	xma.hu		fp1a_3 = uy, v0, f0	C F
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc0 = fp0b_2		C M
1.1  mrg 	xma.l		fp1b_2 = ux, v1,fp1a_2	C F
1.1  mrg 	xma.hu		fp2a_2 = ux, v1,fp1a_2	C F
1.1  mrg 	ldf8		u_2 = [up], 8		C M
1.1  mrg 	br.cloop.dptk	.grt5
1.1  mrg
1.1  mrg 	xma.l		fp0b_0 = u_0, v0, f0	C F
1.1  mrg 	xma.hu		fp1a_0 = u_0, v0, f0	C F
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr0_3 = fp0b_3		C M
1.1  mrg 	xma.l		fp1b_3 = uy, v1,fp1a_3	C F
1.1  mrg 	xma.hu		fp2a_3 = uy, v1,fp1a_3	C F
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr1_2 = fp1b_2		C M
1.1  mrg 	getf.sig	acc1_2 = fp2a_2		C M
1.1  mrg 	xma.l		fp0b_1 = u_1, v0, f0	C F
1.1  mrg 	xma.hu		fp1a_1 = u_1, v0, f0	C F
1.1  mrg 	br		.Lcj5
1.1  mrg
1.1  mrg .grt5:	xma.l		fp0b_0 = u_0, v0, f0
1.1  mrg 	xma.hu		fp1a_0 = u_0, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr0_3 = fp0b_3
1.1  mrg 	xma.l		fp1b_3 = uy, v1, fp1a_3
1.1  mrg 	xma.hu		fp2a_3 = uy, v1, fp1a_3
1.1  mrg 	;;
1.1  mrg 	ldf8		u_3 = [up], 8
1.1  mrg 	getf.sig	pr1_2 = fp1b_2
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc1_2 = fp2a_2
1.1  mrg 	xma.l		fp0b_1 = u_1, v0, f0
1.1  mrg 	xma.hu		fp1a_1 = u_1, v0, f0
1.1  mrg 	br		.LL01
1.1  mrg
1.1  mrg
1.1  mrg C We have two variants for n = 2.  They turn out to run at exactly the same
1.1  mrg C speed.  But the first, odd variant might allow one cycle to be trimmed.
1.1  mrg 	ALIGN(32)
1.1  mrg ifdef(`',`
1.1  mrg .Lb10:		C 03
1.1  mrg 	br.cloop.dptk	.grt2
1.1  mrg 		C 04
1.1  mrg 		C 05
1.1  mrg 		C 06
1.1  mrg 	xma.l		fp0b_1 = ux, v0, f0	C 0
1.1  mrg 	xma.hu		fp1a_1 = ux, v0, f0	C 1
1.1  mrg 	;;	C 07
1.1  mrg 	xma.l		fp0b_2 = uy, v0, f0	C 1
1.1  mrg 	xma.l		fp1b_1 = ux, v1, f0	C 1
1.1  mrg 	;;	C 08
1.1  mrg 	xma.hu		fp1a_2 = uy, v0, f0	C 2
1.1  mrg 	xma.hu		fp2a_1 = ux, v1, f0	C 2
1.1  mrg 	;;	C 09
1.1  mrg 	xma.l		fp1b_2 = uy, v1, f0	C 2
1.1  mrg 	xma.hu		fp2a_2 = uy, v1, f0	C 3
1.1  mrg 	;;	C 10
1.1  mrg 	getf.sig	r16 = fp1a_1
1.1  mrg 	stf8		[rp] = fp0b_1, 8
1.1  mrg 	;;	C 11
1.1  mrg 	getf.sig	r17 = fp0b_2
1.1  mrg 		C 12
1.1  mrg 	getf.sig	r18 = fp1b_1
1.1  mrg 		C 13
1.1  mrg 	getf.sig	r19 = fp1a_2
1.1  mrg 		C 14
1.1  mrg 	getf.sig	r20 = fp2a_1
1.1  mrg 		C 15
1.1  mrg 	getf.sig	r21 = fp1b_2
1.1  mrg 	;;	C 16
1.1  mrg 	getf.sig	r8 = fp2a_2
1.1  mrg 	add		r24 = r16, r17
1.1  mrg 	;;	C 17
1.1  mrg 	cmp.ltu		p6, p7 = r24, r16
1.1  mrg 	add		r26 = r24, r18
1.1  mrg 	;;	C 18
1.1  mrg 	cmp.ltu		p8, p9 = r26, r24
1.1  mrg 	;;	C 19
1.1  mrg 	st8		[rp] = r26, 8
1.1  mrg   (p6)	add		r25 = r19, r20, 1
1.1  mrg   (p7)	add		r25 = r19, r20
1.1  mrg 	;;	C 20
1.1  mrg   (p8)	add		r27 = r25, r21, 1
1.1  mrg   (p9)	add		r27 = r25, r21
1.1  mrg   (p6)	cmp.leu		p10, p0 = r25, r19
1.1  mrg   (p7)	cmp.ltu		p10, p0 = r25, r19
1.1  mrg 	;;	C 21
1.1  mrg   (p10)	add		r8 = 1, r8
1.1  mrg   (p8)	cmp.leu		p12, p0 = r27, r25
1.1  mrg   (p9)	cmp.ltu		p12, p0 = r27, r25
1.1  mrg 	;;	C 22
1.1  mrg 	st8		[rp] = r27, 8
1.1  mrg 	mov.i		ar.lc = r2
1.1  mrg   (p12)	add		r8 = 1, r8
1.1  mrg 	br.ret.sptk.many b0
1.1  mrg ')
1.1  mrg
1.1  mrg .Lb10:		C 03
1.1  mrg 	br.cloop.dptk	.grt2
1.1  mrg 		C 04
1.1  mrg 		C 05
1.1  mrg 		C 06
1.1  mrg 	xma.l		fp0b_1 = ux, v0, f0
1.1  mrg 	xma.hu		fp1a_1 = ux, v0, f0
1.1  mrg 	;;	C 07
1.1  mrg 	xma.l		fp0b_2 = uy, v0, f0
1.1  mrg 	xma.hu		fp1a_2 = uy, v0, f0
1.1  mrg 	;;	C 08
1.1  mrg 		C 09
1.1  mrg 		C 10
1.1  mrg 	stf8		[rp] = fp0b_1, 8
1.1  mrg 	xma.l		fp1b_1 = ux, v1, fp1a_1
1.1  mrg 	xma.hu		fp2a_1 = ux, v1, fp1a_1
1.1  mrg 	;;	C 11
1.1  mrg 	getf.sig	acc0 = fp0b_2
1.1  mrg 	xma.l		fp1b_2 = uy, v1, fp1a_2
1.1  mrg 	xma.hu		fp2a_2 = uy, v1, fp1a_2
1.1  mrg 	;;	C 12
1.1  mrg 		C 13
1.1  mrg 		C 14
1.1  mrg 	getf.sig	pr1_1 = fp1b_1
1.1  mrg 		C 15
1.1  mrg 	getf.sig	acc1_1 = fp2a_1
1.1  mrg 		C 16
1.1  mrg 	getf.sig	pr1_2 = fp1b_2
1.1  mrg 		C 17
1.1  mrg 	getf.sig	r8 = fp2a_2
1.1  mrg 	;;	C 18
1.1  mrg 		C 19
1.1  mrg 	add		s0 = pr1_1, acc0
1.1  mrg 	;;	C 20
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg 	cmp.ltu		p8, p9 = s0, pr1_1
1.1  mrg 	sub		r31 = -1, acc1_1
1.1  mrg 	;;	C 21
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg   (p8)	add		acc0 = pr1_2, acc1_1, 1
1.1  mrg   (p9)	add		acc0 = pr1_2, acc1_1
1.1  mrg   (p8)	cmp.leu		p10, p0 = r31, pr1_2
1.1  mrg   (p9)	cmp.ltu		p10, p0 = r31, pr1_2
1.1  mrg 	;;	C 22
1.1  mrg 	st8		[rp] = acc0, 8
1.1  mrg 	mov.i		ar.lc = r2
1.1  mrg   (p10)	add		r8 = 1, r8
1.1  mrg 	br.ret.sptk.many b0
1.1  mrg
1.1  mrg
1.1  mrg .grt2:	ldf8		u_3 = [up], 8
1.1  mrg 	mov		acc1_0 = 0
1.1  mrg 	mov		pr1_0 = 0
1.1  mrg 	;;
1.1  mrg 	mov		pr0_1 = 0
1.1  mrg 	xma.l		fp0b_1 = ux, v0, f0
1.1  mrg 	ldf8		u_0 = [up], 8
1.1  mrg 	xma.hu		fp1a_1 = ux, v0, f0
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_2 = uy, v0, f0
1.1  mrg 	xma.hu		fp1a_2 = uy, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc0 = fp0b_1
1.1  mrg 	xma.l		fp1b_1 = ux, v1, fp1a_1
1.1  mrg 	xma.hu		fp2a_1 = ux, v1, fp1a_1
1.1  mrg 	;;
1.1  mrg 	ldf8		u_1 = [up], 8
1.1  mrg 	xma.l		fp0b_3 = u_3, v0, f0
1.1  mrg 	xma.hu		fp1a_3 = u_3, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr0_2 = fp0b_2
1.1  mrg 	xma.l		fp1b_2 = uy, v1, fp1a_2
1.1  mrg 	xma.hu		fp2a_2 = uy, v1, fp1a_2
1.1  mrg 	;;
1.1  mrg 	ldf8		u_2 = [up], 8
1.1  mrg 	getf.sig	pr1_1 = fp1b_1
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc1_1 = fp2a_1
1.1  mrg 	xma.l		fp0b_0 = u_0, v0, f0
1.1  mrg 	cmp.ne		p8, p9 = r0, r0
1.1  mrg 	cmp.ne		p12, p13 = r0, r0
1.1  mrg 	xma.hu		fp1a_0 = u_0, v0, f0
1.1  mrg 	br		.LL10
1.1  mrg
1.1  mrg
1.1  mrg 	ALIGN(32)
1.1  mrg .Lb11:	mov		acc1_3 = 0
1.1  mrg 	mov		pr1_3 = 0
1.1  mrg 	mov		pr0_0 = 0
1.1  mrg 	cmp.ne		p6, p7 = r0, r0
1.1  mrg 	;;
1.1  mrg 	ldf8		u_2 = [up], 8
1.1  mrg 	br.cloop.dptk	.grt3
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_0 = ux, v0, f0
1.1  mrg 	xma.hu		fp1a_0 = ux, v0, f0
1.1  mrg 	;;
1.1  mrg 	cmp.ne		p10, p11 = r0, r0
1.1  mrg 	xma.l		fp0b_1 = uy, v0, f0
1.1  mrg 	xma.hu		fp1a_1 = uy, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc0 = fp0b_0
1.1  mrg 	xma.l		fp1b_0 = ux, v1, fp1a_0
1.1  mrg 	xma.hu		fp2a_0 = ux, v1, fp1a_0
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_2 = u_2, v0, f0
1.1  mrg 	xma.hu		fp1a_2 = u_2, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr0_1 = fp0b_1
1.1  mrg 	xma.l		fp1b_1 = uy, v1, fp1a_1
1.1  mrg 	xma.hu		fp2a_1 = uy, v1, fp1a_1
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr1_0 = fp1b_0
1.1  mrg 	getf.sig	acc1_0 = fp2a_0
1.1  mrg 	br		.Lcj3
1.1  mrg
1.1  mrg .grt3:	xma.l		fp0b_0 = ux, v0, f0
1.1  mrg 	cmp.ne		p10, p11 = r0, r0
1.1  mrg 	ldf8		u_3 = [up], 8
1.1  mrg 	xma.hu		fp1a_0 = ux, v0, f0
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_1 = uy, v0, f0
1.1  mrg 	xma.hu		fp1a_1 = uy, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc0 = fp0b_0
1.1  mrg 	xma.l		fp1b_0 = ux, v1, fp1a_0
1.1  mrg 	ldf8		u_0 = [up], 8
1.1  mrg 	xma.hu		fp2a_0 = ux, v1, fp1a_0
1.1  mrg 	;;
1.1  mrg 	xma.l		fp0b_2 = u_2, v0, f0
1.1  mrg 	xma.hu		fp1a_2 = u_2, v0, f0
1.1  mrg 	;;
1.1  mrg 	getf.sig	pr0_1 = fp0b_1
1.1  mrg 	xma.l		fp1b_1 = uy, v1, fp1a_1
1.1  mrg 	xma.hu		fp2a_1 = uy, v1, fp1a_1
1.1  mrg 	;;
1.1  mrg 	ldf8		u_1 = [up], 8
1.1  mrg 	getf.sig	pr1_0 = fp1b_0
1.1  mrg 	;;
1.1  mrg 	getf.sig	acc1_0 = fp2a_0
1.1  mrg 	xma.l		fp0b_3 = u_3, v0, f0
1.1  mrg 	xma.hu		fp1a_3 = u_3, v0, f0
1.1  mrg 	br		.LL11
1.1  mrg
1.1  mrg
1.1  mrg C *** MAIN LOOP START ***
1.1  mrg 	ALIGN(32)
1.1  mrg .Loop:						C 00
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	getf.sig	pr0_3 = fp0b_3
1.1  mrg 	xma.l		fp1b_3 = u_3, v1, fp1a_3
1.1  mrg   (p12)	add		s0 = pr1_0, acc0, 1
1.1  mrg   (p13)	add		s0 = pr1_0, acc0
1.1  mrg 	xma.hu		fp2a_3 = u_3, v1, fp1a_3
1.1  mrg 	;;					C 01
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	ldf8		u_3 = [up], 8
1.1  mrg 	getf.sig	pr1_2 = fp1b_2
1.1  mrg   (p8)	cmp.leu		p6, p7 = acc0, pr0_1
1.1  mrg   (p9)	cmp.ltu		p6, p7 = acc0, pr0_1
1.1  mrg   (p12)	cmp.leu		p10, p11 = s0, pr1_0
1.1  mrg   (p13)	cmp.ltu		p10, p11 = s0, pr1_0
1.1  mrg 	;;					C 02
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	getf.sig	acc1_2 = fp2a_2
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg 	xma.l		fp0b_1 = u_1, v0, f0
1.1  mrg   (p6)	add		acc0 = pr0_2, acc1_0, 1
1.1  mrg   (p7)	add		acc0 = pr0_2, acc1_0
1.1  mrg 	xma.hu		fp1a_1 = u_1, v0, f0
1.1  mrg 	;;					C 03
1.1  mrg .LL01:
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	getf.sig	pr0_0 = fp0b_0
1.1  mrg 	xma.l		fp1b_0 = u_0, v1, fp1a_0
1.1  mrg   (p10)	add		s0 = pr1_1, acc0, 1
1.1  mrg   (p11)	add		s0 = pr1_1, acc0
1.1  mrg 	xma.hu		fp2a_0 = u_0, v1, fp1a_0
1.1  mrg 	;;					C 04
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	ldf8		u_0 = [up], 8
1.1  mrg 	getf.sig	pr1_3 = fp1b_3
1.1  mrg   (p6)	cmp.leu		p8, p9 = acc0, pr0_2
1.1  mrg   (p7)	cmp.ltu		p8, p9 = acc0, pr0_2
1.1  mrg   (p10)	cmp.leu		p12, p13 = s0, pr1_1
1.1  mrg   (p11)	cmp.ltu		p12, p13 = s0, pr1_1
1.1  mrg 	;;					C 05
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	getf.sig	acc1_3 = fp2a_3
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg 	xma.l		fp0b_2 = u_2, v0, f0
1.1  mrg   (p8)	add		acc0 = pr0_3, acc1_1, 1
1.1  mrg   (p9)	add		acc0 = pr0_3, acc1_1
1.1  mrg 	xma.hu		fp1a_2 = u_2, v0, f0
1.1  mrg 	;;					C 06
1.1  mrg .LL00:
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	getf.sig	pr0_1 = fp0b_1
1.1  mrg 	xma.l		fp1b_1 = u_1, v1, fp1a_1
1.1  mrg   (p12)	add		s0 = pr1_2, acc0, 1
1.1  mrg   (p13)	add		s0 = pr1_2, acc0
1.1  mrg 	xma.hu		fp2a_1 = u_1, v1, fp1a_1
1.1  mrg 	;;					C 07
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	ldf8		u_1 = [up], 8
1.1  mrg 	getf.sig	pr1_0 = fp1b_0
1.1  mrg   (p8)	cmp.leu		p6, p7 = acc0, pr0_3
1.1  mrg   (p9)	cmp.ltu		p6, p7 = acc0, pr0_3
1.1  mrg   (p12)	cmp.leu		p10, p11 = s0, pr1_2
1.1  mrg   (p13)	cmp.ltu		p10, p11 = s0, pr1_2
1.1  mrg 	;;					C 08
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	getf.sig	acc1_0 = fp2a_0
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg 	xma.l		fp0b_3 = u_3, v0, f0
1.1  mrg   (p6)	add		acc0 = pr0_0, acc1_2, 1
1.1  mrg   (p7)	add		acc0 = pr0_0, acc1_2
1.1  mrg 	xma.hu		fp1a_3 = u_3, v0, f0
1.1  mrg 	;;					C 09
1.1  mrg .LL11:
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	getf.sig	pr0_2 = fp0b_2
1.1  mrg 	xma.l		fp1b_2 = u_2, v1, fp1a_2
1.1  mrg   (p10)	add		s0 = pr1_3, acc0, 1
1.1  mrg   (p11)	add		s0 = pr1_3, acc0
1.1  mrg 	xma.hu		fp2a_2 = u_2, v1, fp1a_2
1.1  mrg 	;;					C 10
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	ldf8		u_2 = [up], 8
1.1  mrg 	getf.sig	pr1_1 = fp1b_1
1.1  mrg   (p6)	cmp.leu		p8, p9 = acc0, pr0_0
1.1  mrg   (p7)	cmp.ltu		p8, p9 = acc0, pr0_0
1.1  mrg   (p10)	cmp.leu		p12, p13 = s0, pr1_3
1.1  mrg   (p11)	cmp.ltu		p12, p13 = s0, pr1_3
1.1  mrg 	;;					C 11
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	getf.sig	acc1_1 = fp2a_1
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg 	xma.l		fp0b_0 = u_0, v0, f0
1.1  mrg   (p8)	add		acc0 = pr0_1, acc1_3, 1
1.1  mrg   (p9)	add		acc0 = pr0_1, acc1_3
1.1  mrg 	xma.hu		fp1a_0 = u_0, v0, f0
1.1  mrg .LL10:	br.cloop.dptk	.Loop			C 12
1.1  mrg 	;;
1.1  mrg C *** MAIN LOOP END ***
1.1  mrg
1.1  mrg .Lcj6:
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	getf.sig	pr0_3 = fp0b_3
1.1  mrg 	xma.l		fp1b_3 = u_3, v1, fp1a_3
1.1  mrg   (p12)	add		s0 = pr1_0, acc0, 1
1.1  mrg   (p13)	add		s0 = pr1_0, acc0
1.1  mrg 	xma.hu		fp2a_3 = u_3, v1, fp1a_3
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	getf.sig	pr1_2 = fp1b_2
1.1  mrg   (p8)	cmp.leu		p6, p7 = acc0, pr0_1
1.1  mrg   (p9)	cmp.ltu		p6, p7 = acc0, pr0_1
1.1  mrg   (p12)	cmp.leu		p10, p11 = s0, pr1_0
1.1  mrg   (p13)	cmp.ltu		p10, p11 = s0, pr1_0
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	getf.sig	acc1_2 = fp2a_2
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg 	xma.l		fp0b_1 = u_1, v0, f0
1.1  mrg   (p6)	add		acc0 = pr0_2, acc1_0, 1
1.1  mrg   (p7)	add		acc0 = pr0_2, acc1_0
1.1  mrg 	xma.hu		fp1a_1 = u_1, v0, f0
1.1  mrg 	;;
1.1  mrg .Lcj5:
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	getf.sig	pr0_0 = fp0b_0
1.1  mrg 	xma.l		fp1b_0 = u_0, v1, fp1a_0
1.1  mrg   (p10)	add		s0 = pr1_1, acc0, 1
1.1  mrg   (p11)	add		s0 = pr1_1, acc0
1.1  mrg 	xma.hu		fp2a_0 = u_0, v1, fp1a_0
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	getf.sig	pr1_3 = fp1b_3
1.1  mrg   (p6)	cmp.leu		p8, p9 = acc0, pr0_2
1.1  mrg   (p7)	cmp.ltu		p8, p9 = acc0, pr0_2
1.1  mrg   (p10)	cmp.leu		p12, p13 = s0, pr1_1
1.1  mrg   (p11)	cmp.ltu		p12, p13 = s0, pr1_1
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	getf.sig	acc1_3 = fp2a_3
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg 	xma.l		fp0b_2 = u_2, v0, f0
1.1  mrg   (p8)	add		acc0 = pr0_3, acc1_1, 1
1.1  mrg   (p9)	add		acc0 = pr0_3, acc1_1
1.1  mrg 	xma.hu		fp1a_2 = u_2, v0, f0
1.1  mrg 	;;
1.1  mrg .Lcj4:
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	getf.sig	pr0_1 = fp0b_1
1.1  mrg 	xma.l		fp1b_1 = u_1, v1, fp1a_1
1.1  mrg   (p12)	add		s0 = pr1_2, acc0, 1
1.1  mrg   (p13)	add		s0 = pr1_2, acc0
1.1  mrg 	xma.hu		fp2a_1 = u_1, v1, fp1a_1
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	getf.sig	pr1_0 = fp1b_0
1.1  mrg   (p8)	cmp.leu		p6, p7 = acc0, pr0_3
1.1  mrg   (p9)	cmp.ltu		p6, p7 = acc0, pr0_3
1.1  mrg   (p12)	cmp.leu		p10, p11 = s0, pr1_2
1.1  mrg   (p13)	cmp.ltu		p10, p11 = s0, pr1_2
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	getf.sig	acc1_0 = fp2a_0
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg   (p6)	add		acc0 = pr0_0, acc1_2, 1
1.1  mrg   (p7)	add		acc0 = pr0_0, acc1_2
1.1  mrg 	;;
1.1  mrg .Lcj3:
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	getf.sig	pr0_2 = fp0b_2
1.1  mrg 	xma.l		fp1b_2 = u_2, v1, fp1a_2
1.1  mrg   (p10)	add		s0 = pr1_3, acc0, 1
1.1  mrg   (p11)	add		s0 = pr1_3, acc0
1.1  mrg 	xma.hu		fp2a_2 = u_2, v1, fp1a_2
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg 	getf.sig	pr1_1 = fp1b_1
1.1  mrg   (p6)	cmp.leu		p8, p9 = acc0, pr0_0
1.1  mrg   (p7)	cmp.ltu		p8, p9 = acc0, pr0_0
1.1  mrg   (p10)	cmp.leu		p12, p13 = s0, pr1_3
1.1  mrg   (p11)	cmp.ltu		p12, p13 = s0, pr1_3
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	getf.sig	acc1_1 = fp2a_1
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg   (p8)	add		acc0 = pr0_1, acc1_3, 1
1.1  mrg   (p9)	add		acc0 = pr0_1, acc1_3
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg   (p12)	add		s0 = pr1_0, acc0, 1
1.1  mrg   (p13)	add		s0 = pr1_0, acc0
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	.pred.rel "mutex", p12, p13
1.1  mrg 	getf.sig	pr1_2 = fp1b_2
1.1  mrg   (p8)	cmp.leu		p6, p7 = acc0, pr0_1
1.1  mrg   (p9)	cmp.ltu		p6, p7 = acc0, pr0_1
1.1  mrg   (p12)	cmp.leu		p10, p11 = s0, pr1_0
1.1  mrg   (p13)	cmp.ltu		p10, p11 = s0, pr1_0
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	getf.sig	acc1_2 = fp2a_2
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg   (p6)	add		acc0 = pr0_2, acc1_0, 1
1.1  mrg   (p7)	add		acc0 = pr0_2, acc1_0
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg   (p10)	add		s0 = pr1_1, acc0, 1
1.1  mrg   (p11)	add		s0 = pr1_1, acc0
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p6, p7
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg   (p6)	cmp.leu		p8, p9 = acc0, pr0_2
1.1  mrg   (p7)	cmp.ltu		p8, p9 = acc0, pr0_2
1.1  mrg   (p10)	cmp.leu		p12, p13 = s0, pr1_1
1.1  mrg   (p11)	cmp.ltu		p12, p13 = s0, pr1_1
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg 	st8		[rp] = s0, 8
1.1  mrg   (p8)	add		acc0 = pr1_2, acc1_1, 1
1.1  mrg   (p9)	add		acc0 = pr1_2, acc1_1
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p8, p9
1.1  mrg   (p8)	cmp.leu		p10, p11 = acc0, pr1_2
1.1  mrg   (p9)	cmp.ltu		p10, p11 = acc0, pr1_2
1.1  mrg   (p12)	add		acc0 = 1, acc0
1.1  mrg 	;;
1.1  mrg 	st8		[rp] = acc0, 8
1.1  mrg   (p12)	cmp.eq.or	p10, p0 = 0, acc0
1.1  mrg 	mov		r8 = acc1_2
1.1  mrg 	;;
1.1  mrg 	.pred.rel "mutex", p10, p11
1.1  mrg   (p10)	add		r8 = 1, r8
1.1  mrg 	mov.i		ar.lc = r2
1.1  mrg 	br.ret.sptk.many b0
1.1  mrg EPILOGUE()
1.1  mrg ASM_END()