config/ia64/lib1funcs.S

1.1.1.11  mrg /* Copyright (C) 2000-2024 Free Software Foundation, Inc.
     1.1  mrg    Contributed by James E. Wilson <wilson (at) cygnus.com>.
     1.1  mrg
     1.1  mrg    This file is part of GCC.
     1.1  mrg
     1.1  mrg    GCC is free software; you can redistribute it and/or modify
     1.1  mrg    it under the terms of the GNU General Public License as published by
     1.1  mrg    the Free Software Foundation; either version 3, or (at your option)
     1.1  mrg    any later version.
     1.1  mrg
     1.1  mrg    GCC is distributed in the hope that it will be useful,
     1.1  mrg    but WITHOUT ANY WARRANTY; without even the implied warranty of
     1.1  mrg    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
     1.1  mrg    GNU General Public License for more details.
     1.1  mrg
     1.1  mrg    Under Section 7 of GPL version 3, you are granted additional
     1.1  mrg    permissions described in the GCC Runtime Library Exception, version
     1.1  mrg    3.1, as published by the Free Software Foundation.
     1.1  mrg
     1.1  mrg    You should have received a copy of the GNU General Public License and
     1.1  mrg    a copy of the GCC Runtime Library Exception along with this program;
     1.1  mrg    see the files COPYING3 and COPYING.RUNTIME respectively.  If not, see
     1.1  mrg    <http://www.gnu.org/licenses/>.  */
     1.1  mrg
     1.1  mrg #ifdef L__divxf3
     1.1  mrg // Compute a 80-bit IEEE double-extended quotient.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // farg0 holds the dividend.  farg1 holds the divisor.
     1.1  mrg //
     1.1  mrg // __divtf3 is an alternate symbol name for backward compatibility.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __divxf3
     1.1  mrg 	.proc __divxf3
     1.1  mrg __divxf3:
     1.1  mrg #ifdef SHARED
     1.1  mrg 	.global __divtf3
     1.1  mrg __divtf3:
     1.1  mrg #endif
     1.1  mrg 	cmp.eq p7, p0 = r0, r0
     1.1  mrg 	frcpa.s0 f10, p6 = farg0, farg1
     1.1  mrg 	;;
     1.1  mrg (p6)	cmp.ne p7, p0 = r0, r0
     1.1  mrg 	.pred.rel.mutex p6, p7
     1.1  mrg (p6)	fnma.s1 f11 = farg1, f10, f1
     1.1  mrg (p6)	fma.s1 f12 = farg0, f10, f0
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f13 = f11, f11, f0
     1.1  mrg (p6)	fma.s1 f14 = f11, f11, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f11 = f13, f13, f11
     1.1  mrg (p6)	fma.s1 f13 = f14, f10, f10
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f13, f11, f10
     1.1  mrg (p6)	fnma.s1 f11 = farg1, f12, farg0
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f11 = f11, f10, f12
     1.1  mrg (p6)	fnma.s1 f12 = farg1, f10, f1
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f12, f10, f10
     1.1  mrg (p6)	fnma.s1 f12 = farg1, f11, farg0
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s0 fret0 = f12, f10, f11
     1.1  mrg (p7)	mov fret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	.endp __divxf3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__divdf3
     1.1  mrg // Compute a 64-bit IEEE double quotient.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // farg0 holds the dividend.  farg1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __divdf3
     1.1  mrg 	.proc __divdf3
     1.1  mrg __divdf3:
     1.1  mrg 	cmp.eq p7, p0 = r0, r0
     1.1  mrg 	frcpa.s0 f10, p6 = farg0, farg1
     1.1  mrg 	;;
     1.1  mrg (p6)	cmp.ne p7, p0 = r0, r0
     1.1  mrg 	.pred.rel.mutex p6, p7
     1.1  mrg (p6)	fmpy.s1 f11 = farg0, f10
     1.1  mrg (p6)	fnma.s1 f12 = farg1, f10, f1
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f11 = f12, f11, f11
     1.1  mrg (p6)	fmpy.s1 f13 = f12, f12
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f12, f10, f10
     1.1  mrg (p6)	fma.s1 f11 = f13, f11, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fmpy.s1 f12 = f13, f13
     1.1  mrg (p6)	fma.s1 f10 = f13, f10, f10
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.d.s1 f11 = f12, f11, f11
     1.1  mrg (p6)	fma.s1 f10 = f12, f10, f10
     1.1  mrg 	;;
     1.1  mrg (p6)	fnma.d.s1 f8 = farg1, f11, farg0
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.d fret0 = f8, f10, f11
     1.1  mrg (p7)	mov fret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __divdf3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__divsf3
     1.1  mrg // Compute a 32-bit IEEE float quotient.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // farg0 holds the dividend.  farg1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __divsf3
     1.1  mrg 	.proc __divsf3
     1.1  mrg __divsf3:
     1.1  mrg 	cmp.eq p7, p0 = r0, r0
     1.1  mrg 	frcpa.s0 f10, p6 = farg0, farg1
     1.1  mrg 	;;
     1.1  mrg (p6)	cmp.ne p7, p0 = r0, r0
     1.1  mrg 	.pred.rel.mutex p6, p7
     1.1  mrg (p6)	fmpy.s1 f8 = farg0, f10
     1.1  mrg (p6)	fnma.s1 f9 = farg1, f10, f1
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f8 = f9, f8, f8
     1.1  mrg (p6)	fmpy.s1 f9 = f9, f9
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f8 = f9, f8, f8
     1.1  mrg (p6)	fmpy.s1 f9 = f9, f9
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.d.s1 f10 = f9, f8, f8
     1.1  mrg 	;;
     1.1  mrg (p6)	fnorm.s.s0 fret0 = f10
     1.1  mrg (p7)	mov fret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __divsf3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__divdi3
     1.1  mrg // Compute a 64-bit integer quotient.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend.  in1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __divdi3
     1.1  mrg 	.proc __divdi3
     1.1  mrg __divdi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	// Transfer inputs to FP registers.
     1.1  mrg 	setf.sig f8 = in0
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	;;
     1.1  mrg 	// Convert the inputs to FP, so that they won't be treated as unsigned.
     1.1  mrg 	fcvt.xf f8 = f8
     1.1  mrg 	fcvt.xf f9 = f9
     1.1  mrg (p7)	break 1
     1.1  mrg 	;;
     1.1  mrg 	// Compute the reciprocal approximation.
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg 	;;
     1.1  mrg 	// 3 Newton-Raphson iterations.
     1.1  mrg (p6)	fnma.s1 f11 = f9, f10, f1
     1.1  mrg (p6)	fmpy.s1 f12 = f8, f10
     1.1  mrg 	;;
     1.1  mrg (p6)	fmpy.s1 f13 = f11, f11
     1.1  mrg (p6)	fma.s1 f12 = f11, f12, f12
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f11, f10, f10
     1.1  mrg (p6)	fma.s1 f11 = f13, f12, f12
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f13, f10, f10
     1.1  mrg (p6)	fnma.s1 f12 = f9, f11, f8
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f12, f10, f11
     1.1  mrg 	;;
     1.1  mrg 	// Round quotient to an integer.
     1.1  mrg 	fcvt.fx.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	// Transfer result to GP registers.
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __divdi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__moddi3
     1.1  mrg // Compute a 64-bit integer modulus.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend (a).  in1 holds the divisor (b).
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __moddi3
     1.1  mrg 	.proc __moddi3
     1.1  mrg __moddi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	// Transfer inputs to FP registers.
     1.1  mrg 	setf.sig f14 = in0
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	;;
     1.1  mrg 	// Convert the inputs to FP, so that they won't be treated as unsigned.
     1.1  mrg 	fcvt.xf f8 = f14
     1.1  mrg 	fcvt.xf f9 = f9
     1.1  mrg (p7)	break 1
     1.1  mrg 	;;
     1.1  mrg 	// Compute the reciprocal approximation.
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg 	;;
     1.1  mrg 	// 3 Newton-Raphson iterations.
     1.1  mrg (p6)	fmpy.s1 f12 = f8, f10
     1.1  mrg (p6)	fnma.s1 f11 = f9, f10, f1
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f12 = f11, f12, f12
     1.1  mrg (p6)	fmpy.s1 f13 = f11, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f11, f10, f10
     1.1  mrg (p6)	fma.s1 f11 = f13, f12, f12
     1.1  mrg 	;;
     1.1  mrg 	sub in1 = r0, in1
     1.1  mrg (p6)	fma.s1 f10 = f13, f10, f10
     1.1  mrg (p6)	fnma.s1 f12 = f9, f11, f8
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg (p6)	fma.s1 f10 = f12, f10, f11
     1.1  mrg 	;;
     1.1  mrg 	fcvt.fx.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	// r = q * (-b) + a
     1.1  mrg 	xma.l f10 = f10, f9, f14
     1.1  mrg 	;;
     1.1  mrg 	// Transfer result to GP registers.
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __moddi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__udivdi3
     1.1  mrg // Compute a 64-bit unsigned integer quotient.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend.  in1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __udivdi3
     1.1  mrg 	.proc __udivdi3
     1.1  mrg __udivdi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	// Transfer inputs to FP registers.
     1.1  mrg 	setf.sig f8 = in0
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	;;
     1.1  mrg 	// Convert the inputs to FP, to avoid FP software-assist faults.
     1.1  mrg 	fcvt.xuf.s1 f8 = f8
     1.1  mrg 	fcvt.xuf.s1 f9 = f9
     1.1  mrg (p7)	break 1
     1.1  mrg 	;;
     1.1  mrg 	// Compute the reciprocal approximation.
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg 	;;
     1.1  mrg 	// 3 Newton-Raphson iterations.
     1.1  mrg (p6)	fnma.s1 f11 = f9, f10, f1
     1.1  mrg (p6)	fmpy.s1 f12 = f8, f10
     1.1  mrg 	;;
     1.1  mrg (p6)	fmpy.s1 f13 = f11, f11
     1.1  mrg (p6)	fma.s1 f12 = f11, f12, f12
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f11, f10, f10
     1.1  mrg (p6)	fma.s1 f11 = f13, f12, f12
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f13, f10, f10
     1.1  mrg (p6)	fnma.s1 f12 = f9, f11, f8
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f12, f10, f11
     1.1  mrg 	;;
     1.1  mrg 	// Round quotient to an unsigned integer.
     1.1  mrg 	fcvt.fxu.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	// Transfer result to GP registers.
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __udivdi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__umoddi3
     1.1  mrg // Compute a 64-bit unsigned integer modulus.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend (a).  in1 holds the divisor (b).
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __umoddi3
     1.1  mrg 	.proc __umoddi3
     1.1  mrg __umoddi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	// Transfer inputs to FP registers.
     1.1  mrg 	setf.sig f14 = in0
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	;;
     1.1  mrg 	// Convert the inputs to FP, to avoid FP software assist faults.
     1.1  mrg 	fcvt.xuf.s1 f8 = f14
     1.1  mrg 	fcvt.xuf.s1 f9 = f9
     1.1  mrg (p7)	break 1;
     1.1  mrg 	;;
     1.1  mrg 	// Compute the reciprocal approximation.
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg 	;;
     1.1  mrg 	// 3 Newton-Raphson iterations.
     1.1  mrg (p6)	fmpy.s1 f12 = f8, f10
     1.1  mrg (p6)	fnma.s1 f11 = f9, f10, f1
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f12 = f11, f12, f12
     1.1  mrg (p6)	fmpy.s1 f13 = f11, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f11, f10, f10
     1.1  mrg (p6)	fma.s1 f11 = f13, f12, f12
     1.1  mrg 	;;
     1.1  mrg 	sub in1 = r0, in1
     1.1  mrg (p6)	fma.s1 f10 = f13, f10, f10
     1.1  mrg (p6)	fnma.s1 f12 = f9, f11, f8
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg (p6)	fma.s1 f10 = f12, f10, f11
     1.1  mrg 	;;
     1.1  mrg 	// Round quotient to an unsigned integer.
     1.1  mrg 	fcvt.fxu.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	// r = q * (-b) + a
     1.1  mrg 	xma.l f10 = f10, f9, f14
     1.1  mrg 	;;
     1.1  mrg 	// Transfer result to GP registers.
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __umoddi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__divsi3
     1.1  mrg // Compute a 32-bit integer quotient.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend.  in1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __divsi3
     1.1  mrg 	.proc __divsi3
     1.1  mrg __divsi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	sxt4 in0 = in0
     1.1  mrg 	sxt4 in1 = in1
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f8 = in0
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg (p7)	break 1
     1.1  mrg 	;;
     1.1  mrg 	mov r2 = 0x0ffdd
     1.1  mrg 	fcvt.xf f8 = f8
     1.1  mrg 	fcvt.xf f9 = f9
     1.1  mrg 	;;
     1.1  mrg 	setf.exp f11 = r2
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg 	;;
     1.1  mrg (p6)	fmpy.s1 f8 = f8, f10
     1.1  mrg (p6)	fnma.s1 f9 = f9, f10, f1
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f8 = f9, f8, f8
     1.1  mrg (p6)	fma.s1 f9 = f9, f9, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f9, f8, f8
     1.1  mrg 	;;
     1.1  mrg 	fcvt.fx.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __divsi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__modsi3
     1.1  mrg // Compute a 32-bit integer modulus.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend.  in1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __modsi3
     1.1  mrg 	.proc __modsi3
     1.1  mrg __modsi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	mov r2 = 0x0ffdd
     1.1  mrg 	sxt4 in0 = in0
     1.1  mrg 	sxt4 in1 = in1
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f13 = r32
     1.1  mrg 	setf.sig f9 = r33
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	;;
     1.1  mrg 	sub in1 = r0, in1
     1.1  mrg 	fcvt.xf f8 = f13
     1.1  mrg 	fcvt.xf f9 = f9
     1.1  mrg 	;;
     1.1  mrg 	setf.exp f11 = r2
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg (p7)	break 1
     1.1  mrg 	;;
     1.1  mrg (p6)	fmpy.s1 f12 = f8, f10
     1.1  mrg (p6)	fnma.s1 f10 = f9, f10, f1
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg (p6)	fma.s1 f12 = f10, f12, f12
     1.1  mrg (p6)	fma.s1 f10 = f10, f10, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f10, f12, f12
     1.1  mrg 	;;
     1.1  mrg 	fcvt.fx.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	xma.l f10 = f10, f9, f13
     1.1  mrg 	;;
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __modsi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__udivsi3
     1.1  mrg // Compute a 32-bit unsigned integer quotient.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend.  in1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __udivsi3
     1.1  mrg 	.proc __udivsi3
     1.1  mrg __udivsi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	mov r2 = 0x0ffdd
     1.1  mrg 	zxt4 in0 = in0
     1.1  mrg 	zxt4 in1 = in1
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f8 = in0
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	;;
     1.1  mrg 	fcvt.xf f8 = f8
     1.1  mrg 	fcvt.xf f9 = f9
     1.1  mrg (p7)	break 1
     1.1  mrg 	;;
     1.1  mrg 	setf.exp f11 = r2
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg 	;;
     1.1  mrg (p6)	fmpy.s1 f8 = f8, f10
     1.1  mrg (p6)	fnma.s1 f9 = f9, f10, f1
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f8 = f9, f8, f8
     1.1  mrg (p6)	fma.s1 f9 = f9, f9, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f9, f8, f8
     1.1  mrg 	;;
     1.1  mrg 	fcvt.fxu.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __udivsi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__umodsi3
     1.1  mrg // Compute a 32-bit unsigned integer modulus.
     1.1  mrg //
     1.1  mrg // From the Intel IA-64 Optimization Guide, choose the minimum latency
     1.1  mrg // alternative.
     1.1  mrg //
     1.1  mrg // in0 holds the dividend.  in1 holds the divisor.
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __umodsi3
     1.1  mrg 	.proc __umodsi3
     1.1  mrg __umodsi3:
     1.1  mrg 	.regstk 2,0,0,0
     1.1  mrg 	mov r2 = 0x0ffdd
     1.1  mrg 	zxt4 in0 = in0
     1.1  mrg 	zxt4 in1 = in1
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f13 = in0
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg 	// Check divide by zero.
     1.1  mrg 	cmp.ne.unc p0,p7=0,in1
     1.1  mrg 	;;
     1.1  mrg 	sub in1 = r0, in1
     1.1  mrg 	fcvt.xf f8 = f13
     1.1  mrg 	fcvt.xf f9 = f9
     1.1  mrg 	;;
     1.1  mrg 	setf.exp f11 = r2
     1.1  mrg 	frcpa.s1 f10, p6 = f8, f9
     1.1  mrg (p7)	break 1;
     1.1  mrg 	;;
     1.1  mrg (p6)	fmpy.s1 f12 = f8, f10
     1.1  mrg (p6)	fnma.s1 f10 = f9, f10, f1
     1.1  mrg 	;;
     1.1  mrg 	setf.sig f9 = in1
     1.1  mrg (p6)	fma.s1 f12 = f10, f12, f12
     1.1  mrg (p6)	fma.s1 f10 = f10, f10, f11
     1.1  mrg 	;;
     1.1  mrg (p6)	fma.s1 f10 = f10, f12, f12
     1.1  mrg 	;;
     1.1  mrg 	fcvt.fxu.trunc.s1 f10 = f10
     1.1  mrg 	;;
     1.1  mrg 	xma.l f10 = f10, f9, f13
     1.1  mrg 	;;
     1.1  mrg 	getf.sig ret0 = f10
     1.1  mrg 	br.ret.sptk rp
     1.1  mrg 	;;
     1.1  mrg 	.endp __umodsi3
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__save_stack_nonlocal
     1.1  mrg // Notes on save/restore stack nonlocal: We read ar.bsp but write
     1.1  mrg // ar.bspstore.  This is because ar.bsp can be read at all times
     1.1  mrg // (independent of the RSE mode) but since it's read-only we need to
     1.1  mrg // restore the value via ar.bspstore.  This is OK because
     1.1  mrg // ar.bsp==ar.bspstore after executing "flushrs".
     1.1  mrg
     1.1  mrg // void __ia64_save_stack_nonlocal(void *save_area, void *stack_pointer)
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __ia64_save_stack_nonlocal
     1.1  mrg 	.proc __ia64_save_stack_nonlocal
     1.1  mrg __ia64_save_stack_nonlocal:
     1.1  mrg 	{ .mmf
     1.1  mrg 	  alloc r18 = ar.pfs, 2, 0, 0, 0
     1.1  mrg 	  mov r19 = ar.rsc
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  flushrs
     1.1  mrg 	  st8 [in0] = in1, 24
     1.1  mrg 	  and r19 = 0x1c, r19
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  st8 [in0] = r18, -16
     1.1  mrg 	  mov ar.rsc = r19
     1.1  mrg 	  or r19 = 0x3, r19
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  mov r16 = ar.bsp
     1.1  mrg 	  mov r17 = ar.rnat
     1.1  mrg 	  adds r2 = 8, in0
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  st8 [in0] = r16
     1.1  mrg 	  st8 [r2] = r17
     1.1  mrg 	}
     1.1  mrg 	{ .mib
     1.1  mrg 	  mov ar.rsc = r19
     1.1  mrg 	  br.ret.sptk.few rp
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	.endp __ia64_save_stack_nonlocal
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__nonlocal_goto
     1.1  mrg // void __ia64_nonlocal_goto(void *target_label, void *save_area,
     1.1  mrg //			     void *static_chain);
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __ia64_nonlocal_goto
     1.1  mrg 	.proc __ia64_nonlocal_goto
     1.1  mrg __ia64_nonlocal_goto:
     1.1  mrg 	{ .mmi
     1.1  mrg 	  alloc r20 = ar.pfs, 3, 0, 0, 0
     1.1  mrg 	  ld8 r12 = [in1], 8
     1.1  mrg 	  mov.ret.sptk rp = in0, .L0
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmf
     1.1  mrg 	  ld8 r16 = [in1], 8
     1.1  mrg 	  mov r19 = ar.rsc
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  flushrs
     1.1  mrg 	  ld8 r17 = [in1], 8
     1.1  mrg 	  and r19 = 0x1c, r19
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  ld8 r18 = [in1]
     1.1  mrg 	  mov ar.rsc = r19
     1.1  mrg 	  or r19 = 0x3, r19
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  mov ar.bspstore = r16
     1.1  mrg 	  ;;
     1.1  mrg 	  mov ar.rnat = r17
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  loadrs
     1.1  mrg 	  invala
     1.1  mrg 	  mov r15 = in2
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg .L0:	{ .mib
     1.1  mrg 	  mov ar.rsc = r19
     1.1  mrg 	  mov ar.pfs = r18
     1.1  mrg 	  br.ret.sptk.few rp
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	.endp __ia64_nonlocal_goto
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__restore_stack_nonlocal
     1.1  mrg // This is mostly the same as nonlocal_goto above.
     1.1  mrg // ??? This has not been tested yet.
     1.1  mrg
     1.1  mrg // void __ia64_restore_stack_nonlocal(void *save_area)
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __ia64_restore_stack_nonlocal
     1.1  mrg 	.proc __ia64_restore_stack_nonlocal
     1.1  mrg __ia64_restore_stack_nonlocal:
     1.1  mrg 	{ .mmf
     1.1  mrg 	  alloc r20 = ar.pfs, 4, 0, 0, 0
     1.1  mrg 	  ld8 r12 = [in0], 8
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmb
     1.1  mrg 	  ld8 r16=[in0], 8
     1.1  mrg 	  mov r19 = ar.rsc
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  flushrs
     1.1  mrg 	  ld8 r17 = [in0], 8
     1.1  mrg 	  and r19 = 0x1c, r19
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmf
     1.1  mrg 	  ld8 r18 = [in0]
     1.1  mrg 	  mov ar.rsc = r19
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  mov ar.bspstore = r16
     1.1  mrg 	  ;;
     1.1  mrg 	  mov ar.rnat = r17
     1.1  mrg 	  or r19 = 0x3, r19
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	{ .mmf
     1.1  mrg 	  loadrs
     1.1  mrg 	  invala
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg .L0:	{ .mib
     1.1  mrg 	  mov ar.rsc = r19
     1.1  mrg 	  mov ar.pfs = r18
     1.1  mrg 	  br.ret.sptk.few rp
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	.endp __ia64_restore_stack_nonlocal
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef L__trampoline
     1.1  mrg // Implement the nested function trampoline.  This is out of line
     1.1  mrg // so that we don't have to bother with flushing the icache, as
     1.1  mrg // well as making the on-stack trampoline smaller.
     1.1  mrg //
     1.1  mrg // The trampoline has the following form:
     1.1  mrg //
     1.1  mrg //		+-------------------+ >
     1.1  mrg //	TRAMP:	| __ia64_trampoline | |
     1.1  mrg //		+-------------------+  > fake function descriptor
     1.1  mrg //		| TRAMP+16          | |
     1.1  mrg //		+-------------------+ >
     1.1  mrg //		| target descriptor |
     1.1  mrg //		+-------------------+
     1.1  mrg //		| static link	    |
     1.1  mrg //		+-------------------+
     1.1  mrg
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __ia64_trampoline
     1.1  mrg 	.proc __ia64_trampoline
     1.1  mrg __ia64_trampoline:
     1.1  mrg 	{ .mmi
     1.1  mrg 	  ld8 r2 = [r1], 8
     1.1  mrg 	  ;;
     1.1  mrg 	  ld8 r15 = [r1]
     1.1  mrg 	}
     1.1  mrg 	{ .mmi
     1.1  mrg 	  ld8 r3 = [r2], 8
     1.1  mrg 	  ;;
     1.1  mrg 	  ld8 r1 = [r2]
     1.1  mrg 	  mov b6 = r3
     1.1  mrg 	}
     1.1  mrg 	{ .bbb
     1.1  mrg 	  br.sptk.many b6
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	.endp __ia64_trampoline
     1.1  mrg #endif
     1.1  mrg
     1.1  mrg #ifdef SHARED
     1.1  mrg // Thunks for backward compatibility.
     1.1  mrg #ifdef L_fixtfdi
     1.1  mrg 	.text
     1.1  mrg 	.align 16
     1.1  mrg 	.global __fixtfti
     1.1  mrg 	.proc __fixtfti
     1.1  mrg __fixtfti:
     1.1  mrg 	{ .bbb
     1.1  mrg 	  br.sptk.many __fixxfti
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	.endp __fixtfti
     1.1  mrg #endif
     1.1  mrg #ifdef L_fixunstfdi
     1.1  mrg 	.align 16
     1.1  mrg 	.global __fixunstfti
     1.1  mrg 	.proc __fixunstfti
     1.1  mrg __fixunstfti:
     1.1  mrg 	{ .bbb
     1.1  mrg 	  br.sptk.many __fixunsxfti
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	.endp __fixunstfti
     1.1  mrg #endif
     1.1  mrg #ifdef L_floatditf
     1.1  mrg 	.align 16
     1.1  mrg 	.global __floattitf
     1.1  mrg 	.proc __floattitf
     1.1  mrg __floattitf:
     1.1  mrg 	{ .bbb
     1.1  mrg 	  br.sptk.many __floattixf
     1.1  mrg 	  ;;
     1.1  mrg 	}
     1.1  mrg 	.endp __floattitf
     1.1  mrg #endif
     1.1  mrg #endif