mpn/generic/sqr_basecase.c

    1.1  mrg /* mpn_sqr_basecase -- Internal routine to square a natural number
    1.1  mrg    of length n.
    1.1  mrg
    1.1  mrg    THIS IS AN INTERNAL FUNCTION WITH A MUTABLE INTERFACE.  IT IS ONLY
    1.1  mrg    SAFE TO REACH THIS FUNCTION THROUGH DOCUMENTED INTERFACES.
    1.1  mrg
    1.1  mrg
1.1.1.4  mrg Copyright 1991-1994, 1996, 1997, 2000-2005, 2008, 2010, 2011, 2017 Free
1.1.1.4  mrg Software Foundation, Inc.
    1.1  mrg
    1.1  mrg This file is part of the GNU MP Library.
    1.1  mrg
    1.1  mrg The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.3  mrg it under the terms of either:
1.1.1.3  mrg
1.1.1.3  mrg   * the GNU Lesser General Public License as published by the Free
1.1.1.3  mrg     Software Foundation; either version 3 of the License, or (at your
1.1.1.3  mrg     option) any later version.
1.1.1.3  mrg
1.1.1.3  mrg or
1.1.1.3  mrg
1.1.1.3  mrg   * the GNU General Public License as published by the Free Software
1.1.1.3  mrg     Foundation; either version 2 of the License, or (at your option) any
1.1.1.3  mrg     later version.
1.1.1.3  mrg
1.1.1.3  mrg or both in parallel, as here.
    1.1  mrg
    1.1  mrg The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.3  mrg or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.3  mrg for more details.
    1.1  mrg
1.1.1.3  mrg You should have received copies of the GNU General Public License and the
1.1.1.3  mrg GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.3  mrg see https://www.gnu.org/licenses/.  */
    1.1  mrg
    1.1  mrg #include "gmp-impl.h"
    1.1  mrg #include "longlong.h"
    1.1  mrg
    1.1  mrg
    1.1  mrg #if HAVE_NATIVE_mpn_sqr_diagonal
    1.1  mrg #define MPN_SQR_DIAGONAL(rp, up, n)					\
    1.1  mrg   mpn_sqr_diagonal (rp, up, n)
    1.1  mrg #else
    1.1  mrg #define MPN_SQR_DIAGONAL(rp, up, n)					\
    1.1  mrg   do {									\
    1.1  mrg     mp_size_t _i;							\
    1.1  mrg     for (_i = 0; _i < (n); _i++)					\
    1.1  mrg       {									\
    1.1  mrg 	mp_limb_t ul, lpl;						\
    1.1  mrg 	ul = (up)[_i];							\
    1.1  mrg 	umul_ppmm ((rp)[2 * _i + 1], lpl, ul, ul << GMP_NAIL_BITS);	\
    1.1  mrg 	(rp)[2 * _i] = lpl >> GMP_NAIL_BITS;				\
    1.1  mrg       }									\
    1.1  mrg   } while (0)
    1.1  mrg #endif
    1.1  mrg
1.1.1.2  mrg #if HAVE_NATIVE_mpn_sqr_diag_addlsh1
1.1.1.2  mrg #define MPN_SQR_DIAG_ADDLSH1(rp, tp, up, n)				\
1.1.1.2  mrg   mpn_sqr_diag_addlsh1 (rp, tp, up, n)
1.1.1.2  mrg #else
1.1.1.2  mrg #if HAVE_NATIVE_mpn_addlsh1_n
1.1.1.2  mrg #define MPN_SQR_DIAG_ADDLSH1(rp, tp, up, n)				\
1.1.1.2  mrg   do {									\
1.1.1.2  mrg     mp_limb_t cy;							\
1.1.1.2  mrg     MPN_SQR_DIAGONAL (rp, up, n);					\
1.1.1.2  mrg     cy = mpn_addlsh1_n (rp + 1, rp + 1, tp, 2 * n - 2);			\
1.1.1.2  mrg     rp[2 * n - 1] += cy;						\
1.1.1.2  mrg   } while (0)
1.1.1.2  mrg #else
1.1.1.2  mrg #define MPN_SQR_DIAG_ADDLSH1(rp, tp, up, n)				\
1.1.1.2  mrg   do {									\
1.1.1.2  mrg     mp_limb_t cy;							\
1.1.1.2  mrg     MPN_SQR_DIAGONAL (rp, up, n);					\
1.1.1.2  mrg     cy = mpn_lshift (tp, tp, 2 * n - 2, 1);				\
1.1.1.2  mrg     cy += mpn_add_n (rp + 1, rp + 1, tp, 2 * n - 2);			\
1.1.1.2  mrg     rp[2 * n - 1] += cy;						\
1.1.1.2  mrg   } while (0)
1.1.1.2  mrg #endif
1.1.1.2  mrg #endif
1.1.1.2  mrg
    1.1  mrg
    1.1  mrg #undef READY_WITH_mpn_sqr_basecase
    1.1  mrg
    1.1  mrg
    1.1  mrg #if ! defined (READY_WITH_mpn_sqr_basecase) && HAVE_NATIVE_mpn_addmul_2s
    1.1  mrg void
    1.1  mrg mpn_sqr_basecase (mp_ptr rp, mp_srcptr up, mp_size_t n)
    1.1  mrg {
    1.1  mrg   mp_size_t i;
    1.1  mrg   mp_limb_t tarr[2 * SQR_TOOM2_THRESHOLD];
    1.1  mrg   mp_ptr tp = tarr;
    1.1  mrg   mp_limb_t cy;
    1.1  mrg
    1.1  mrg   /* must fit 2*n limbs in tarr */
    1.1  mrg   ASSERT (n <= SQR_TOOM2_THRESHOLD);
    1.1  mrg
    1.1  mrg   if ((n & 1) != 0)
    1.1  mrg     {
    1.1  mrg       if (n == 1)
    1.1  mrg 	{
    1.1  mrg 	  mp_limb_t ul, lpl;
    1.1  mrg 	  ul = up[0];
    1.1  mrg 	  umul_ppmm (rp[1], lpl, ul, ul << GMP_NAIL_BITS);
    1.1  mrg 	  rp[0] = lpl >> GMP_NAIL_BITS;
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       MPN_ZERO (tp, n);
    1.1  mrg
    1.1  mrg       for (i = 0; i <= n - 2; i += 2)
    1.1  mrg 	{
    1.1  mrg 	  cy = mpn_addmul_2s (tp + 2 * i, up + i + 1, n - (i + 1), up + i);
    1.1  mrg 	  tp[n + i] = cy;
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       if (n == 2)
    1.1  mrg 	{
1.1.1.2  mrg #if HAVE_NATIVE_mpn_mul_2
1.1.1.2  mrg 	  rp[3] = mpn_mul_2 (rp, up, 2, up);
1.1.1.2  mrg #else
    1.1  mrg 	  rp[0] = 0;
    1.1  mrg 	  rp[1] = 0;
    1.1  mrg 	  rp[3] = mpn_addmul_2 (rp, up, 2, up);
1.1.1.2  mrg #endif
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       MPN_ZERO (tp, n);
    1.1  mrg
    1.1  mrg       for (i = 0; i <= n - 4; i += 2)
    1.1  mrg 	{
    1.1  mrg 	  cy = mpn_addmul_2s (tp + 2 * i, up + i + 1, n - (i + 1), up + i);
    1.1  mrg 	  tp[n + i] = cy;
    1.1  mrg 	}
    1.1  mrg       cy = mpn_addmul_1 (tp + 2 * n - 4, up + n - 1, 1, up[n - 2]);
    1.1  mrg       tp[2 * n - 3] = cy;
    1.1  mrg     }
    1.1  mrg
1.1.1.2  mrg   MPN_SQR_DIAG_ADDLSH1 (rp, tp, up, n);
    1.1  mrg }
    1.1  mrg #define READY_WITH_mpn_sqr_basecase
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg
    1.1  mrg #if ! defined (READY_WITH_mpn_sqr_basecase) && HAVE_NATIVE_mpn_addmul_2
    1.1  mrg
    1.1  mrg /* mpn_sqr_basecase using plain mpn_addmul_2.
    1.1  mrg
    1.1  mrg    This is tricky, since we have to let mpn_addmul_2 make some undesirable
    1.1  mrg    multiplies, u[k]*u[k], that we would like to let mpn_sqr_diagonal handle.
    1.1  mrg    This forces us to conditionally add or subtract the mpn_sqr_diagonal
    1.1  mrg    results.  Examples of the product we form:
    1.1  mrg
    1.1  mrg    n = 4              n = 5		n = 6
    1.1  mrg    u1u0 * u3u2u1      u1u0 * u4u3u2u1	u1u0 * u5u4u3u2u1
    1.1  mrg    u2 * u3	      u3u2 * u4u3	u3u2 * u5u4u3
    1.1  mrg 					u4 * u5
    1.1  mrg    add: u0 u2 u3      add: u0 u2 u4	add: u0 u2 u4 u5
    1.1  mrg    sub: u1	      sub: u1 u3	sub: u1 u3
    1.1  mrg */
    1.1  mrg
    1.1  mrg void
    1.1  mrg mpn_sqr_basecase (mp_ptr rp, mp_srcptr up, mp_size_t n)
    1.1  mrg {
    1.1  mrg   mp_size_t i;
    1.1  mrg   mp_limb_t tarr[2 * SQR_TOOM2_THRESHOLD];
    1.1  mrg   mp_ptr tp = tarr;
    1.1  mrg   mp_limb_t cy;
    1.1  mrg
    1.1  mrg   /* must fit 2*n limbs in tarr */
    1.1  mrg   ASSERT (n <= SQR_TOOM2_THRESHOLD);
    1.1  mrg
    1.1  mrg   if ((n & 1) != 0)
    1.1  mrg     {
    1.1  mrg       mp_limb_t x0, x1;
    1.1  mrg
    1.1  mrg       if (n == 1)
    1.1  mrg 	{
    1.1  mrg 	  mp_limb_t ul, lpl;
    1.1  mrg 	  ul = up[0];
    1.1  mrg 	  umul_ppmm (rp[1], lpl, ul, ul << GMP_NAIL_BITS);
    1.1  mrg 	  rp[0] = lpl >> GMP_NAIL_BITS;
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       /* The code below doesn't like unnormalized operands.  Since such
    1.1  mrg 	 operands are unusual, handle them with a dumb recursion.  */
    1.1  mrg       if (up[n - 1] == 0)
    1.1  mrg 	{
    1.1  mrg 	  rp[2 * n - 2] = 0;
    1.1  mrg 	  rp[2 * n - 1] = 0;
    1.1  mrg 	  mpn_sqr_basecase (rp, up, n - 1);
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       MPN_ZERO (tp, n);
    1.1  mrg
    1.1  mrg       for (i = 0; i <= n - 2; i += 2)
    1.1  mrg 	{
    1.1  mrg 	  cy = mpn_addmul_2 (tp + 2 * i, up + i + 1, n - (i + 1), up + i);
    1.1  mrg 	  tp[n + i] = cy;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       MPN_SQR_DIAGONAL (rp, up, n);
    1.1  mrg
    1.1  mrg       for (i = 2;; i += 4)
    1.1  mrg 	{
    1.1  mrg 	  x0 = rp[i + 0];
    1.1  mrg 	  rp[i + 0] = (-x0) & GMP_NUMB_MASK;
    1.1  mrg 	  x1 = rp[i + 1];
    1.1  mrg 	  rp[i + 1] = (-x1 - (x0 != 0)) & GMP_NUMB_MASK;
    1.1  mrg 	  __GMPN_SUB_1 (cy, rp + i + 2, rp + i + 2, 2, (x1 | x0) != 0);
    1.1  mrg 	  if (i + 4 >= 2 * n)
    1.1  mrg 	    break;
    1.1  mrg 	  mpn_incr_u (rp + i + 4, cy);
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       mp_limb_t x0, x1;
    1.1  mrg
    1.1  mrg       if (n == 2)
    1.1  mrg 	{
1.1.1.2  mrg #if HAVE_NATIVE_mpn_mul_2
1.1.1.2  mrg 	  rp[3] = mpn_mul_2 (rp, up, 2, up);
1.1.1.2  mrg #else
    1.1  mrg 	  rp[0] = 0;
    1.1  mrg 	  rp[1] = 0;
    1.1  mrg 	  rp[3] = mpn_addmul_2 (rp, up, 2, up);
1.1.1.2  mrg #endif
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       /* The code below doesn't like unnormalized operands.  Since such
    1.1  mrg 	 operands are unusual, handle them with a dumb recursion.  */
    1.1  mrg       if (up[n - 1] == 0)
    1.1  mrg 	{
    1.1  mrg 	  rp[2 * n - 2] = 0;
    1.1  mrg 	  rp[2 * n - 1] = 0;
    1.1  mrg 	  mpn_sqr_basecase (rp, up, n - 1);
    1.1  mrg 	  return;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       MPN_ZERO (tp, n);
    1.1  mrg
    1.1  mrg       for (i = 0; i <= n - 4; i += 2)
    1.1  mrg 	{
    1.1  mrg 	  cy = mpn_addmul_2 (tp + 2 * i, up + i + 1, n - (i + 1), up + i);
    1.1  mrg 	  tp[n + i] = cy;
    1.1  mrg 	}
    1.1  mrg       cy = mpn_addmul_1 (tp + 2 * n - 4, up + n - 1, 1, up[n - 2]);
    1.1  mrg       tp[2 * n - 3] = cy;
    1.1  mrg
    1.1  mrg       MPN_SQR_DIAGONAL (rp, up, n);
    1.1  mrg
    1.1  mrg       for (i = 2;; i += 4)
    1.1  mrg 	{
    1.1  mrg 	  x0 = rp[i + 0];
    1.1  mrg 	  rp[i + 0] = (-x0) & GMP_NUMB_MASK;
    1.1  mrg 	  x1 = rp[i + 1];
    1.1  mrg 	  rp[i + 1] = (-x1 - (x0 != 0)) & GMP_NUMB_MASK;
    1.1  mrg 	  if (i + 6 >= 2 * n)
    1.1  mrg 	    break;
    1.1  mrg 	  __GMPN_SUB_1 (cy, rp + i + 2, rp + i + 2, 2, (x1 | x0) != 0);
    1.1  mrg 	  mpn_incr_u (rp + i + 4, cy);
    1.1  mrg 	}
    1.1  mrg       mpn_decr_u (rp + i + 2, (x1 | x0) != 0);
    1.1  mrg     }
    1.1  mrg
    1.1  mrg #if HAVE_NATIVE_mpn_addlsh1_n
    1.1  mrg   cy = mpn_addlsh1_n (rp + 1, rp + 1, tp, 2 * n - 2);
    1.1  mrg #else
    1.1  mrg   cy = mpn_lshift (tp, tp, 2 * n - 2, 1);
    1.1  mrg   cy += mpn_add_n (rp + 1, rp + 1, tp, 2 * n - 2);
    1.1  mrg #endif
    1.1  mrg   rp[2 * n - 1] += cy;
    1.1  mrg }
    1.1  mrg #define READY_WITH_mpn_sqr_basecase
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg
1.1.1.4  mrg #if ! defined (READY_WITH_mpn_sqr_basecase) && HAVE_NATIVE_mpn_sqr_diag_addlsh1
1.1.1.4  mrg
1.1.1.4  mrg /* mpn_sqr_basecase using mpn_addmul_1 and mpn_sqr_diag_addlsh1, avoiding stack
1.1.1.4  mrg    allocation.  */
1.1.1.4  mrg void
1.1.1.4  mrg mpn_sqr_basecase (mp_ptr rp, mp_srcptr up, mp_size_t n)
1.1.1.4  mrg {
1.1.1.4  mrg   if (n == 1)
1.1.1.4  mrg     {
1.1.1.4  mrg       mp_limb_t ul, lpl;
1.1.1.4  mrg       ul = up[0];
1.1.1.4  mrg       umul_ppmm (rp[1], lpl, ul, ul << GMP_NAIL_BITS);
1.1.1.4  mrg       rp[0] = lpl >> GMP_NAIL_BITS;
1.1.1.4  mrg     }
1.1.1.4  mrg   else
1.1.1.4  mrg     {
1.1.1.4  mrg       mp_size_t i;
1.1.1.4  mrg       mp_ptr xp;
1.1.1.4  mrg
1.1.1.4  mrg       rp += 1;
1.1.1.4  mrg       rp[n - 1] = mpn_mul_1 (rp, up + 1, n - 1, up[0]);
1.1.1.4  mrg       for (i = n - 2; i != 0; i--)
1.1.1.4  mrg 	{
1.1.1.4  mrg 	  up += 1;
1.1.1.4  mrg 	  rp += 2;
1.1.1.4  mrg 	  rp[i] = mpn_addmul_1 (rp, up + 1, i, up[0]);
1.1.1.4  mrg 	}
1.1.1.4  mrg
1.1.1.4  mrg       xp = rp - 2 * n + 3;
1.1.1.4  mrg       mpn_sqr_diag_addlsh1 (xp, xp + 1, up - n + 2, n);
1.1.1.4  mrg     }
1.1.1.4  mrg }
1.1.1.4  mrg #define READY_WITH_mpn_sqr_basecase
1.1.1.4  mrg #endif
1.1.1.4  mrg
1.1.1.4  mrg
    1.1  mrg #if ! defined (READY_WITH_mpn_sqr_basecase)
    1.1  mrg
    1.1  mrg /* Default mpn_sqr_basecase using mpn_addmul_1.  */
    1.1  mrg void
    1.1  mrg mpn_sqr_basecase (mp_ptr rp, mp_srcptr up, mp_size_t n)
    1.1  mrg {
    1.1  mrg   mp_size_t i;
    1.1  mrg
    1.1  mrg   ASSERT (n >= 1);
    1.1  mrg   ASSERT (! MPN_OVERLAP_P (rp, 2*n, up, n));
    1.1  mrg
1.1.1.4  mrg   if (n == 1)
1.1.1.4  mrg     {
1.1.1.4  mrg       mp_limb_t ul, lpl;
1.1.1.4  mrg       ul = up[0];
1.1.1.4  mrg       umul_ppmm (rp[1], lpl, ul, ul << GMP_NAIL_BITS);
1.1.1.4  mrg       rp[0] = lpl >> GMP_NAIL_BITS;
1.1.1.4  mrg     }
1.1.1.4  mrg   else
    1.1  mrg     {
    1.1  mrg       mp_limb_t tarr[2 * SQR_TOOM2_THRESHOLD];
    1.1  mrg       mp_ptr tp = tarr;
    1.1  mrg       mp_limb_t cy;
    1.1  mrg
    1.1  mrg       /* must fit 2*n limbs in tarr */
    1.1  mrg       ASSERT (n <= SQR_TOOM2_THRESHOLD);
    1.1  mrg
    1.1  mrg       cy = mpn_mul_1 (tp, up + 1, n - 1, up[0]);
    1.1  mrg       tp[n - 1] = cy;
    1.1  mrg       for (i = 2; i < n; i++)
    1.1  mrg 	{
    1.1  mrg 	  mp_limb_t cy;
    1.1  mrg 	  cy = mpn_addmul_1 (tp + 2 * i - 2, up + i, n - i, up[i - 1]);
    1.1  mrg 	  tp[n + i - 2] = cy;
    1.1  mrg 	}
    1.1  mrg
1.1.1.2  mrg       MPN_SQR_DIAG_ADDLSH1 (rp, tp, up, n);
    1.1  mrg     }
    1.1  mrg }
1.1.1.4  mrg #define READY_WITH_mpn_sqr_basecase
    1.1  mrg #endif