mpn/generic/toom33_mul.c

    1.1  mrg /* mpn_toom33_mul -- Multiply {ap,an} and {p,bn} where an and bn are close in
    1.1  mrg    size.  Or more accurately, bn <= an < (3/2)bn.
    1.1  mrg
    1.1  mrg    Contributed to the GNU project by Torbjorn Granlund.
    1.1  mrg    Additional improvements by Marco Bodrato.
    1.1  mrg
    1.1  mrg    THE FUNCTION IN THIS FILE IS INTERNAL WITH A MUTABLE INTERFACE.  IT IS ONLY
    1.1  mrg    SAFE TO REACH IT THROUGH DOCUMENTED INTERFACES.  IN FACT, IT IS ALMOST
    1.1  mrg    GUARANTEED THAT IT WILL CHANGE OR DISAPPEAR IN A FUTURE GNU MP RELEASE.
    1.1  mrg
1.1.1.4  mrg Copyright 2006-2008, 2010, 2012, 2015 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg This file is part of the GNU MP Library.
    1.1  mrg
    1.1  mrg The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.3  mrg it under the terms of either:
1.1.1.3  mrg
1.1.1.3  mrg   * the GNU Lesser General Public License as published by the Free
1.1.1.3  mrg     Software Foundation; either version 3 of the License, or (at your
1.1.1.3  mrg     option) any later version.
1.1.1.3  mrg
1.1.1.3  mrg or
1.1.1.3  mrg
1.1.1.3  mrg   * the GNU General Public License as published by the Free Software
1.1.1.3  mrg     Foundation; either version 2 of the License, or (at your option) any
1.1.1.3  mrg     later version.
1.1.1.3  mrg
1.1.1.3  mrg or both in parallel, as here.
    1.1  mrg
    1.1  mrg The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.3  mrg or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.3  mrg for more details.
    1.1  mrg
1.1.1.3  mrg You should have received copies of the GNU General Public License and the
1.1.1.3  mrg GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.3  mrg see https://www.gnu.org/licenses/.  */
    1.1  mrg
    1.1  mrg
    1.1  mrg #include "gmp-impl.h"
    1.1  mrg
    1.1  mrg /* Evaluate in: -1, 0, +1, +2, +inf
    1.1  mrg
1.1.1.3  mrg   <-s--><--n--><--n-->
1.1.1.3  mrg    ____ ______ ______
1.1.1.3  mrg   |_a2_|___a1_|___a0_|
1.1.1.3  mrg    |b2_|___b1_|___b0_|
1.1.1.3  mrg    <-t-><--n--><--n-->
    1.1  mrg
    1.1  mrg   v0  =  a0         * b0          #   A(0)*B(0)
    1.1  mrg   v1  = (a0+ a1+ a2)*(b0+ b1+ b2) #   A(1)*B(1)      ah  <= 2  bh <= 2
    1.1  mrg   vm1 = (a0- a1+ a2)*(b0- b1+ b2) #  A(-1)*B(-1)    |ah| <= 1  bh <= 1
    1.1  mrg   v2  = (a0+2a1+4a2)*(b0+2b1+4b2) #   A(2)*B(2)      ah  <= 6  bh <= 6
    1.1  mrg   vinf=          a2 *         b2  # A(inf)*B(inf)
    1.1  mrg */
    1.1  mrg
1.1.1.2  mrg #if TUNE_PROGRAM_BUILD || WANT_FAT_BINARY
    1.1  mrg #define MAYBE_mul_basecase 1
    1.1  mrg #define MAYBE_mul_toom33   1
    1.1  mrg #else
    1.1  mrg #define MAYBE_mul_basecase						\
    1.1  mrg   (MUL_TOOM33_THRESHOLD < 3 * MUL_TOOM22_THRESHOLD)
    1.1  mrg #define MAYBE_mul_toom33						\
    1.1  mrg   (MUL_TOOM44_THRESHOLD >= 3 * MUL_TOOM33_THRESHOLD)
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg /* FIXME: TOOM33_MUL_N_REC is not quite right for a balanced
    1.1  mrg    multiplication at the infinity point. We may have
    1.1  mrg    MAYBE_mul_basecase == 0, and still get s just below
    1.1  mrg    MUL_TOOM22_THRESHOLD. If MUL_TOOM33_THRESHOLD == 7, we can even get
    1.1  mrg    s == 1 and mpn_toom22_mul will crash.
    1.1  mrg */
    1.1  mrg
    1.1  mrg #define TOOM33_MUL_N_REC(p, a, b, n, ws)				\
    1.1  mrg   do {									\
    1.1  mrg     if (MAYBE_mul_basecase						\
    1.1  mrg 	&& BELOW_THRESHOLD (n, MUL_TOOM22_THRESHOLD))			\
    1.1  mrg       mpn_mul_basecase (p, a, n, b, n);					\
    1.1  mrg     else if (! MAYBE_mul_toom33						\
    1.1  mrg 	     || BELOW_THRESHOLD (n, MUL_TOOM33_THRESHOLD))		\
    1.1  mrg       mpn_toom22_mul (p, a, n, b, n, ws);				\
    1.1  mrg     else								\
    1.1  mrg       mpn_toom33_mul (p, a, n, b, n, ws);				\
    1.1  mrg   } while (0)
    1.1  mrg
    1.1  mrg void
    1.1  mrg mpn_toom33_mul (mp_ptr pp,
    1.1  mrg 		mp_srcptr ap, mp_size_t an,
    1.1  mrg 		mp_srcptr bp, mp_size_t bn,
    1.1  mrg 		mp_ptr scratch)
    1.1  mrg {
1.1.1.2  mrg   const int __gmpn_cpuvec_initialized = 1;
    1.1  mrg   mp_size_t n, s, t;
    1.1  mrg   int vm1_neg;
    1.1  mrg   mp_limb_t cy, vinf0;
    1.1  mrg   mp_ptr gp;
    1.1  mrg   mp_ptr as1, asm1, as2;
    1.1  mrg   mp_ptr bs1, bsm1, bs2;
    1.1  mrg
    1.1  mrg #define a0  ap
    1.1  mrg #define a1  (ap + n)
    1.1  mrg #define a2  (ap + 2*n)
    1.1  mrg #define b0  bp
    1.1  mrg #define b1  (bp + n)
    1.1  mrg #define b2  (bp + 2*n)
    1.1  mrg
    1.1  mrg   n = (an + 2) / (size_t) 3;
    1.1  mrg
    1.1  mrg   s = an - 2 * n;
    1.1  mrg   t = bn - 2 * n;
    1.1  mrg
    1.1  mrg   ASSERT (an >= bn);
    1.1  mrg
    1.1  mrg   ASSERT (0 < s && s <= n);
    1.1  mrg   ASSERT (0 < t && t <= n);
    1.1  mrg
    1.1  mrg   as1  = scratch + 4 * n + 4;
    1.1  mrg   asm1 = scratch + 2 * n + 2;
    1.1  mrg   as2 = pp + n + 1;
    1.1  mrg
    1.1  mrg   bs1 = pp;
    1.1  mrg   bsm1 = scratch + 3 * n + 3; /* we need 4n+4 <= 4n+s+t */
    1.1  mrg   bs2 = pp + 2 * n + 2;
    1.1  mrg
    1.1  mrg   gp = scratch;
    1.1  mrg
    1.1  mrg   vm1_neg = 0;
    1.1  mrg
    1.1  mrg   /* Compute as1 and asm1.  */
    1.1  mrg   cy = mpn_add (gp, a0, n, a2, s);
    1.1  mrg #if HAVE_NATIVE_mpn_add_n_sub_n
    1.1  mrg   if (cy == 0 && mpn_cmp (gp, a1, n) < 0)
    1.1  mrg     {
    1.1  mrg       cy = mpn_add_n_sub_n (as1, asm1, a1, gp, n);
    1.1  mrg       as1[n] = cy >> 1;
    1.1  mrg       asm1[n] = 0;
    1.1  mrg       vm1_neg = 1;
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       mp_limb_t cy2;
    1.1  mrg       cy2 = mpn_add_n_sub_n (as1, asm1, gp, a1, n);
    1.1  mrg       as1[n] = cy + (cy2 >> 1);
    1.1  mrg       asm1[n] = cy - (cy2 & 1);
    1.1  mrg     }
    1.1  mrg #else
    1.1  mrg   as1[n] = cy + mpn_add_n (as1, gp, a1, n);
    1.1  mrg   if (cy == 0 && mpn_cmp (gp, a1, n) < 0)
    1.1  mrg     {
    1.1  mrg       mpn_sub_n (asm1, a1, gp, n);
    1.1  mrg       asm1[n] = 0;
    1.1  mrg       vm1_neg = 1;
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       cy -= mpn_sub_n (asm1, gp, a1, n);
    1.1  mrg       asm1[n] = cy;
    1.1  mrg     }
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg   /* Compute as2.  */
    1.1  mrg #if HAVE_NATIVE_mpn_rsblsh1_n
    1.1  mrg   cy = mpn_add_n (as2, a2, as1, s);
    1.1  mrg   if (s != n)
    1.1  mrg     cy = mpn_add_1 (as2 + s, as1 + s, n - s, cy);
    1.1  mrg   cy += as1[n];
    1.1  mrg   cy = 2 * cy + mpn_rsblsh1_n (as2, a0, as2, n);
    1.1  mrg #else
    1.1  mrg #if HAVE_NATIVE_mpn_addlsh1_n
    1.1  mrg   cy  = mpn_addlsh1_n (as2, a1, a2, s);
    1.1  mrg   if (s != n)
    1.1  mrg     cy = mpn_add_1 (as2 + s, a1 + s, n - s, cy);
    1.1  mrg   cy = 2 * cy + mpn_addlsh1_n (as2, a0, as2, n);
    1.1  mrg #else
    1.1  mrg   cy = mpn_add_n (as2, a2, as1, s);
    1.1  mrg   if (s != n)
    1.1  mrg     cy = mpn_add_1 (as2 + s, as1 + s, n - s, cy);
    1.1  mrg   cy += as1[n];
    1.1  mrg   cy = 2 * cy + mpn_lshift (as2, as2, n, 1);
    1.1  mrg   cy -= mpn_sub_n (as2, as2, a0, n);
    1.1  mrg #endif
    1.1  mrg #endif
    1.1  mrg   as2[n] = cy;
    1.1  mrg
    1.1  mrg   /* Compute bs1 and bsm1.  */
    1.1  mrg   cy = mpn_add (gp, b0, n, b2, t);
    1.1  mrg #if HAVE_NATIVE_mpn_add_n_sub_n
    1.1  mrg   if (cy == 0 && mpn_cmp (gp, b1, n) < 0)
    1.1  mrg     {
    1.1  mrg       cy = mpn_add_n_sub_n (bs1, bsm1, b1, gp, n);
    1.1  mrg       bs1[n] = cy >> 1;
    1.1  mrg       bsm1[n] = 0;
    1.1  mrg       vm1_neg ^= 1;
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       mp_limb_t cy2;
    1.1  mrg       cy2 = mpn_add_n_sub_n (bs1, bsm1, gp, b1, n);
    1.1  mrg       bs1[n] = cy + (cy2 >> 1);
    1.1  mrg       bsm1[n] = cy - (cy2 & 1);
    1.1  mrg     }
    1.1  mrg #else
    1.1  mrg   bs1[n] = cy + mpn_add_n (bs1, gp, b1, n);
    1.1  mrg   if (cy == 0 && mpn_cmp (gp, b1, n) < 0)
    1.1  mrg     {
    1.1  mrg       mpn_sub_n (bsm1, b1, gp, n);
    1.1  mrg       bsm1[n] = 0;
    1.1  mrg       vm1_neg ^= 1;
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     {
    1.1  mrg       cy -= mpn_sub_n (bsm1, gp, b1, n);
    1.1  mrg       bsm1[n] = cy;
    1.1  mrg     }
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg   /* Compute bs2.  */
    1.1  mrg #if HAVE_NATIVE_mpn_rsblsh1_n
    1.1  mrg   cy = mpn_add_n (bs2, b2, bs1, t);
    1.1  mrg   if (t != n)
    1.1  mrg     cy = mpn_add_1 (bs2 + t, bs1 + t, n - t, cy);
    1.1  mrg   cy += bs1[n];
    1.1  mrg   cy = 2 * cy + mpn_rsblsh1_n (bs2, b0, bs2, n);
    1.1  mrg #else
    1.1  mrg #if HAVE_NATIVE_mpn_addlsh1_n
    1.1  mrg   cy  = mpn_addlsh1_n (bs2, b1, b2, t);
    1.1  mrg   if (t != n)
    1.1  mrg     cy = mpn_add_1 (bs2 + t, b1 + t, n - t, cy);
    1.1  mrg   cy = 2 * cy + mpn_addlsh1_n (bs2, b0, bs2, n);
    1.1  mrg #else
    1.1  mrg   cy  = mpn_add_n (bs2, bs1, b2, t);
    1.1  mrg   if (t != n)
    1.1  mrg     cy = mpn_add_1 (bs2 + t, bs1 + t, n - t, cy);
    1.1  mrg   cy += bs1[n];
    1.1  mrg   cy = 2 * cy + mpn_lshift (bs2, bs2, n, 1);
    1.1  mrg   cy -= mpn_sub_n (bs2, bs2, b0, n);
    1.1  mrg #endif
    1.1  mrg #endif
    1.1  mrg   bs2[n] = cy;
    1.1  mrg
    1.1  mrg   ASSERT (as1[n] <= 2);
    1.1  mrg   ASSERT (bs1[n] <= 2);
    1.1  mrg   ASSERT (asm1[n] <= 1);
    1.1  mrg   ASSERT (bsm1[n] <= 1);
    1.1  mrg   ASSERT (as2[n] <= 6);
    1.1  mrg   ASSERT (bs2[n] <= 6);
    1.1  mrg
    1.1  mrg #define v0    pp				/* 2n */
    1.1  mrg #define v1    (pp + 2 * n)			/* 2n+1 */
    1.1  mrg #define vinf  (pp + 4 * n)			/* s+t */
    1.1  mrg #define vm1   scratch				/* 2n+1 */
    1.1  mrg #define v2    (scratch + 2 * n + 1)		/* 2n+2 */
    1.1  mrg #define scratch_out  (scratch + 5 * n + 5)
    1.1  mrg
    1.1  mrg   /* vm1, 2n+1 limbs */
    1.1  mrg #ifdef SMALLER_RECURSION
    1.1  mrg   TOOM33_MUL_N_REC (vm1, asm1, bsm1, n, scratch_out);
    1.1  mrg   cy = 0;
    1.1  mrg   if (asm1[n] != 0)
    1.1  mrg     cy = bsm1[n] + mpn_add_n (vm1 + n, vm1 + n, bsm1, n);
    1.1  mrg   if (bsm1[n] != 0)
    1.1  mrg     cy += mpn_add_n (vm1 + n, vm1 + n, asm1, n);
    1.1  mrg   vm1[2 * n] = cy;
    1.1  mrg #else
    1.1  mrg   TOOM33_MUL_N_REC (vm1, asm1, bsm1, n + 1, scratch_out);
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg   TOOM33_MUL_N_REC (v2, as2, bs2, n + 1, scratch_out);	/* v2, 2n+1 limbs */
    1.1  mrg
    1.1  mrg   /* vinf, s+t limbs */
    1.1  mrg   if (s > t)  mpn_mul (vinf, a2, s, b2, t);
    1.1  mrg   else        TOOM33_MUL_N_REC (vinf, a2, b2, s, scratch_out);
    1.1  mrg
    1.1  mrg   vinf0 = vinf[0];				/* v1 overlaps with this */
    1.1  mrg
    1.1  mrg #ifdef SMALLER_RECURSION
    1.1  mrg   /* v1, 2n+1 limbs */
    1.1  mrg   TOOM33_MUL_N_REC (v1, as1, bs1, n, scratch_out);
    1.1  mrg   if (as1[n] == 1)
    1.1  mrg     {
    1.1  mrg       cy = bs1[n] + mpn_add_n (v1 + n, v1 + n, bs1, n);
    1.1  mrg     }
    1.1  mrg   else if (as1[n] != 0)
    1.1  mrg     {
1.1.1.4  mrg #if HAVE_NATIVE_mpn_addlsh1_n_ip1
1.1.1.4  mrg       cy = 2 * bs1[n] + mpn_addlsh1_n_ip1 (v1 + n, bs1, n);
    1.1  mrg #else
    1.1  mrg       cy = 2 * bs1[n] + mpn_addmul_1 (v1 + n, bs1, n, CNST_LIMB(2));
    1.1  mrg #endif
    1.1  mrg     }
    1.1  mrg   else
    1.1  mrg     cy = 0;
    1.1  mrg   if (bs1[n] == 1)
    1.1  mrg     {
    1.1  mrg       cy += mpn_add_n (v1 + n, v1 + n, as1, n);
    1.1  mrg     }
    1.1  mrg   else if (bs1[n] != 0)
    1.1  mrg     {
1.1.1.4  mrg #if HAVE_NATIVE_mpn_addlsh1_n_ip1
1.1.1.4  mrg       cy += mpn_addlsh1_n_ip1 (v1 + n, as1, n);
    1.1  mrg #else
    1.1  mrg       cy += mpn_addmul_1 (v1 + n, as1, n, CNST_LIMB(2));
    1.1  mrg #endif
    1.1  mrg     }
    1.1  mrg   v1[2 * n] = cy;
    1.1  mrg #else
    1.1  mrg   cy = vinf[1];
    1.1  mrg   TOOM33_MUL_N_REC (v1, as1, bs1, n + 1, scratch_out);
    1.1  mrg   vinf[1] = cy;
    1.1  mrg #endif
    1.1  mrg
    1.1  mrg   TOOM33_MUL_N_REC (v0, ap, bp, n, scratch_out);	/* v0, 2n limbs */
    1.1  mrg
    1.1  mrg   mpn_toom_interpolate_5pts (pp, v2, vm1, n, s + t, vm1_neg, vinf0);
    1.1  mrg }