mpn/generic/sbpi1_div_q.c

1.1.1.2  mrg /* mpn_sbpi1_div_q -- Schoolbook division using the Mller-Granlund 3/2
    1.1  mrg    division algorithm.
    1.1  mrg
    1.1  mrg    Contributed to the GNU project by Torbjorn Granlund.
    1.1  mrg
    1.1  mrg    THE FUNCTION IN THIS FILE IS INTERNAL WITH A MUTABLE INTERFACE.  IT IS ONLY
    1.1  mrg    SAFE TO REACH IT THROUGH DOCUMENTED INTERFACES.  IN FACT, IT IS ALMOST
    1.1  mrg    GUARANTEED THAT IT WILL CHANGE OR DISAPPEAR IN A FUTURE GMP RELEASE.
    1.1  mrg
    1.1  mrg Copyright 2007, 2009 Free Software Foundation, Inc.
    1.1  mrg
    1.1  mrg This file is part of the GNU MP Library.
    1.1  mrg
    1.1  mrg The GNU MP Library is free software; you can redistribute it and/or modify
1.1.1.2  mrg it under the terms of either:
1.1.1.2  mrg
1.1.1.2  mrg   * the GNU Lesser General Public License as published by the Free
1.1.1.2  mrg     Software Foundation; either version 3 of the License, or (at your
1.1.1.2  mrg     option) any later version.
1.1.1.2  mrg
1.1.1.2  mrg or
1.1.1.2  mrg
1.1.1.2  mrg   * the GNU General Public License as published by the Free Software
1.1.1.2  mrg     Foundation; either version 2 of the License, or (at your option) any
1.1.1.2  mrg     later version.
1.1.1.2  mrg
1.1.1.2  mrg or both in parallel, as here.
    1.1  mrg
    1.1  mrg The GNU MP Library is distributed in the hope that it will be useful, but
    1.1  mrg WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY
1.1.1.2  mrg or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License
1.1.1.2  mrg for more details.
    1.1  mrg
1.1.1.2  mrg You should have received copies of the GNU General Public License and the
1.1.1.2  mrg GNU Lesser General Public License along with the GNU MP Library.  If not,
1.1.1.2  mrg see https://www.gnu.org/licenses/.  */
    1.1  mrg
    1.1  mrg
    1.1  mrg #include "gmp-impl.h"
    1.1  mrg #include "longlong.h"
    1.1  mrg
    1.1  mrg mp_limb_t
    1.1  mrg mpn_sbpi1_div_q (mp_ptr qp,
    1.1  mrg 		 mp_ptr np, mp_size_t nn,
    1.1  mrg 		 mp_srcptr dp, mp_size_t dn,
    1.1  mrg 		 mp_limb_t dinv)
    1.1  mrg {
    1.1  mrg   mp_limb_t qh;
    1.1  mrg   mp_size_t qn, i;
    1.1  mrg   mp_limb_t n1, n0;
    1.1  mrg   mp_limb_t d1, d0;
    1.1  mrg   mp_limb_t cy, cy1;
    1.1  mrg   mp_limb_t q;
    1.1  mrg   mp_limb_t flag;
    1.1  mrg
    1.1  mrg   mp_size_t dn_orig = dn;
    1.1  mrg   mp_srcptr dp_orig = dp;
    1.1  mrg   mp_ptr np_orig = np;
    1.1  mrg
    1.1  mrg   ASSERT (dn > 2);
    1.1  mrg   ASSERT (nn >= dn);
    1.1  mrg   ASSERT ((dp[dn-1] & GMP_NUMB_HIGHBIT) != 0);
    1.1  mrg
    1.1  mrg   np += nn;
    1.1  mrg
    1.1  mrg   qn = nn - dn;
    1.1  mrg   if (qn + 1 < dn)
    1.1  mrg     {
    1.1  mrg       dp += dn - (qn + 1);
    1.1  mrg       dn = qn + 1;
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   qh = mpn_cmp (np - dn, dp, dn) >= 0;
    1.1  mrg   if (qh != 0)
    1.1  mrg     mpn_sub_n (np - dn, np - dn, dp, dn);
    1.1  mrg
    1.1  mrg   qp += qn;
    1.1  mrg
    1.1  mrg   dn -= 2;			/* offset dn by 2 for main division loops,
    1.1  mrg 				   saving two iterations in mpn_submul_1.  */
    1.1  mrg   d1 = dp[dn + 1];
    1.1  mrg   d0 = dp[dn + 0];
    1.1  mrg
    1.1  mrg   np -= 2;
    1.1  mrg
    1.1  mrg   n1 = np[1];
    1.1  mrg
    1.1  mrg   for (i = qn - (dn + 2); i >= 0; i--)
    1.1  mrg     {
    1.1  mrg       np--;
    1.1  mrg       if (UNLIKELY (n1 == d1) && np[1] == d0)
    1.1  mrg 	{
    1.1  mrg 	  q = GMP_NUMB_MASK;
    1.1  mrg 	  mpn_submul_1 (np - dn, dp, dn + 2, q);
    1.1  mrg 	  n1 = np[1];		/* update n1, last loop's value will now be invalid */
    1.1  mrg 	}
    1.1  mrg       else
    1.1  mrg 	{
    1.1  mrg 	  udiv_qr_3by2 (q, n1, n0, n1, np[1], np[0], d1, d0, dinv);
    1.1  mrg
    1.1  mrg 	  cy = mpn_submul_1 (np - dn, dp, dn, q);
    1.1  mrg
    1.1  mrg 	  cy1 = n0 < cy;
    1.1  mrg 	  n0 = (n0 - cy) & GMP_NUMB_MASK;
    1.1  mrg 	  cy = n1 < cy1;
    1.1  mrg 	  n1 -= cy1;
    1.1  mrg 	  np[0] = n0;
    1.1  mrg
    1.1  mrg 	  if (UNLIKELY (cy != 0))
    1.1  mrg 	    {
    1.1  mrg 	      n1 += d1 + mpn_add_n (np - dn, np - dn, dp, dn + 1);
    1.1  mrg 	      q--;
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       *--qp = q;
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   flag = ~CNST_LIMB(0);
    1.1  mrg
    1.1  mrg   if (dn >= 0)
    1.1  mrg     {
    1.1  mrg       for (i = dn; i > 0; i--)
    1.1  mrg 	{
    1.1  mrg 	  np--;
    1.1  mrg 	  if (UNLIKELY (n1 >= (d1 & flag)))
    1.1  mrg 	    {
    1.1  mrg 	      q = GMP_NUMB_MASK;
    1.1  mrg 	      cy = mpn_submul_1 (np - dn, dp, dn + 2, q);
    1.1  mrg
    1.1  mrg 	      if (UNLIKELY (n1 != cy))
    1.1  mrg 		{
    1.1  mrg 		  if (n1 < (cy & flag))
    1.1  mrg 		    {
    1.1  mrg 		      q--;
    1.1  mrg 		      mpn_add_n (np - dn, np - dn, dp, dn + 2);
    1.1  mrg 		    }
    1.1  mrg 		  else
    1.1  mrg 		    flag = 0;
    1.1  mrg 		}
    1.1  mrg 	      n1 = np[1];
    1.1  mrg 	    }
    1.1  mrg 	  else
    1.1  mrg 	    {
    1.1  mrg 	      udiv_qr_3by2 (q, n1, n0, n1, np[1], np[0], d1, d0, dinv);
    1.1  mrg
    1.1  mrg 	      cy = mpn_submul_1 (np - dn, dp, dn, q);
    1.1  mrg
    1.1  mrg 	      cy1 = n0 < cy;
    1.1  mrg 	      n0 = (n0 - cy) & GMP_NUMB_MASK;
    1.1  mrg 	      cy = n1 < cy1;
    1.1  mrg 	      n1 -= cy1;
    1.1  mrg 	      np[0] = n0;
    1.1  mrg
    1.1  mrg 	      if (UNLIKELY (cy != 0))
    1.1  mrg 		{
    1.1  mrg 		  n1 += d1 + mpn_add_n (np - dn, np - dn, dp, dn + 1);
    1.1  mrg 		  q--;
    1.1  mrg 		}
    1.1  mrg 	    }
    1.1  mrg
    1.1  mrg 	  *--qp = q;
    1.1  mrg
    1.1  mrg 	  /* Truncate operands.  */
    1.1  mrg 	  dn--;
    1.1  mrg 	  dp++;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       np--;
    1.1  mrg       if (UNLIKELY (n1 >= (d1 & flag)))
    1.1  mrg 	{
    1.1  mrg 	  q = GMP_NUMB_MASK;
    1.1  mrg 	  cy = mpn_submul_1 (np, dp, 2, q);
    1.1  mrg
    1.1  mrg 	  if (UNLIKELY (n1 != cy))
    1.1  mrg 	    {
    1.1  mrg 	      if (n1 < (cy & flag))
    1.1  mrg 		{
    1.1  mrg 		  q--;
    1.1  mrg 		  add_ssaaaa (np[1], np[0], np[1], np[0], dp[1], dp[0]);
    1.1  mrg 		}
    1.1  mrg 	      else
    1.1  mrg 		flag = 0;
    1.1  mrg 	    }
    1.1  mrg 	  n1 = np[1];
    1.1  mrg 	}
    1.1  mrg       else
    1.1  mrg 	{
    1.1  mrg 	  udiv_qr_3by2 (q, n1, n0, n1, np[1], np[0], d1, d0, dinv);
    1.1  mrg
    1.1  mrg 	  np[0] = n0;
    1.1  mrg 	  np[1] = n1;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       *--qp = q;
    1.1  mrg     }
    1.1  mrg   ASSERT_ALWAYS (np[1] == n1);
    1.1  mrg   np += 2;
    1.1  mrg
    1.1  mrg
    1.1  mrg   dn = dn_orig;
    1.1  mrg   if (UNLIKELY (n1 < (dn & flag)))
    1.1  mrg     {
    1.1  mrg       mp_limb_t q, x;
    1.1  mrg
    1.1  mrg       /* The quotient may be too large if the remainder is small.  Recompute
    1.1  mrg 	 for above ignored operand parts, until the remainder spills.
    1.1  mrg
    1.1  mrg 	 FIXME: The quality of this code isn't the same as the code above.
    1.1  mrg 	 1. We don't compute things in an optimal order, high-to-low, in order
    1.1  mrg 	    to terminate as quickly as possible.
    1.1  mrg 	 2. We mess with pointers and sizes, adding and subtracting and
    1.1  mrg 	    adjusting to get things right.  It surely could be streamlined.
    1.1  mrg 	 3. The only termination criteria are that we determine that the
    1.1  mrg 	    quotient needs to be adjusted, or that we have recomputed
    1.1  mrg 	    everything.  We should stop when the remainder is so large
    1.1  mrg 	    that no additional subtracting could make it spill.
    1.1  mrg 	 4. If nothing else, we should not do two loops of submul_1 over the
    1.1  mrg 	    data, instead handle both the triangularization and chopping at
    1.1  mrg 	    once.  */
    1.1  mrg
    1.1  mrg       x = n1;
    1.1  mrg
    1.1  mrg       if (dn > 2)
    1.1  mrg 	{
    1.1  mrg 	  /* Compensate for triangularization.  */
    1.1  mrg 	  mp_limb_t y;
    1.1  mrg
    1.1  mrg 	  dp = dp_orig;
    1.1  mrg 	  if (qn + 1 < dn)
    1.1  mrg 	    {
    1.1  mrg 	      dp += dn - (qn + 1);
    1.1  mrg 	      dn = qn + 1;
    1.1  mrg 	    }
    1.1  mrg
    1.1  mrg 	  y = np[-2];
    1.1  mrg
    1.1  mrg 	  for (i = dn - 3; i >= 0; i--)
    1.1  mrg 	    {
    1.1  mrg 	      q = qp[i];
    1.1  mrg 	      cy = mpn_submul_1 (np - (dn - i), dp, dn - i - 2, q);
    1.1  mrg
    1.1  mrg 	      if (y < cy)
    1.1  mrg 		{
    1.1  mrg 		  if (x == 0)
    1.1  mrg 		    {
    1.1  mrg 		      cy = mpn_sub_1 (qp, qp, qn, 1);
    1.1  mrg 		      ASSERT_ALWAYS (cy == 0);
    1.1  mrg 		      return qh - cy;
    1.1  mrg 		    }
    1.1  mrg 		  x--;
    1.1  mrg 		}
    1.1  mrg 	      y -= cy;
    1.1  mrg 	    }
    1.1  mrg 	  np[-2] = y;
    1.1  mrg 	}
    1.1  mrg
    1.1  mrg       dn = dn_orig;
    1.1  mrg       if (qn + 1 < dn)
    1.1  mrg 	{
    1.1  mrg 	  /* Compensate for ignored dividend and divisor tails.  */
    1.1  mrg
    1.1  mrg 	  dp = dp_orig;
    1.1  mrg 	  np = np_orig;
    1.1  mrg
    1.1  mrg 	  if (qh != 0)
    1.1  mrg 	    {
    1.1  mrg 	      cy = mpn_sub_n (np + qn, np + qn, dp, dn - (qn + 1));
    1.1  mrg 	      if (cy != 0)
    1.1  mrg 		{
    1.1  mrg 		  if (x == 0)
    1.1  mrg 		    {
    1.1  mrg 		      if (qn != 0)
    1.1  mrg 			cy = mpn_sub_1 (qp, qp, qn, 1);
    1.1  mrg 		      return qh - cy;
    1.1  mrg 		    }
    1.1  mrg 		  x--;
    1.1  mrg 		}
    1.1  mrg 	    }
    1.1  mrg
    1.1  mrg 	  if (qn == 0)
    1.1  mrg 	    return qh;
    1.1  mrg
    1.1  mrg 	  for (i = dn - qn - 2; i >= 0; i--)
    1.1  mrg 	    {
    1.1  mrg 	      cy = mpn_submul_1 (np + i, qp, qn, dp[i]);
    1.1  mrg 	      cy = mpn_sub_1 (np + qn + i, np + qn + i, dn - qn - i - 1, cy);
    1.1  mrg 	      if (cy != 0)
    1.1  mrg 		{
    1.1  mrg 		  if (x == 0)
    1.1  mrg 		    {
    1.1  mrg 		      cy = mpn_sub_1 (qp, qp, qn, 1);
    1.1  mrg 		      return qh;
    1.1  mrg 		    }
    1.1  mrg 		  x--;
    1.1  mrg 		}
    1.1  mrg 	    }
    1.1  mrg 	}
    1.1  mrg     }
    1.1  mrg
    1.1  mrg   return qh;
    1.1  mrg }