src/util/softfloat.c

7ec681f3Smrg/*
7ec681f3Smrg * License for Berkeley SoftFloat Release 3e
7ec681f3Smrg *
7ec681f3Smrg * John R. Hauser
7ec681f3Smrg * 2018 January 20
7ec681f3Smrg *
7ec681f3Smrg * The following applies to the whole of SoftFloat Release 3e as well as to
7ec681f3Smrg * each source file individually.
7ec681f3Smrg *
7ec681f3Smrg * Copyright 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018 The Regents of the
7ec681f3Smrg * University of California.  All rights reserved.
7ec681f3Smrg *
7ec681f3Smrg * Redistribution and use in source and binary forms, with or without
7ec681f3Smrg * modification, are permitted provided that the following conditions are met:
7ec681f3Smrg *
7ec681f3Smrg *  1. Redistributions of source code must retain the above copyright notice,
7ec681f3Smrg *     this list of conditions, and the following disclaimer.
7ec681f3Smrg *
7ec681f3Smrg *  2. Redistributions in binary form must reproduce the above copyright
7ec681f3Smrg *     notice, this list of conditions, and the following disclaimer in the
7ec681f3Smrg *     documentation and/or other materials provided with the distribution.
7ec681f3Smrg *
7ec681f3Smrg *  3. Neither the name of the University nor the names of its contributors
7ec681f3Smrg *     may be used to endorse or promote products derived from this software
7ec681f3Smrg *     without specific prior written permission.
7ec681f3Smrg *
7ec681f3Smrg * THIS SOFTWARE IS PROVIDED BY THE REGENTS AND CONTRIBUTORS "AS IS", AND ANY
7ec681f3Smrg * EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
7ec681f3Smrg * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE, ARE
7ec681f3Smrg * DISCLAIMED.  IN NO EVENT SHALL THE REGENTS OR CONTRIBUTORS BE LIABLE FOR ANY
7ec681f3Smrg * DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
7ec681f3Smrg * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
7ec681f3Smrg * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
7ec681f3Smrg * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
7ec681f3Smrg * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF
7ec681f3Smrg * THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
7ec681f3Smrg *
7ec681f3Smrg *
7ec681f3Smrg * The functions listed in this file are modified versions of the ones
7ec681f3Smrg * from the Berkeley SoftFloat 3e Library.
7ec681f3Smrg *
7ec681f3Smrg * Their implementation correctness has been checked with the Berkeley
7ec681f3Smrg * TestFloat Release 3e tool for x86_64.
7ec681f3Smrg */
7ec681f3Smrg
7ec681f3Smrg#include "rounding.h"
7ec681f3Smrg#include "bitscan.h"
7ec681f3Smrg#include "softfloat.h"
7ec681f3Smrg
7ec681f3Smrg#if defined(BIG_ENDIAN)
7ec681f3Smrg#define word_incr -1
7ec681f3Smrg#define index_word(total, n) ((total) - 1 - (n))
7ec681f3Smrg#define index_word_hi(total) 0
7ec681f3Smrg#define index_word_lo(total) ((total) - 1)
7ec681f3Smrg#define index_multiword_hi(total, n) 0
7ec681f3Smrg#define index_multiword_lo(total, n) ((total) - (n))
7ec681f3Smrg#define index_multiword_hi_but(total, n) 0
7ec681f3Smrg#define index_multiword_lo_but(total, n) (n)
7ec681f3Smrg#else
7ec681f3Smrg#define word_incr 1
7ec681f3Smrg#define index_word(total, n) (n)
7ec681f3Smrg#define index_word_hi(total) ((total) - 1)
7ec681f3Smrg#define index_word_lo(total) 0
7ec681f3Smrg#define index_multiword_hi(total, n) ((total) - (n))
7ec681f3Smrg#define index_multiword_lo(total, n) 0
7ec681f3Smrg#define index_multiword_hi_but(total, n) (n)
7ec681f3Smrg#define index_multiword_lo_but(total, n) 0
7ec681f3Smrg#endif
7ec681f3Smrg
7ec681f3Smrgtypedef union { double f; int64_t i; uint64_t u; } di_type;
7ec681f3Smrgtypedef union { float f; int32_t i; uint32_t u; } fi_type;
7ec681f3Smrg
7ec681f3Smrgconst uint8_t count_leading_zeros8[256] = {
7ec681f3Smrg    8, 7, 6, 6, 5, 5, 5, 5, 4, 4, 4, 4, 4, 4, 4, 4,
7ec681f3Smrg    3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3,
7ec681f3Smrg    2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
7ec681f3Smrg    2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
7ec681f3Smrg    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
7ec681f3Smrg    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
7ec681f3Smrg    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
7ec681f3Smrg    1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
7ec681f3Smrg    0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0
7ec681f3Smrg};
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts 'a' right by the number of bits given in 'dist', which must be in
7ec681f3Smrg * the range 1 to 63.  If any nonzero bits are shifted off, they are "jammed"
7ec681f3Smrg * into the least-significant bit of the shifted value by setting the
7ec681f3Smrg * least-significant bit to 1.  This shifted-and-jammed value is returned.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shortShiftRightJam64()
7ec681f3Smrg */
7ec681f3Smrgstatic inline
7ec681f3Smrguint64_t _mesa_short_shift_right_jam64(uint64_t a, uint8_t dist)
7ec681f3Smrg{
7ec681f3Smrg    return a >> dist | ((a & (((uint64_t) 1 << dist) - 1)) != 0);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts 'a' right by the number of bits given in 'dist', which must not
7ec681f3Smrg * be zero.  If any nonzero bits are shifted off, they are "jammed" into the
7ec681f3Smrg * least-significant bit of the shifted value by setting the least-significant
7ec681f3Smrg * bit to 1.  This shifted-and-jammed value is returned.
7ec681f3Smrg * The value of 'dist' can be arbitrarily large.  In particular, if 'dist' is
7ec681f3Smrg * greater than 64, the result will be either 0 or 1, depending on whether 'a'
7ec681f3Smrg * is zero or nonzero.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shiftRightJam64()
7ec681f3Smrg */
7ec681f3Smrgstatic inline
7ec681f3Smrguint64_t _mesa_shift_right_jam64(uint64_t a, uint32_t dist)
7ec681f3Smrg{
7ec681f3Smrg    return
7ec681f3Smrg        (dist < 63) ? a >> dist | ((uint64_t) (a << (-dist & 63)) != 0) : (a != 0);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts 'a' right by the number of bits given in 'dist', which must not be
7ec681f3Smrg * zero.  If any nonzero bits are shifted off, they are "jammed" into the
7ec681f3Smrg * least-significant bit of the shifted value by setting the least-significant
7ec681f3Smrg * bit to 1.  This shifted-and-jammed value is returned.
7ec681f3Smrg * The value of 'dist' can be arbitrarily large.  In particular, if 'dist' is
7ec681f3Smrg * greater than 32, the result will be either 0 or 1, depending on whether 'a'
7ec681f3Smrg * is zero or nonzero.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shiftRightJam32()
7ec681f3Smrg */
7ec681f3Smrgstatic inline
7ec681f3Smrguint32_t _mesa_shift_right_jam32(uint32_t a, uint16_t dist)
7ec681f3Smrg{
7ec681f3Smrg    return
7ec681f3Smrg        (dist < 31) ? a >> dist | ((uint32_t) (a << (-dist & 31)) != 0) : (a != 0);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Extracted from softfloat_roundPackToF64()
7ec681f3Smrg */
7ec681f3Smrgstatic inline
7ec681f3Smrgdouble _mesa_roundtozero_f64(int64_t s, int64_t e, int64_t m)
7ec681f3Smrg{
7ec681f3Smrg    di_type result;
7ec681f3Smrg
7ec681f3Smrg    if ((uint64_t) e >= 0x7fd) {
7ec681f3Smrg        if (e < 0) {
7ec681f3Smrg            m = _mesa_shift_right_jam64(m, -e);
7ec681f3Smrg            e = 0;
7ec681f3Smrg        } else if ((e > 0x7fd) || (0x8000000000000000 <= m)) {
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            m = 0;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + m;
7ec681f3Smrg            result.u -= 1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    m >>= 10;
7ec681f3Smrg    if (m == 0)
7ec681f3Smrg        e = 0;
7ec681f3Smrg
7ec681f3Smrg    result.u = (s << 63) + (e << 52) + m;
7ec681f3Smrg    return result.f;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Extracted from softfloat_roundPackToF32()
7ec681f3Smrg */
7ec681f3Smrgstatic inline
7ec681f3Smrgfloat _mesa_round_f32(int32_t s, int32_t e, int32_t m, bool rtz)
7ec681f3Smrg{
7ec681f3Smrg    fi_type result;
7ec681f3Smrg    uint8_t round_increment = rtz ? 0 : 0x40;
7ec681f3Smrg
7ec681f3Smrg    if ((uint32_t) e >= 0xfd) {
7ec681f3Smrg        if (e < 0) {
7ec681f3Smrg            m = _mesa_shift_right_jam32(m, -e);
7ec681f3Smrg            e = 0;
7ec681f3Smrg        } else if ((e > 0xfd) || (0x80000000 <= m + round_increment)) {
7ec681f3Smrg            e = 0xff;
7ec681f3Smrg            m = 0;
7ec681f3Smrg            result.u = (s << 31) + (e << 23) + m;
7ec681f3Smrg            result.u -= !round_increment;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    uint8_t round_bits;
7ec681f3Smrg    round_bits = m & 0x7f;
7ec681f3Smrg    m = ((uint32_t) m + round_increment) >> 7;
7ec681f3Smrg    m &= ~(uint32_t) (! (round_bits ^ 0x40) & !rtz);
7ec681f3Smrg    if (m == 0)
7ec681f3Smrg        e = 0;
7ec681f3Smrg
7ec681f3Smrg    result.u = (s << 31) + (e << 23) + m;
7ec681f3Smrg    return result.f;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Extracted from softfloat_roundPackToF16()
7ec681f3Smrg */
7ec681f3Smrgstatic inline
7ec681f3Smrguint16_t _mesa_roundtozero_f16(int16_t s, int16_t e, int16_t m)
7ec681f3Smrg{
7ec681f3Smrg    if ((uint16_t) e >= 0x1d) {
7ec681f3Smrg        if (e < 0) {
7ec681f3Smrg            m = _mesa_shift_right_jam32(m, -e);
7ec681f3Smrg            e = 0;
7ec681f3Smrg        } else if (e > 0x1d) {
7ec681f3Smrg            e = 0x1f;
7ec681f3Smrg            m = 0;
7ec681f3Smrg            return (s << 15) + (e << 10) + m - 1;
7ec681f3Smrg        }
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    m >>= 4;
7ec681f3Smrg    if (m == 0)
7ec681f3Smrg        e = 0;
7ec681f3Smrg
7ec681f3Smrg    return (s << 15) + (e << 10) + m;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts the N-bit unsigned integer pointed to by 'a' left by the number of
7ec681f3Smrg * bits given in 'dist', where N = 'size_words' * 32.  The value of 'dist'
7ec681f3Smrg * must be in the range 1 to 31.  Any nonzero bits shifted off are lost.  The
7ec681f3Smrg * shifted N-bit result is stored at the location pointed to by 'm_out'.  Each
7ec681f3Smrg * of 'a' and 'm_out' points to a 'size_words'-long array of 32-bit elements
7ec681f3Smrg * that concatenate in the platform's normal endian order to form an N-bit
7ec681f3Smrg * integer.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shortShiftLeftM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_short_shift_left_m(uint8_t size_words, const uint32_t *a, uint8_t dist, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    uint8_t neg_dist;
7ec681f3Smrg    unsigned index, last_index;
7ec681f3Smrg    uint32_t part_word, a_word;
7ec681f3Smrg
7ec681f3Smrg    neg_dist = -dist;
7ec681f3Smrg    index = index_word_hi(size_words);
7ec681f3Smrg    last_index = index_word_lo(size_words);
7ec681f3Smrg    part_word = a[index] << dist;
7ec681f3Smrg    while (index != last_index) {
7ec681f3Smrg        a_word = a[index - word_incr];
7ec681f3Smrg        m_out[index] = part_word | a_word >> (neg_dist & 31);
7ec681f3Smrg        index -= word_incr;
7ec681f3Smrg        part_word = a_word << dist;
7ec681f3Smrg    }
7ec681f3Smrg    m_out[index] = part_word;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts the N-bit unsigned integer pointed to by 'a' left by the number of
7ec681f3Smrg * bits given in 'dist', where N = 'size_words' * 32.  The value of 'dist'
7ec681f3Smrg * must not be zero.  Any nonzero bits shifted off are lost.  The shifted
7ec681f3Smrg * N-bit result is stored at the location pointed to by 'm_out'.  Each of 'a'
7ec681f3Smrg * and 'm_out' points to a 'size_words'-long array of 32-bit elements that
7ec681f3Smrg * concatenate in the platform's normal endian order to form an N-bit
7ec681f3Smrg * integer. The value of 'dist' can be arbitrarily large.  In particular, if
7ec681f3Smrg * 'dist' is greater than N, the stored result will be 0.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shiftLeftM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_shift_left_m(uint8_t size_words, const uint32_t *a, uint32_t dist, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    uint32_t word_dist;
7ec681f3Smrg    uint8_t inner_dist;
7ec681f3Smrg    uint8_t i;
7ec681f3Smrg
7ec681f3Smrg    word_dist = dist >> 5;
7ec681f3Smrg    if (word_dist < size_words) {
7ec681f3Smrg        a += index_multiword_lo_but(size_words, word_dist);
7ec681f3Smrg        inner_dist = dist & 31;
7ec681f3Smrg        if (inner_dist) {
7ec681f3Smrg            _mesa_short_shift_left_m(size_words - word_dist, a, inner_dist,
7ec681f3Smrg                                     m_out + index_multiword_hi_but(size_words, word_dist));
7ec681f3Smrg            if (!word_dist)
7ec681f3Smrg                return;
7ec681f3Smrg        } else {
7ec681f3Smrg            uint32_t *dest = m_out + index_word_hi(size_words);
7ec681f3Smrg            a += index_word_hi(size_words - word_dist);
7ec681f3Smrg            for (i = size_words - word_dist; i; --i) {
7ec681f3Smrg                *dest = *a;
7ec681f3Smrg                a -= word_incr;
7ec681f3Smrg                dest -= word_incr;
7ec681f3Smrg            }
7ec681f3Smrg        }
7ec681f3Smrg        m_out += index_multiword_lo(size_words, word_dist);
7ec681f3Smrg    } else {
7ec681f3Smrg        word_dist = size_words;
7ec681f3Smrg    }
7ec681f3Smrg    do {
7ec681f3Smrg        *m_out++ = 0;
7ec681f3Smrg        --word_dist;
7ec681f3Smrg    } while (word_dist);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts the N-bit unsigned integer pointed to by 'a' right by the number of
7ec681f3Smrg * bits given in 'dist', where N = 'size_words' * 32.  The value of 'dist'
7ec681f3Smrg * must be in the range 1 to 31.  Any nonzero bits shifted off are lost.  The
7ec681f3Smrg * shifted N-bit result is stored at the location pointed to by 'm_out'.  Each
7ec681f3Smrg * of 'a' and 'm_out' points to a 'size_words'-long array of 32-bit elements
7ec681f3Smrg * that concatenate in the platform's normal endian order to form an N-bit
7ec681f3Smrg * integer.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shortShiftRightM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_short_shift_right_m(uint8_t size_words, const uint32_t *a, uint8_t dist, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    uint8_t neg_dist;
7ec681f3Smrg    unsigned index, last_index;
7ec681f3Smrg    uint32_t part_word, a_word;
7ec681f3Smrg
7ec681f3Smrg    neg_dist = -dist;
7ec681f3Smrg    index = index_word_lo(size_words);
7ec681f3Smrg    last_index = index_word_hi(size_words);
7ec681f3Smrg    part_word = a[index] >> dist;
7ec681f3Smrg    while (index != last_index) {
7ec681f3Smrg        a_word = a[index + word_incr];
7ec681f3Smrg        m_out[index] = a_word << (neg_dist & 31) | part_word;
7ec681f3Smrg        index += word_incr;
7ec681f3Smrg        part_word = a_word >> dist;
7ec681f3Smrg    }
7ec681f3Smrg    m_out[index] = part_word;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts the N-bit unsigned integer pointed to by 'a' right by the number of
7ec681f3Smrg * bits given in 'dist', where N = 'size_words' * 32.  The value of 'dist'
7ec681f3Smrg * must be in the range 1 to 31.  If any nonzero bits are shifted off, they
7ec681f3Smrg * are "jammed" into the least-significant bit of the shifted value by setting
7ec681f3Smrg * the least-significant bit to 1.  This shifted-and-jammed N-bit result is
7ec681f3Smrg * stored at the location pointed to by 'm_out'.  Each of 'a' and 'm_out'
7ec681f3Smrg * points to a 'size_words'-long array of 32-bit elements that concatenate in
7ec681f3Smrg * the platform's normal endian order to form an N-bit integer.
7ec681f3Smrg *
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shortShiftRightJamM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_short_shift_right_jam_m(uint8_t size_words, const uint32_t *a, uint8_t dist, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    uint8_t neg_dist;
7ec681f3Smrg    unsigned index, last_index;
7ec681f3Smrg    uint64_t part_word, a_word;
7ec681f3Smrg
7ec681f3Smrg    neg_dist = -dist;
7ec681f3Smrg    index = index_word_lo(size_words);
7ec681f3Smrg    last_index = index_word_hi(size_words);
7ec681f3Smrg    a_word = a[index];
7ec681f3Smrg    part_word = a_word >> dist;
7ec681f3Smrg    if (part_word << dist != a_word )
7ec681f3Smrg        part_word |= 1;
7ec681f3Smrg    while (index != last_index) {
7ec681f3Smrg        a_word = a[index + word_incr];
7ec681f3Smrg        m_out[index] = a_word << (neg_dist & 31) | part_word;
7ec681f3Smrg        index += word_incr;
7ec681f3Smrg        part_word = a_word >> dist;
7ec681f3Smrg    }
7ec681f3Smrg    m_out[index] = part_word;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Shifts the N-bit unsigned integer pointed to by 'a' right by the number of
7ec681f3Smrg * bits given in 'dist', where N = 'size_words' * 32.  The value of 'dist'
7ec681f3Smrg * must not be zero.  If any nonzero bits are shifted off, they are "jammed"
7ec681f3Smrg * into the least-significant bit of the shifted value by setting the
7ec681f3Smrg * least-significant bit to 1.  This shifted-and-jammed N-bit result is stored
7ec681f3Smrg * at the location pointed to by 'm_out'.  Each of 'a' and 'm_out' points to a
7ec681f3Smrg * 'size_words'-long array of 32-bit elements that concatenate in the
7ec681f3Smrg * platform's normal endian order to form an N-bit integer.  The value of
7ec681f3Smrg * 'dist' can be arbitrarily large.  In particular, if 'dist' is greater than
7ec681f3Smrg * N, the stored result will be either 0 or 1, depending on whether the
7ec681f3Smrg * original N bits are all zeros.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_shiftRightJamM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_shift_right_jam_m(uint8_t size_words, const uint32_t *a, uint32_t dist, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    uint32_t word_jam, word_dist, *tmp;
7ec681f3Smrg    uint8_t i, inner_dist;
7ec681f3Smrg
7ec681f3Smrg    word_jam = 0;
7ec681f3Smrg    word_dist = dist >> 5;
7ec681f3Smrg    tmp = NULL;
7ec681f3Smrg    if (word_dist) {
7ec681f3Smrg        if (size_words < word_dist)
7ec681f3Smrg            word_dist = size_words;
7ec681f3Smrg        tmp = (uint32_t *) (a + index_multiword_lo(size_words, word_dist));
7ec681f3Smrg        i = word_dist;
7ec681f3Smrg        do {
7ec681f3Smrg            word_jam = *tmp++;
7ec681f3Smrg            if (word_jam)
7ec681f3Smrg                break;
7ec681f3Smrg            --i;
7ec681f3Smrg        } while (i);
7ec681f3Smrg        tmp = m_out;
7ec681f3Smrg    }
7ec681f3Smrg    if (word_dist < size_words) {
7ec681f3Smrg        a += index_multiword_hi_but(size_words, word_dist);
7ec681f3Smrg        inner_dist = dist & 31;
7ec681f3Smrg        if (inner_dist) {
7ec681f3Smrg            _mesa_short_shift_right_jam_m(size_words - word_dist, a, inner_dist,
7ec681f3Smrg                                          m_out + index_multiword_lo_but(size_words, word_dist));
7ec681f3Smrg            if (!word_dist) {
7ec681f3Smrg                if (word_jam)
7ec681f3Smrg                    m_out[index_word_lo(size_words)] |= 1;
7ec681f3Smrg                return;
7ec681f3Smrg            }
7ec681f3Smrg        } else {
7ec681f3Smrg            a += index_word_lo(size_words - word_dist);
7ec681f3Smrg            tmp = m_out + index_word_lo(size_words);
7ec681f3Smrg            for (i = size_words - word_dist; i; --i) {
7ec681f3Smrg                *tmp = *a;
7ec681f3Smrg                a += word_incr;
7ec681f3Smrg                tmp += word_incr;
7ec681f3Smrg            }
7ec681f3Smrg        }
7ec681f3Smrg        tmp = m_out + index_multiword_hi(size_words, word_dist);
7ec681f3Smrg    }
7ec681f3Smrg    if (tmp) {
7ec681f3Smrg       do {
7ec681f3Smrg           *tmp++ = 0;
7ec681f3Smrg           --word_dist;
7ec681f3Smrg       } while (word_dist);
7ec681f3Smrg    }
7ec681f3Smrg    if (word_jam)
7ec681f3Smrg        m_out[index_word_lo(size_words)] |= 1;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Calculate a + b but rounding to zero.
7ec681f3Smrg *
7ec681f3Smrg * Notice that this mainly differs from the original Berkeley SoftFloat 3e
7ec681f3Smrg * implementation in that we don't really treat NaNs, Zeroes nor the
7ec681f3Smrg * signalling flags. Any NaN is good for us and the sign of the Zero is not
7ec681f3Smrg * important.
7ec681f3Smrg *
7ec681f3Smrg * From f64_add()
7ec681f3Smrg */
7ec681f3Smrgdouble
7ec681f3Smrg_mesa_double_add_rtz(double a, double b)
7ec681f3Smrg{
7ec681f3Smrg    const di_type a_di = {a};
7ec681f3Smrg    uint64_t a_flt_m = a_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t a_flt_e = (a_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t a_flt_s = (a_di.u >> 63) & 0x1;
7ec681f3Smrg    const di_type b_di = {b};
7ec681f3Smrg    uint64_t b_flt_m = b_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t b_flt_e = (b_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t b_flt_s = (b_di.u >> 63) & 0x1;
7ec681f3Smrg    int64_t s, e, m = 0;
7ec681f3Smrg
7ec681f3Smrg    s = a_flt_s;
7ec681f3Smrg
7ec681f3Smrg    const int64_t exp_diff = a_flt_e - b_flt_e;
7ec681f3Smrg
7ec681f3Smrg    /* Handle special cases */
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_s != b_flt_s) {
7ec681f3Smrg        return _mesa_double_sub_rtz(a, -b);
7ec681f3Smrg    } else if ((a_flt_e == 0) && (a_flt_m == 0)) {
7ec681f3Smrg        /* 'a' is zero, return 'b' */
7ec681f3Smrg        return b;
7ec681f3Smrg    } else if ((b_flt_e == 0) && (b_flt_m == 0)) {
7ec681f3Smrg        /* 'b' is zero, return 'a' */
7ec681f3Smrg        return a;
7ec681f3Smrg    } else if (a_flt_e == 0x7ff && a_flt_m != 0) {
7ec681f3Smrg        /* 'a' is a NaN, return NaN */
7ec681f3Smrg        return a;
7ec681f3Smrg    } else if (b_flt_e == 0x7ff && b_flt_m != 0) {
7ec681f3Smrg        /* 'b' is a NaN, return NaN */
7ec681f3Smrg        return b;
7ec681f3Smrg    } else if (a_flt_e == 0x7ff && a_flt_m == 0) {
7ec681f3Smrg        /* Inf + x = Inf */
7ec681f3Smrg        return a;
7ec681f3Smrg    } else if (b_flt_e == 0x7ff && b_flt_m == 0) {
7ec681f3Smrg        /* x + Inf = Inf */
7ec681f3Smrg        return b;
7ec681f3Smrg    } else if (exp_diff == 0 && a_flt_e == 0) {
7ec681f3Smrg        di_type result_di;
7ec681f3Smrg        result_di.u = a_di.u + b_flt_m;
7ec681f3Smrg        return result_di.f;
7ec681f3Smrg    } else if (exp_diff == 0) {
7ec681f3Smrg        e = a_flt_e;
7ec681f3Smrg        m = 0x0020000000000000 + a_flt_m + b_flt_m;
7ec681f3Smrg        m <<= 9;
7ec681f3Smrg    } else if (exp_diff < 0) {
7ec681f3Smrg        a_flt_m <<= 9;
7ec681f3Smrg        b_flt_m <<= 9;
7ec681f3Smrg        e = b_flt_e;
7ec681f3Smrg
7ec681f3Smrg        if (a_flt_e != 0)
7ec681f3Smrg            a_flt_m += 0x2000000000000000;
7ec681f3Smrg        else
7ec681f3Smrg            a_flt_m <<= 1;
7ec681f3Smrg
7ec681f3Smrg        a_flt_m = _mesa_shift_right_jam64(a_flt_m, -exp_diff);
7ec681f3Smrg        m = 0x2000000000000000 + a_flt_m + b_flt_m;
7ec681f3Smrg        if (m < 0x4000000000000000) {
7ec681f3Smrg            --e;
7ec681f3Smrg            m <<= 1;
7ec681f3Smrg        }
7ec681f3Smrg    } else {
7ec681f3Smrg        a_flt_m <<= 9;
7ec681f3Smrg        b_flt_m <<= 9;
7ec681f3Smrg        e = a_flt_e;
7ec681f3Smrg
7ec681f3Smrg        if (b_flt_e != 0)
7ec681f3Smrg            b_flt_m += 0x2000000000000000;
7ec681f3Smrg        else
7ec681f3Smrg            b_flt_m <<= 1;
7ec681f3Smrg
7ec681f3Smrg        b_flt_m = _mesa_shift_right_jam64(b_flt_m, exp_diff);
7ec681f3Smrg        m = 0x2000000000000000 + a_flt_m + b_flt_m;
7ec681f3Smrg        if (m < 0x4000000000000000) {
7ec681f3Smrg            --e;
7ec681f3Smrg            m <<= 1;
7ec681f3Smrg        }
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    return _mesa_roundtozero_f64(s, e, m);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Returns the number of leading 0 bits before the most-significant 1 bit of
7ec681f3Smrg * 'a'.  If 'a' is zero, 64 is returned.
7ec681f3Smrg */
7ec681f3Smrgstatic inline unsigned
7ec681f3Smrg_mesa_count_leading_zeros64(uint64_t a)
7ec681f3Smrg{
7ec681f3Smrg    return 64 - util_last_bit64(a);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Returns the number of leading 0 bits before the most-significant 1 bit of
7ec681f3Smrg * 'a'.  If 'a' is zero, 32 is returned.
7ec681f3Smrg */
7ec681f3Smrgstatic inline unsigned
7ec681f3Smrg_mesa_count_leading_zeros32(uint32_t a)
7ec681f3Smrg{
7ec681f3Smrg    return 32 - util_last_bit(a);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic inline double
7ec681f3Smrg_mesa_norm_round_pack_f64(int64_t s, int64_t e, int64_t m)
7ec681f3Smrg{
7ec681f3Smrg    int8_t shift_dist;
7ec681f3Smrg
7ec681f3Smrg    shift_dist = _mesa_count_leading_zeros64(m) - 1;
7ec681f3Smrg    e -= shift_dist;
7ec681f3Smrg    if ((10 <= shift_dist) && ((unsigned) e < 0x7fd)) {
7ec681f3Smrg        di_type result;
7ec681f3Smrg        result.u = (s << 63) + ((m ? e : 0) << 52) + (m << (shift_dist - 10));
7ec681f3Smrg        return result.f;
7ec681f3Smrg    } else {
7ec681f3Smrg        return _mesa_roundtozero_f64(s, e, m << shift_dist);
7ec681f3Smrg    }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Replaces the N-bit unsigned integer pointed to by 'm_out' by the
7ec681f3Smrg * 2s-complement of itself, where N = 'size_words' * 32.  Argument 'm_out'
7ec681f3Smrg * points to a 'size_words'-long array of 32-bit elements that concatenate in
7ec681f3Smrg * the platform's normal endian order to form an N-bit integer.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_negXM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_neg_x_m(uint8_t size_words, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    unsigned index, last_index;
7ec681f3Smrg    uint8_t carry;
7ec681f3Smrg    uint32_t word;
7ec681f3Smrg
7ec681f3Smrg    index = index_word_lo(size_words);
7ec681f3Smrg    last_index = index_word_hi(size_words);
7ec681f3Smrg    carry = 1;
7ec681f3Smrg    for (;;) {
7ec681f3Smrg        word = ~m_out[index] + carry;
7ec681f3Smrg        m_out[index] = word;
7ec681f3Smrg        if (index == last_index)
7ec681f3Smrg            break;
7ec681f3Smrg        index += word_incr;
7ec681f3Smrg        if (word)
7ec681f3Smrg            carry = 0;
7ec681f3Smrg    }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Adds the two N-bit integers pointed to by 'a' and 'b', where N =
7ec681f3Smrg * 'size_words' * 32.  The addition is modulo 2^N, so any carry out is
7ec681f3Smrg * lost. The N-bit sum is stored at the location pointed to by 'm_out'.  Each
7ec681f3Smrg * of 'a', 'b', and 'm_out' points to a 'size_words'-long array of 32-bit
7ec681f3Smrg * elements that concatenate in the platform's normal endian order to form an
7ec681f3Smrg * N-bit integer.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_addM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_add_m(uint8_t size_words, const uint32_t *a, const uint32_t *b, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    unsigned index, last_index;
7ec681f3Smrg    uint8_t carry;
7ec681f3Smrg    uint32_t a_word, word;
7ec681f3Smrg
7ec681f3Smrg    index = index_word_lo(size_words);
7ec681f3Smrg    last_index = index_word_hi(size_words);
7ec681f3Smrg    carry = 0;
7ec681f3Smrg    for (;;) {
7ec681f3Smrg        a_word = a[index];
7ec681f3Smrg        word = a_word + b[index] + carry;
7ec681f3Smrg        m_out[index] = word;
7ec681f3Smrg        if (index == last_index)
7ec681f3Smrg            break;
7ec681f3Smrg        if (word != a_word)
7ec681f3Smrg            carry = (word < a_word);
7ec681f3Smrg        index += word_incr;
7ec681f3Smrg    }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Subtracts the two N-bit integers pointed to by 'a' and 'b', where N =
7ec681f3Smrg * 'size_words' * 32.  The subtraction is modulo 2^N, so any borrow out (carry
7ec681f3Smrg * out) is lost.  The N-bit difference is stored at the location pointed to by
7ec681f3Smrg * 'm_out'.  Each of 'a', 'b', and 'm_out' points to a 'size_words'-long array
7ec681f3Smrg * of 32-bit elements that concatenate in the platform's normal endian order
7ec681f3Smrg * to form an N-bit integer.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_subM()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_sub_m(uint8_t size_words, const uint32_t *a, const uint32_t *b, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    unsigned index, last_index;
7ec681f3Smrg    uint8_t borrow;
7ec681f3Smrg    uint32_t a_word, b_word;
7ec681f3Smrg
7ec681f3Smrg    index = index_word_lo(size_words);
7ec681f3Smrg    last_index = index_word_hi(size_words);
7ec681f3Smrg    borrow = 0;
7ec681f3Smrg    for (;;) {
7ec681f3Smrg        a_word = a[index];
7ec681f3Smrg        b_word = b[index];
7ec681f3Smrg        m_out[index] = a_word - b_word - borrow;
7ec681f3Smrg        if (index == last_index)
7ec681f3Smrg            break;
7ec681f3Smrg        borrow = borrow ? (a_word <= b_word) : (a_word < b_word);
7ec681f3Smrg        index += word_incr;
7ec681f3Smrg    }
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/* Calculate a - b but rounding to zero.
7ec681f3Smrg *
7ec681f3Smrg * Notice that this mainly differs from the original Berkeley SoftFloat 3e
7ec681f3Smrg * implementation in that we don't really treat NaNs, Zeroes nor the
7ec681f3Smrg * signalling flags. Any NaN is good for us and the sign of the Zero is not
7ec681f3Smrg * important.
7ec681f3Smrg *
7ec681f3Smrg * From f64_sub()
7ec681f3Smrg */
7ec681f3Smrgdouble
7ec681f3Smrg_mesa_double_sub_rtz(double a, double b)
7ec681f3Smrg{
7ec681f3Smrg    const di_type a_di = {a};
7ec681f3Smrg    uint64_t a_flt_m = a_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t a_flt_e = (a_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t a_flt_s = (a_di.u >> 63) & 0x1;
7ec681f3Smrg    const di_type b_di = {b};
7ec681f3Smrg    uint64_t b_flt_m = b_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t b_flt_e = (b_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t b_flt_s = (b_di.u >> 63) & 0x1;
7ec681f3Smrg    int64_t s, e, m = 0;
7ec681f3Smrg    int64_t m_diff = 0;
7ec681f3Smrg    unsigned shift_dist = 0;
7ec681f3Smrg
7ec681f3Smrg    s = a_flt_s;
7ec681f3Smrg
7ec681f3Smrg    const int64_t exp_diff = a_flt_e - b_flt_e;
7ec681f3Smrg
7ec681f3Smrg    /* Handle special cases */
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_s != b_flt_s) {
7ec681f3Smrg        return _mesa_double_add_rtz(a, -b);
7ec681f3Smrg    } else if ((a_flt_e == 0) && (a_flt_m == 0)) {
7ec681f3Smrg        /* 'a' is zero, return '-b' */
7ec681f3Smrg        return -b;
7ec681f3Smrg    } else if ((b_flt_e == 0) && (b_flt_m == 0)) {
7ec681f3Smrg        /* 'b' is zero, return 'a' */
7ec681f3Smrg        return a;
7ec681f3Smrg    } else if (a_flt_e == 0x7ff && a_flt_m != 0) {
7ec681f3Smrg        /* 'a' is a NaN, return NaN */
7ec681f3Smrg        return a;
7ec681f3Smrg    } else if (b_flt_e == 0x7ff && b_flt_m != 0) {
7ec681f3Smrg        /* 'b' is a NaN, return NaN */
7ec681f3Smrg        return b;
7ec681f3Smrg    } else if (a_flt_e == 0x7ff && a_flt_m == 0) {
7ec681f3Smrg        if (b_flt_e == 0x7ff && b_flt_m == 0) {
7ec681f3Smrg            /* Inf - Inf =  NaN */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg        /* Inf - x = Inf */
7ec681f3Smrg        return a;
7ec681f3Smrg    } else if (b_flt_e == 0x7ff && b_flt_m == 0) {
7ec681f3Smrg        /* x - Inf = -Inf */
7ec681f3Smrg        return -b;
7ec681f3Smrg    } else if (exp_diff == 0) {
7ec681f3Smrg        m_diff = a_flt_m - b_flt_m;
7ec681f3Smrg
7ec681f3Smrg        if (m_diff == 0)
7ec681f3Smrg            return 0;
7ec681f3Smrg        if (a_flt_e)
7ec681f3Smrg            --a_flt_e;
7ec681f3Smrg        if (m_diff < 0) {
7ec681f3Smrg            s = !s;
7ec681f3Smrg            m_diff = -m_diff;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        shift_dist = _mesa_count_leading_zeros64(m_diff) - 11;
7ec681f3Smrg        e = a_flt_e - shift_dist;
7ec681f3Smrg        if (e < 0) {
7ec681f3Smrg            shift_dist = a_flt_e;
7ec681f3Smrg            e = 0;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        di_type result;
7ec681f3Smrg        result.u = (s << 63) + (e << 52) + (m_diff << shift_dist);
7ec681f3Smrg        return result.f;
7ec681f3Smrg    } else if (exp_diff < 0) {
7ec681f3Smrg        a_flt_m <<= 10;
7ec681f3Smrg        b_flt_m <<= 10;
7ec681f3Smrg        s = !s;
7ec681f3Smrg
7ec681f3Smrg        a_flt_m += (a_flt_e) ? 0x4000000000000000 : a_flt_m;
7ec681f3Smrg        a_flt_m = _mesa_shift_right_jam64(a_flt_m, -exp_diff);
7ec681f3Smrg        b_flt_m |= 0x4000000000000000;
7ec681f3Smrg        e = b_flt_e;
7ec681f3Smrg        m = b_flt_m - a_flt_m;
7ec681f3Smrg    } else {
7ec681f3Smrg        a_flt_m <<= 10;
7ec681f3Smrg        b_flt_m <<= 10;
7ec681f3Smrg
7ec681f3Smrg        b_flt_m += (b_flt_e) ? 0x4000000000000000 : b_flt_m;
7ec681f3Smrg        b_flt_m = _mesa_shift_right_jam64(b_flt_m, exp_diff);
7ec681f3Smrg        a_flt_m |= 0x4000000000000000;
7ec681f3Smrg        e = a_flt_e;
7ec681f3Smrg        m = a_flt_m - b_flt_m;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    return _mesa_norm_round_pack_f64(s, e - 1, m);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_norm_subnormal_mantissa_f64(uint64_t m, uint64_t *exp, uint64_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    int shift_dist;
7ec681f3Smrg
7ec681f3Smrg    shift_dist = _mesa_count_leading_zeros64(m) - 11;
7ec681f3Smrg    *exp = 1 - shift_dist;
7ec681f3Smrg    *m_out = m << shift_dist;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_norm_subnormal_mantissa_f32(uint32_t m, uint32_t *exp, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    int shift_dist;
7ec681f3Smrg
7ec681f3Smrg    shift_dist = _mesa_count_leading_zeros32(m) - 8;
7ec681f3Smrg    *exp = 1 - shift_dist;
7ec681f3Smrg    *m_out = m << shift_dist;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Multiplies 'a' and 'b' and stores the 128-bit product at the location
7ec681f3Smrg * pointed to by 'zPtr'.  Argument 'zPtr' points to an array of four 32-bit
7ec681f3Smrg * elements that concatenate in the platform's normal endian order to form a
7ec681f3Smrg * 128-bit integer.
7ec681f3Smrg *
7ec681f3Smrg * From softfloat_mul64To128M()
7ec681f3Smrg */
7ec681f3Smrgstatic inline void
7ec681f3Smrg_mesa_softfloat_mul_f64_to_f128_m(uint64_t a, uint64_t b, uint32_t *m_out)
7ec681f3Smrg{
7ec681f3Smrg    uint32_t a32, a0, b32, b0;
7ec681f3Smrg    uint64_t z0, mid1, z64, mid;
7ec681f3Smrg
7ec681f3Smrg    a32 = a >> 32;
7ec681f3Smrg    a0 = a;
7ec681f3Smrg    b32 = b >> 32;
7ec681f3Smrg    b0 = b;
7ec681f3Smrg    z0 = (uint64_t) a0 * b0;
7ec681f3Smrg    mid1 = (uint64_t) a32 * b0;
7ec681f3Smrg    mid = mid1 + (uint64_t) a0 * b32;
7ec681f3Smrg    z64 = (uint64_t) a32 * b32;
7ec681f3Smrg    z64 += (uint64_t) (mid < mid1) << 32 | mid >> 32;
7ec681f3Smrg    mid <<= 32;
7ec681f3Smrg    z0 += mid;
7ec681f3Smrg    m_out[index_word(4, 1)] = z0 >> 32;
7ec681f3Smrg    m_out[index_word(4, 0)] = z0;
7ec681f3Smrg    z64 += (z0 < mid);
7ec681f3Smrg    m_out[index_word(4, 3)] = z64 >> 32;
7ec681f3Smrg    m_out[index_word(4, 2)] = z64;
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg/* Calculate a * b but rounding to zero.
7ec681f3Smrg *
7ec681f3Smrg * Notice that this mainly differs from the original Berkeley SoftFloat 3e
7ec681f3Smrg * implementation in that we don't really treat NaNs, Zeroes nor the
7ec681f3Smrg * signalling flags. Any NaN is good for us and the sign of the Zero is not
7ec681f3Smrg * important.
7ec681f3Smrg *
7ec681f3Smrg * From f64_mul()
7ec681f3Smrg */
7ec681f3Smrgdouble
7ec681f3Smrg_mesa_double_mul_rtz(double a, double b)
7ec681f3Smrg{
7ec681f3Smrg    const di_type a_di = {a};
7ec681f3Smrg    uint64_t a_flt_m = a_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t a_flt_e = (a_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t a_flt_s = (a_di.u >> 63) & 0x1;
7ec681f3Smrg    const di_type b_di = {b};
7ec681f3Smrg    uint64_t b_flt_m = b_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t b_flt_e = (b_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t b_flt_s = (b_di.u >> 63) & 0x1;
7ec681f3Smrg    int64_t s, e, m = 0;
7ec681f3Smrg
7ec681f3Smrg    s = a_flt_s ^ b_flt_s;
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_e == 0x7ff) {
7ec681f3Smrg        if (a_flt_m != 0) {
7ec681f3Smrg            /* 'a' is a NaN, return NaN */
7ec681f3Smrg            return a;
7ec681f3Smrg        } else if (b_flt_e == 0x7ff && b_flt_m != 0) {
7ec681f3Smrg            /* 'b' is a NaN, return NaN */
7ec681f3Smrg            return b;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if (!(b_flt_e | b_flt_m)) {
7ec681f3Smrg            /* Inf * 0 = NaN */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg        /* Inf * x = Inf */
7ec681f3Smrg        di_type result;
7ec681f3Smrg        e = 0x7ff;
7ec681f3Smrg        result.u = (s << 63) + (e << 52) + 0;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (b_flt_e == 0x7ff) {
7ec681f3Smrg        if (b_flt_m != 0) {
7ec681f3Smrg            /* 'b' is a NaN, return NaN */
7ec681f3Smrg            return b;
7ec681f3Smrg        }
7ec681f3Smrg        if (!(a_flt_e | a_flt_m)) {
7ec681f3Smrg            /* 0 * Inf = NaN */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg        /* x * Inf = Inf */
7ec681f3Smrg        di_type result;
7ec681f3Smrg        e = 0x7ff;
7ec681f3Smrg        result.u = (s << 63) + (e << 52) + 0;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_e == 0) {
7ec681f3Smrg        if (a_flt_m == 0) {
7ec681f3Smrg            /* 'a' is zero. Return zero */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            result.u = (s << 63) + 0;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f64(a_flt_m , &a_flt_e, &a_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg    if (b_flt_e == 0) {
7ec681f3Smrg        if (b_flt_m == 0) {
7ec681f3Smrg            /* 'b' is zero. Return zero */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            result.u = (s << 63) + 0;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f64(b_flt_m , &b_flt_e, &b_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    e = a_flt_e + b_flt_e - 0x3ff;
7ec681f3Smrg    a_flt_m = (a_flt_m | 0x0010000000000000) << 10;
7ec681f3Smrg    b_flt_m = (b_flt_m | 0x0010000000000000) << 11;
7ec681f3Smrg
7ec681f3Smrg    uint32_t m_128[4];
7ec681f3Smrg    _mesa_softfloat_mul_f64_to_f128_m(a_flt_m, b_flt_m, m_128);
7ec681f3Smrg
7ec681f3Smrg    m = (uint64_t) m_128[index_word(4, 3)] << 32 | m_128[index_word(4, 2)];
7ec681f3Smrg    if (m_128[index_word(4, 1)] || m_128[index_word(4, 0)])
7ec681f3Smrg        m |= 1;
7ec681f3Smrg
7ec681f3Smrg    if (m < 0x4000000000000000) {
7ec681f3Smrg        --e;
7ec681f3Smrg        m <<= 1;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    return _mesa_roundtozero_f64(s, e, m);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Calculate a * b + c but rounding to zero.
7ec681f3Smrg *
7ec681f3Smrg * Notice that this mainly differs from the original Berkeley SoftFloat 3e
7ec681f3Smrg * implementation in that we don't really treat NaNs, Zeroes nor the
7ec681f3Smrg * signalling flags. Any NaN is good for us and the sign of the Zero is not
7ec681f3Smrg * important.
7ec681f3Smrg *
7ec681f3Smrg * From f64_mulAdd()
7ec681f3Smrg */
7ec681f3Smrgdouble
7ec681f3Smrg_mesa_double_fma_rtz(double a, double b, double c)
7ec681f3Smrg{
7ec681f3Smrg    const di_type a_di = {a};
7ec681f3Smrg    uint64_t a_flt_m = a_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t a_flt_e = (a_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t a_flt_s = (a_di.u >> 63) & 0x1;
7ec681f3Smrg    const di_type b_di = {b};
7ec681f3Smrg    uint64_t b_flt_m = b_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t b_flt_e = (b_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t b_flt_s = (b_di.u >> 63) & 0x1;
7ec681f3Smrg    const di_type c_di = {c};
7ec681f3Smrg    uint64_t c_flt_m = c_di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t c_flt_e = (c_di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t c_flt_s = (c_di.u >> 63) & 0x1;
7ec681f3Smrg    int64_t s, e, m = 0;
7ec681f3Smrg
7ec681f3Smrg    c_flt_s ^= 0;
7ec681f3Smrg    s = a_flt_s ^ b_flt_s ^ 0;
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_e == 0x7ff) {
7ec681f3Smrg        if (a_flt_m != 0) {
7ec681f3Smrg            /* 'a' is a NaN, return NaN */
7ec681f3Smrg            return a;
7ec681f3Smrg        } else if (b_flt_e == 0x7ff && b_flt_m != 0) {
7ec681f3Smrg            /* 'b' is a NaN, return NaN */
7ec681f3Smrg            return b;
7ec681f3Smrg        } else if (c_flt_e == 0x7ff && c_flt_m != 0) {
7ec681f3Smrg            /* 'c' is a NaN, return NaN */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if (!(b_flt_e | b_flt_m)) {
7ec681f3Smrg            /* Inf * 0 + y = NaN */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if ((c_flt_e == 0x7ff && c_flt_m == 0) && (s != c_flt_s)) {
7ec681f3Smrg            /* Inf * x - Inf = NaN */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* Inf * x + y = Inf */
7ec681f3Smrg        di_type result;
7ec681f3Smrg        e = 0x7ff;
7ec681f3Smrg        result.u = (s << 63) + (e << 52) + 0;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (b_flt_e == 0x7ff) {
7ec681f3Smrg        if (b_flt_m != 0) {
7ec681f3Smrg            /* 'b' is a NaN, return NaN */
7ec681f3Smrg            return b;
7ec681f3Smrg        } else if (c_flt_e == 0x7ff && c_flt_m != 0) {
7ec681f3Smrg            /* 'c' is a NaN, return NaN */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if (!(a_flt_e | a_flt_m)) {
7ec681f3Smrg            /* 0 * Inf + y = NaN */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if ((c_flt_e == 0x7ff && c_flt_m == 0) && (s != c_flt_s)) {
7ec681f3Smrg            /* x * Inf - Inf = NaN */
7ec681f3Smrg            di_type result;
7ec681f3Smrg            e = 0x7ff;
7ec681f3Smrg            result.u = (s << 63) + (e << 52) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* x * Inf + y = Inf */
7ec681f3Smrg        di_type result;
7ec681f3Smrg        e = 0x7ff;
7ec681f3Smrg        result.u = (s << 63) + (e << 52) + 0;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (c_flt_e == 0x7ff) {
7ec681f3Smrg        if (c_flt_m != 0) {
7ec681f3Smrg            /* 'c' is a NaN, return NaN */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* x * y + Inf = Inf */
7ec681f3Smrg        return c;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_e == 0) {
7ec681f3Smrg        if (a_flt_m == 0) {
7ec681f3Smrg            /* 'a' is zero, return 'c' */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f64(a_flt_m , &a_flt_e, &a_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (b_flt_e == 0) {
7ec681f3Smrg        if (b_flt_m == 0) {
7ec681f3Smrg            /* 'b' is zero, return 'c' */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f64(b_flt_m , &b_flt_e, &b_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    e = a_flt_e + b_flt_e - 0x3fe;
7ec681f3Smrg    a_flt_m = (a_flt_m | 0x0010000000000000) << 10;
7ec681f3Smrg    b_flt_m = (b_flt_m | 0x0010000000000000) << 11;
7ec681f3Smrg
7ec681f3Smrg    uint32_t m_128[4];
7ec681f3Smrg    _mesa_softfloat_mul_f64_to_f128_m(a_flt_m, b_flt_m, m_128);
7ec681f3Smrg
7ec681f3Smrg    m = (uint64_t) m_128[index_word(4, 3)] << 32 | m_128[index_word(4, 2)];
7ec681f3Smrg
7ec681f3Smrg    int64_t shift_dist = 0;
7ec681f3Smrg    if (!(m & 0x4000000000000000)) {
7ec681f3Smrg        --e;
7ec681f3Smrg        shift_dist = -1;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (c_flt_e == 0) {
7ec681f3Smrg        if (c_flt_m == 0) {
7ec681f3Smrg            /* 'c' is zero, return 'a * b' */
7ec681f3Smrg            if (shift_dist)
7ec681f3Smrg                m <<= 1;
7ec681f3Smrg
7ec681f3Smrg            if (m_128[index_word(4, 1)] || m_128[index_word(4, 0)])
7ec681f3Smrg                m |= 1;
7ec681f3Smrg            return _mesa_roundtozero_f64(s, e - 1, m);
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f64(c_flt_m , &c_flt_e, &c_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg    c_flt_m = (c_flt_m | 0x0010000000000000) << 10;
7ec681f3Smrg
7ec681f3Smrg    uint32_t c_flt_m_128[4];
7ec681f3Smrg    int64_t exp_diff = e - c_flt_e;
7ec681f3Smrg    if (exp_diff < 0) {
7ec681f3Smrg        e = c_flt_e;
7ec681f3Smrg        if ((s == c_flt_s) || (exp_diff < -1)) {
7ec681f3Smrg            shift_dist -= exp_diff;
7ec681f3Smrg            if (shift_dist) {
7ec681f3Smrg                m = _mesa_shift_right_jam64(m, shift_dist);
7ec681f3Smrg            }
7ec681f3Smrg        } else {
7ec681f3Smrg            if (!shift_dist) {
7ec681f3Smrg                _mesa_short_shift_right_m(4, m_128, 1, m_128);
7ec681f3Smrg            }
7ec681f3Smrg        }
7ec681f3Smrg    } else {
7ec681f3Smrg        if (shift_dist)
7ec681f3Smrg            _mesa_add_m(4, m_128, m_128, m_128);
7ec681f3Smrg        if (!exp_diff) {
7ec681f3Smrg            m = (uint64_t) m_128[index_word(4, 3)] << 32
7ec681f3Smrg                | m_128[index_word(4, 2)];
7ec681f3Smrg        } else {
7ec681f3Smrg            c_flt_m_128[index_word(4, 3)] = c_flt_m >> 32;
7ec681f3Smrg            c_flt_m_128[index_word(4, 2)] = c_flt_m;
7ec681f3Smrg            c_flt_m_128[index_word(4, 1)] = 0;
7ec681f3Smrg            c_flt_m_128[index_word(4, 0)] = 0;
7ec681f3Smrg            _mesa_shift_right_jam_m(4, c_flt_m_128, exp_diff, c_flt_m_128);
7ec681f3Smrg        }
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (s == c_flt_s) {
7ec681f3Smrg        if (exp_diff <= 0) {
7ec681f3Smrg            m += c_flt_m;
7ec681f3Smrg        } else {
7ec681f3Smrg            _mesa_add_m(4, m_128, c_flt_m_128, m_128);
7ec681f3Smrg            m = (uint64_t) m_128[index_word(4, 3)] << 32
7ec681f3Smrg                | m_128[index_word(4, 2)];
7ec681f3Smrg        }
7ec681f3Smrg        if (m & 0x8000000000000000) {
7ec681f3Smrg            e++;
7ec681f3Smrg            m = _mesa_short_shift_right_jam64(m, 1);
7ec681f3Smrg        }
7ec681f3Smrg    } else {
7ec681f3Smrg        if (exp_diff < 0) {
7ec681f3Smrg            s = c_flt_s;
7ec681f3Smrg            if (exp_diff < -1) {
7ec681f3Smrg                m = c_flt_m - m;
7ec681f3Smrg                if (m_128[index_word(4, 1)] || m_128[index_word(4, 0)]) {
7ec681f3Smrg                    m = (m - 1) | 1;
7ec681f3Smrg                }
7ec681f3Smrg                if (!(m & 0x4000000000000000)) {
7ec681f3Smrg                    --e;
7ec681f3Smrg                    m <<= 1;
7ec681f3Smrg                }
7ec681f3Smrg                return _mesa_roundtozero_f64(s, e - 1, m);
7ec681f3Smrg            } else {
7ec681f3Smrg                c_flt_m_128[index_word(4, 3)] = c_flt_m >> 32;
7ec681f3Smrg                c_flt_m_128[index_word(4, 2)] = c_flt_m;
7ec681f3Smrg                c_flt_m_128[index_word(4, 1)] = 0;
7ec681f3Smrg                c_flt_m_128[index_word(4, 0)] = 0;
7ec681f3Smrg                _mesa_sub_m(4, c_flt_m_128, m_128, m_128);
7ec681f3Smrg            }
7ec681f3Smrg        } else if (!exp_diff) {
7ec681f3Smrg            m -= c_flt_m;
7ec681f3Smrg            if (!m && !m_128[index_word(4, 1)] && !m_128[index_word(4, 0)]) {
7ec681f3Smrg                /* Return zero */
7ec681f3Smrg                di_type result;
7ec681f3Smrg                result.u = (s << 63) + 0;
7ec681f3Smrg                return result.f;
7ec681f3Smrg            }
7ec681f3Smrg            m_128[index_word(4, 3)] = m >> 32;
7ec681f3Smrg            m_128[index_word(4, 2)] = m;
7ec681f3Smrg            if (m & 0x8000000000000000) {
7ec681f3Smrg                s = !s;
7ec681f3Smrg                _mesa_neg_x_m(4, m_128);
7ec681f3Smrg            }
7ec681f3Smrg        } else {
7ec681f3Smrg            _mesa_sub_m(4, m_128, c_flt_m_128, m_128);
7ec681f3Smrg            if (1 < exp_diff) {
7ec681f3Smrg                m = (uint64_t) m_128[index_word(4, 3)] << 32
7ec681f3Smrg                    | m_128[index_word(4, 2)];
7ec681f3Smrg                if (!(m & 0x4000000000000000)) {
7ec681f3Smrg                    --e;
7ec681f3Smrg                    m <<= 1;
7ec681f3Smrg                }
7ec681f3Smrg                if (m_128[index_word(4, 1)] || m_128[index_word(4, 0)])
7ec681f3Smrg                    m |= 1;
7ec681f3Smrg                return _mesa_roundtozero_f64(s, e - 1, m);
7ec681f3Smrg            }
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        shift_dist = 0;
7ec681f3Smrg        m = (uint64_t) m_128[index_word(4, 3)] << 32
7ec681f3Smrg            | m_128[index_word(4, 2)];
7ec681f3Smrg        if (!m) {
7ec681f3Smrg            shift_dist = 64;
7ec681f3Smrg            m = (uint64_t) m_128[index_word(4, 1)] << 32
7ec681f3Smrg                | m_128[index_word(4, 0)];
7ec681f3Smrg        }
7ec681f3Smrg        shift_dist += _mesa_count_leading_zeros64(m) - 1;
7ec681f3Smrg        if (shift_dist) {
7ec681f3Smrg            e -= shift_dist;
7ec681f3Smrg            _mesa_shift_left_m(4, m_128, shift_dist, m_128);
7ec681f3Smrg            m = (uint64_t) m_128[index_word(4, 3)] << 32
7ec681f3Smrg                | m_128[index_word(4, 2)];
7ec681f3Smrg        }
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (m_128[index_word(4, 1)] || m_128[index_word(4, 0)])
7ec681f3Smrg        m |= 1;
7ec681f3Smrg    return _mesa_roundtozero_f64(s, e - 1, m);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Calculate a * b + c but rounding to zero.
7ec681f3Smrg *
7ec681f3Smrg * Notice that this mainly differs from the original Berkeley SoftFloat 3e
7ec681f3Smrg * implementation in that we don't really treat NaNs, Zeroes nor the
7ec681f3Smrg * signalling flags. Any NaN is good for us and the sign of the Zero is not
7ec681f3Smrg * important.
7ec681f3Smrg *
7ec681f3Smrg * From f32_mulAdd()
7ec681f3Smrg */
7ec681f3Smrgfloat
7ec681f3Smrg_mesa_float_fma_rtz(float a, float b, float c)
7ec681f3Smrg{
7ec681f3Smrg    const fi_type a_fi = {a};
7ec681f3Smrg    uint32_t a_flt_m = a_fi.u & 0x07fffff;
7ec681f3Smrg    uint32_t a_flt_e = (a_fi.u >> 23) & 0xff;
7ec681f3Smrg    uint32_t a_flt_s = (a_fi.u >> 31) & 0x1;
7ec681f3Smrg    const fi_type b_fi = {b};
7ec681f3Smrg    uint32_t b_flt_m = b_fi.u & 0x07fffff;
7ec681f3Smrg    uint32_t b_flt_e = (b_fi.u >> 23) & 0xff;
7ec681f3Smrg    uint32_t b_flt_s = (b_fi.u >> 31) & 0x1;
7ec681f3Smrg    const fi_type c_fi = {c};
7ec681f3Smrg    uint32_t c_flt_m = c_fi.u & 0x07fffff;
7ec681f3Smrg    uint32_t c_flt_e = (c_fi.u >> 23) & 0xff;
7ec681f3Smrg    uint32_t c_flt_s = (c_fi.u >> 31) & 0x1;
7ec681f3Smrg    int32_t s, e, m = 0;
7ec681f3Smrg
7ec681f3Smrg    c_flt_s ^= 0;
7ec681f3Smrg    s = a_flt_s ^ b_flt_s ^ 0;
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_e == 0xff) {
7ec681f3Smrg        if (a_flt_m != 0) {
7ec681f3Smrg            /* 'a' is a NaN, return NaN */
7ec681f3Smrg            return a;
7ec681f3Smrg        } else if (b_flt_e == 0xff && b_flt_m != 0) {
7ec681f3Smrg            /* 'b' is a NaN, return NaN */
7ec681f3Smrg            return b;
7ec681f3Smrg        } else if (c_flt_e == 0xff && c_flt_m != 0) {
7ec681f3Smrg            /* 'c' is a NaN, return NaN */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if (!(b_flt_e | b_flt_m)) {
7ec681f3Smrg            /* Inf * 0 + y = NaN */
7ec681f3Smrg            fi_type result;
7ec681f3Smrg            e = 0xff;
7ec681f3Smrg            result.u = (s << 31) + (e << 23) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if ((c_flt_e == 0xff && c_flt_m == 0) && (s != c_flt_s)) {
7ec681f3Smrg            /* Inf * x - Inf = NaN */
7ec681f3Smrg            fi_type result;
7ec681f3Smrg            e = 0xff;
7ec681f3Smrg            result.u = (s << 31) + (e << 23) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* Inf * x + y = Inf */
7ec681f3Smrg        fi_type result;
7ec681f3Smrg        e = 0xff;
7ec681f3Smrg        result.u = (s << 31) + (e << 23) + 0;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (b_flt_e == 0xff) {
7ec681f3Smrg        if (b_flt_m != 0) {
7ec681f3Smrg            /* 'b' is a NaN, return NaN */
7ec681f3Smrg            return b;
7ec681f3Smrg        } else if (c_flt_e == 0xff && c_flt_m != 0) {
7ec681f3Smrg            /* 'c' is a NaN, return NaN */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if (!(a_flt_e | a_flt_m)) {
7ec681f3Smrg            /* 0 * Inf + y = NaN */
7ec681f3Smrg            fi_type result;
7ec681f3Smrg            e = 0xff;
7ec681f3Smrg            result.u = (s << 31) + (e << 23) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        if ((c_flt_e == 0xff && c_flt_m == 0) && (s != c_flt_s)) {
7ec681f3Smrg            /* x * Inf - Inf = NaN */
7ec681f3Smrg            fi_type result;
7ec681f3Smrg            e = 0xff;
7ec681f3Smrg            result.u = (s << 31) + (e << 23) + 0x1;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* x * Inf + y = Inf */
7ec681f3Smrg        fi_type result;
7ec681f3Smrg        e = 0xff;
7ec681f3Smrg        result.u = (s << 31) + (e << 23) + 0;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (c_flt_e == 0xff) {
7ec681f3Smrg        if (c_flt_m != 0) {
7ec681f3Smrg            /* 'c' is a NaN, return NaN */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* x * y + Inf = Inf */
7ec681f3Smrg        return c;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (a_flt_e == 0) {
7ec681f3Smrg        if (a_flt_m == 0) {
7ec681f3Smrg            /* 'a' is zero, return 'c' */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f32(a_flt_m , &a_flt_e, &a_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (b_flt_e == 0) {
7ec681f3Smrg        if (b_flt_m == 0) {
7ec681f3Smrg            /* 'b' is zero, return 'c' */
7ec681f3Smrg            return c;
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f32(b_flt_m , &b_flt_e, &b_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    e = a_flt_e + b_flt_e - 0x7e;
7ec681f3Smrg    a_flt_m = (a_flt_m | 0x00800000) << 7;
7ec681f3Smrg    b_flt_m = (b_flt_m | 0x00800000) << 7;
7ec681f3Smrg
7ec681f3Smrg    uint64_t m_64 = (uint64_t) a_flt_m * b_flt_m;
7ec681f3Smrg    if (m_64 < 0x2000000000000000) {
7ec681f3Smrg        --e;
7ec681f3Smrg        m_64 <<= 1;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (c_flt_e == 0) {
7ec681f3Smrg        if (c_flt_m == 0) {
7ec681f3Smrg            /* 'c' is zero, return 'a * b' */
7ec681f3Smrg            m = _mesa_short_shift_right_jam64(m_64, 31);
7ec681f3Smrg            return _mesa_round_f32(s, e - 1, m, true);
7ec681f3Smrg        }
7ec681f3Smrg        _mesa_norm_subnormal_mantissa_f32(c_flt_m , &c_flt_e, &c_flt_m);
7ec681f3Smrg    }
7ec681f3Smrg    c_flt_m = (c_flt_m | 0x00800000) << 6;
7ec681f3Smrg
7ec681f3Smrg    int16_t exp_diff = e - c_flt_e;
7ec681f3Smrg    if (s == c_flt_s) {
7ec681f3Smrg        if (exp_diff <= 0) {
7ec681f3Smrg            e = c_flt_e;
7ec681f3Smrg            m = c_flt_m + _mesa_shift_right_jam64(m_64, 32 - exp_diff);
7ec681f3Smrg        } else {
7ec681f3Smrg            m_64 += _mesa_shift_right_jam64((uint64_t) c_flt_m << 32, exp_diff);
7ec681f3Smrg            m = _mesa_short_shift_right_jam64(m_64, 32);
7ec681f3Smrg        }
7ec681f3Smrg        if (m < 0x40000000) {
7ec681f3Smrg            --e;
7ec681f3Smrg            m <<= 1;
7ec681f3Smrg        }
7ec681f3Smrg    } else {
7ec681f3Smrg        uint64_t c_flt_m_64 = (uint64_t) c_flt_m << 32;
7ec681f3Smrg        if (exp_diff < 0) {
7ec681f3Smrg            s = c_flt_s;
7ec681f3Smrg            e = c_flt_e;
7ec681f3Smrg            m_64 = c_flt_m_64 - _mesa_shift_right_jam64(m_64, -exp_diff);
7ec681f3Smrg        } else if (!exp_diff) {
7ec681f3Smrg            m_64 -= c_flt_m_64;
7ec681f3Smrg            if (!m_64) {
7ec681f3Smrg                /* Return zero */
7ec681f3Smrg                fi_type result;
7ec681f3Smrg                result.u = (s << 31) + 0;
7ec681f3Smrg                return result.f;
7ec681f3Smrg            }
7ec681f3Smrg            if (m_64 & 0x8000000000000000) {
7ec681f3Smrg                s = !s;
7ec681f3Smrg                m_64 = -m_64;
7ec681f3Smrg            }
7ec681f3Smrg        } else {
7ec681f3Smrg            m_64 -= _mesa_shift_right_jam64(c_flt_m_64, exp_diff);
7ec681f3Smrg        }
7ec681f3Smrg        int8_t shift_dist = _mesa_count_leading_zeros64(m_64) - 1;
7ec681f3Smrg        e -= shift_dist;
7ec681f3Smrg        shift_dist -= 32;
7ec681f3Smrg        if (shift_dist < 0) {
7ec681f3Smrg            m = _mesa_short_shift_right_jam64(m_64, -shift_dist);
7ec681f3Smrg        } else {
7ec681f3Smrg            m = (uint32_t) m_64 << shift_dist;
7ec681f3Smrg        }
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    return _mesa_round_f32(s, e, m, true);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Converts from 64bits to 32bits float and rounds according to
7ec681f3Smrg * instructed.
7ec681f3Smrg *
7ec681f3Smrg * From f64_to_f32()
7ec681f3Smrg */
7ec681f3Smrgfloat
7ec681f3Smrg_mesa_double_to_f32(double val, bool rtz)
7ec681f3Smrg{
7ec681f3Smrg    const di_type di = {val};
7ec681f3Smrg    uint64_t flt_m = di.u & 0x0fffffffffffff;
7ec681f3Smrg    uint64_t flt_e = (di.u >> 52) & 0x7ff;
7ec681f3Smrg    uint64_t flt_s = (di.u >> 63) & 0x1;
7ec681f3Smrg    int32_t s, e, m = 0;
7ec681f3Smrg
7ec681f3Smrg    s = flt_s;
7ec681f3Smrg
7ec681f3Smrg    if (flt_e == 0x7ff) {
7ec681f3Smrg        if (flt_m != 0) {
7ec681f3Smrg            /* 'val' is a NaN, return NaN */
7ec681f3Smrg            fi_type result;
7ec681f3Smrg            e = 0xff;
7ec681f3Smrg            m = 0x1;
7ec681f3Smrg            result.u = (s << 31) + (e << 23) + m;
7ec681f3Smrg            return result.f;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* 'val' is Inf, return Inf */
7ec681f3Smrg        fi_type result;
7ec681f3Smrg        e = 0xff;
7ec681f3Smrg        result.u = (s << 31) + (e << 23) + m;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (!(flt_e | flt_m)) {
7ec681f3Smrg        /* 'val' is zero, return zero */
7ec681f3Smrg        fi_type result;
7ec681f3Smrg        e = 0;
7ec681f3Smrg        result.u = (s << 31) + (e << 23) + m;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    m = _mesa_short_shift_right_jam64(flt_m, 22);
7ec681f3Smrg    if ( ! (flt_e | m) ) {
7ec681f3Smrg        /* 'val' is denorm, return zero */
7ec681f3Smrg        fi_type result;
7ec681f3Smrg        e = 0;
7ec681f3Smrg        result.u = (s << 31) + (e << 23) + m;
7ec681f3Smrg        return result.f;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    return _mesa_round_f32(s, flt_e - 0x381, m | 0x40000000, rtz);
7ec681f3Smrg}
7ec681f3Smrg
7ec681f3Smrg
7ec681f3Smrg/**
7ec681f3Smrg * \brief Converts from 32bits to 16bits float and rounds the result to zero.
7ec681f3Smrg *
7ec681f3Smrg * From f32_to_f16()
7ec681f3Smrg */
7ec681f3Smrguint16_t
7ec681f3Smrg_mesa_float_to_half_rtz_slow(float val)
7ec681f3Smrg{
7ec681f3Smrg    const fi_type fi = {val};
7ec681f3Smrg    const uint32_t flt_m = fi.u & 0x7fffff;
7ec681f3Smrg    const uint32_t flt_e = (fi.u >> 23) & 0xff;
7ec681f3Smrg    const uint32_t flt_s = (fi.u >> 31) & 0x1;
7ec681f3Smrg    int16_t s, e, m = 0;
7ec681f3Smrg
7ec681f3Smrg    s = flt_s;
7ec681f3Smrg
7ec681f3Smrg    if (flt_e == 0xff) {
7ec681f3Smrg        if (flt_m != 0) {
7ec681f3Smrg            /* 'val' is a NaN, return NaN */
7ec681f3Smrg            e = 0x1f;
7ec681f3Smrg            m = 0x1;
7ec681f3Smrg            return (s << 15) + (e << 10) + m;
7ec681f3Smrg        }
7ec681f3Smrg
7ec681f3Smrg        /* 'val' is Inf, return Inf */
7ec681f3Smrg        e = 0x1f;
7ec681f3Smrg        return (s << 15) + (e << 10) + m;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    if (!(flt_e | flt_m)) {
7ec681f3Smrg        /* 'val' is zero, return zero */
7ec681f3Smrg        e = 0;
7ec681f3Smrg        return (s << 15) + (e << 10) + m;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    m = flt_m >> 9 | ((flt_m & 0x1ff) != 0);
7ec681f3Smrg    if ( ! (flt_e | m) ) {
7ec681f3Smrg        /* 'val' is denorm, return zero */
7ec681f3Smrg        e = 0;
7ec681f3Smrg        return (s << 15) + (e << 10) + m;
7ec681f3Smrg    }
7ec681f3Smrg
7ec681f3Smrg    return _mesa_roundtozero_f16(s, flt_e - 0x71, m | 0x4000);
7ec681f3Smrg}