src/sna/blt.c

428d7b3dSmrg/*
428d7b3dSmrg * Copyright (c) 2011 Intel Corporation
428d7b3dSmrg *
428d7b3dSmrg * Permission is hereby granted, free of charge, to any person obtaining a
428d7b3dSmrg * copy of this software and associated documentation files (the "Software"),
428d7b3dSmrg * to deal in the Software without restriction, including without limitation
428d7b3dSmrg * the rights to use, copy, modify, merge, publish, distribute, sublicense,
428d7b3dSmrg * and/or sell copies of the Software, and to permit persons to whom the
428d7b3dSmrg * Software is furnished to do so, subject to the following conditions:
428d7b3dSmrg *
428d7b3dSmrg * The above copyright notice and this permission notice (including the next
428d7b3dSmrg * paragraph) shall be included in all copies or substantial portions of the
428d7b3dSmrg * Software.
428d7b3dSmrg *
428d7b3dSmrg * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
428d7b3dSmrg * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
428d7b3dSmrg * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT.  IN NO EVENT SHALL
428d7b3dSmrg * THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
428d7b3dSmrg * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
428d7b3dSmrg * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
428d7b3dSmrg * SOFTWARE.
428d7b3dSmrg *
428d7b3dSmrg * Authors:
428d7b3dSmrg *    Chris Wilson <chris@chris-wilson.co.uk>
428d7b3dSmrg *
428d7b3dSmrg */
428d7b3dSmrg
428d7b3dSmrg#ifdef HAVE_CONFIG_H
428d7b3dSmrg#include "config.h"
428d7b3dSmrg#endif
428d7b3dSmrg
428d7b3dSmrg#include "sna.h"
428d7b3dSmrg
428d7b3dSmrg#if __x86_64__
428d7b3dSmrg#define USE_SSE2 1
428d7b3dSmrg#endif
428d7b3dSmrg
428d7b3dSmrg#if USE_SSE2
428d7b3dSmrg#include <xmmintrin.h>
428d7b3dSmrg
428d7b3dSmrg#if __x86_64__
428d7b3dSmrg#define have_sse2() 1
428d7b3dSmrg#else
428d7b3dSmrgenum {
428d7b3dSmrg	MMX = 0x1,
428d7b3dSmrg	MMX_EXTENSIONS = 0x2,
428d7b3dSmrg	SSE = 0x6,
428d7b3dSmrg	SSE2 = 0x8,
428d7b3dSmrg	CMOV = 0x10
428d7b3dSmrg};
428d7b3dSmrg
428d7b3dSmrg#ifdef __GNUC__
428d7b3dSmrgstatic unsigned int
428d7b3dSmrgdetect_cpu_features(void)
428d7b3dSmrg{
428d7b3dSmrg	unsigned int features;
428d7b3dSmrg	unsigned int result = 0;
428d7b3dSmrg
428d7b3dSmrg	char vendor[13];
428d7b3dSmrg	vendor[0] = 0;
428d7b3dSmrg	vendor[12] = 0;
428d7b3dSmrg
428d7b3dSmrg	asm (
428d7b3dSmrg	     "pushf\n"
428d7b3dSmrg	     "pop %%eax\n"
428d7b3dSmrg	     "mov %%eax, %%ecx\n"
428d7b3dSmrg	     "xor $0x00200000, %%eax\n"
428d7b3dSmrg	     "push %%eax\n"
428d7b3dSmrg	     "popf\n"
428d7b3dSmrg	     "pushf\n"
428d7b3dSmrg	     "pop %%eax\n"
428d7b3dSmrg	     "mov $0x0, %%edx\n"
428d7b3dSmrg	     "xor %%ecx, %%eax\n"
428d7b3dSmrg	     "jz 1f\n"
428d7b3dSmrg
428d7b3dSmrg	     "mov $0x00000000, %%eax\n"
428d7b3dSmrg	     "push %%ebx\n"
428d7b3dSmrg	     "cpuid\n"
428d7b3dSmrg	     "mov %%ebx, %%eax\n"
428d7b3dSmrg	     "pop %%ebx\n"
428d7b3dSmrg	     "mov %%eax, %1\n"
428d7b3dSmrg	     "mov %%edx, %2\n"
428d7b3dSmrg	     "mov %%ecx, %3\n"
428d7b3dSmrg	     "mov $0x00000001, %%eax\n"
428d7b3dSmrg	     "push %%ebx\n"
428d7b3dSmrg	     "cpuid\n"
428d7b3dSmrg	     "pop %%ebx\n"
428d7b3dSmrg	     "1:\n"
428d7b3dSmrg	     "mov %%edx, %0\n"
428d7b3dSmrg	     : "=r" (result), "=m" (vendor[0]), "=m" (vendor[4]), "=m" (vendor[8])
428d7b3dSmrg	     :: "%eax", "%ecx", "%edx");
428d7b3dSmrg
428d7b3dSmrg	features = 0;
428d7b3dSmrg	if (result) {
428d7b3dSmrg		/* result now contains the standard feature bits */
428d7b3dSmrg		if (result & (1 << 15))
428d7b3dSmrg			features |= CMOV;
428d7b3dSmrg		if (result & (1 << 23))
428d7b3dSmrg			features |= MMX;
428d7b3dSmrg		if (result & (1 << 25))
428d7b3dSmrg			features |= SSE;
428d7b3dSmrg		if (result & (1 << 26))
428d7b3dSmrg			features |= SSE2;
428d7b3dSmrg	}
428d7b3dSmrg	return features;
428d7b3dSmrg}
428d7b3dSmrg#else
428d7b3dSmrgstatic unsigned int detect_cpu_features(void) { return 0; }
428d7b3dSmrg#endif
428d7b3dSmrg
428d7b3dSmrgstatic bool have_sse2(void)
428d7b3dSmrg{
428d7b3dSmrg	static int sse2_present = -1;
428d7b3dSmrg
428d7b3dSmrg	if (sse2_present == -1)
428d7b3dSmrg		sse2_present = detect_cpu_features() & SSE2;
428d7b3dSmrg
428d7b3dSmrg	return sse2_present;
428d7b3dSmrg}
428d7b3dSmrg#endif
428d7b3dSmrg
428d7b3dSmrgstatic inline __m128i
428d7b3dSmrgxmm_create_mask_32(uint32_t mask)
428d7b3dSmrg{
428d7b3dSmrg	return _mm_set_epi32(mask, mask, mask, mask);
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgstatic inline __m128i
428d7b3dSmrgxmm_load_128u(const __m128i *src)
428d7b3dSmrg{
428d7b3dSmrg	return _mm_loadu_si128(src);
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgstatic inline void
428d7b3dSmrgxmm_save_128(__m128i *dst, __m128i data)
428d7b3dSmrg{
428d7b3dSmrg	_mm_store_si128(dst, data);
428d7b3dSmrg}
428d7b3dSmrg#endif
428d7b3dSmrg
428d7b3dSmrgfast void
428d7b3dSmrgmemcpy_blt(const void *src, void *dst, int bpp,
428d7b3dSmrg	   int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg	   int16_t src_x, int16_t src_y,
428d7b3dSmrg	   int16_t dst_x, int16_t dst_y,
428d7b3dSmrg	   uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const uint8_t *src_bytes;
428d7b3dSmrg	uint8_t *dst_bytes;
428d7b3dSmrg	int byte_width;
428d7b3dSmrg
428d7b3dSmrg	assert(src);
428d7b3dSmrg	assert(dst);
428d7b3dSmrg	assert(width && height);
428d7b3dSmrg	assert(bpp >= 8);
428d7b3dSmrg	assert(width*bpp <= 8*src_stride);
428d7b3dSmrg	assert(width*bpp <= 8*dst_stride);
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s: src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg
428d7b3dSmrg	bpp /= 8;
428d7b3dSmrg
428d7b3dSmrg	src_bytes = (const uint8_t *)src + src_stride * src_y + src_x * bpp;
428d7b3dSmrg	dst_bytes = (uint8_t *)dst + dst_stride * dst_y + dst_x * bpp;
428d7b3dSmrg
428d7b3dSmrg	byte_width = width * bpp;
428d7b3dSmrg	if (byte_width == src_stride && byte_width == dst_stride) {
428d7b3dSmrg		byte_width *= height;
428d7b3dSmrg		height = 1;
428d7b3dSmrg	}
428d7b3dSmrg
428d7b3dSmrg	switch (byte_width) {
428d7b3dSmrg	case 1:
428d7b3dSmrg		do {
428d7b3dSmrg			*dst_bytes = *src_bytes;
428d7b3dSmrg			src_bytes += src_stride;
428d7b3dSmrg			dst_bytes += dst_stride;
428d7b3dSmrg		} while (--height);
428d7b3dSmrg		break;
428d7b3dSmrg
428d7b3dSmrg	case 2:
428d7b3dSmrg		do {
428d7b3dSmrg			*(uint16_t *)dst_bytes = *(const uint16_t *)src_bytes;
428d7b3dSmrg			src_bytes += src_stride;
428d7b3dSmrg			dst_bytes += dst_stride;
428d7b3dSmrg		} while (--height);
428d7b3dSmrg		break;
428d7b3dSmrg
428d7b3dSmrg	case 4:
428d7b3dSmrg		do {
428d7b3dSmrg			*(uint32_t *)dst_bytes = *(const uint32_t *)src_bytes;
428d7b3dSmrg			src_bytes += src_stride;
428d7b3dSmrg			dst_bytes += dst_stride;
428d7b3dSmrg		} while (--height);
428d7b3dSmrg		break;
428d7b3dSmrg
428d7b3dSmrg	case 8:
428d7b3dSmrg		do {
428d7b3dSmrg			*(uint64_t *)dst_bytes = *(const uint64_t *)src_bytes;
428d7b3dSmrg			src_bytes += src_stride;
428d7b3dSmrg			dst_bytes += dst_stride;
428d7b3dSmrg		} while (--height);
428d7b3dSmrg		break;
428d7b3dSmrg	case 16:
428d7b3dSmrg		do {
428d7b3dSmrg			((uint64_t *)dst_bytes)[0] = ((const uint64_t *)src_bytes)[0];
428d7b3dSmrg			((uint64_t *)dst_bytes)[1] = ((const uint64_t *)src_bytes)[1];
428d7b3dSmrg			src_bytes += src_stride;
428d7b3dSmrg			dst_bytes += dst_stride;
428d7b3dSmrg		} while (--height);
428d7b3dSmrg		break;
428d7b3dSmrg
428d7b3dSmrg	default:
428d7b3dSmrg		do {
428d7b3dSmrg			memcpy(dst_bytes, src_bytes, byte_width);
428d7b3dSmrg			src_bytes += src_stride;
428d7b3dSmrg			dst_bytes += dst_stride;
428d7b3dSmrg		} while (--height);
428d7b3dSmrg		break;
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgstatic fast_memcpy void
428d7b3dSmrgmemcpy_to_tiled_x__swizzle_0(const void *src, void *dst, int bpp,
428d7b3dSmrg			     int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg			     int16_t src_x, int16_t src_y,
428d7b3dSmrg			     int16_t dst_x, int16_t dst_y,
428d7b3dSmrg			     uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned tile_pixels = tile_width / cpp;
428d7b3dSmrg	const unsigned tile_shift = ffs(tile_pixels) - 1;
428d7b3dSmrg	const unsigned tile_mask = tile_pixels - 1;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg	assert(src != dst);
428d7b3dSmrg
428d7b3dSmrg	if (src_x | src_y)
428d7b3dSmrg		src = (const uint8_t *)src + src_y * src_stride + src_x * cpp;
428d7b3dSmrg	assert(src_stride >= width * cpp);
428d7b3dSmrg	src_stride -= width * cpp;
428d7b3dSmrg
428d7b3dSmrg	while (height--) {
428d7b3dSmrg		unsigned w = width * cpp;
428d7b3dSmrg		uint8_t *tile_row = dst;
428d7b3dSmrg
428d7b3dSmrg		tile_row += dst_y / tile_height * dst_stride * tile_height;
428d7b3dSmrg		tile_row += (dst_y & (tile_height-1)) * tile_width;
428d7b3dSmrg		if (dst_x) {
428d7b3dSmrg			tile_row += (dst_x >> tile_shift) * tile_size;
428d7b3dSmrg			if (dst_x & tile_mask) {
428d7b3dSmrg				const unsigned x = (dst_x & tile_mask) * cpp;
428d7b3dSmrg				const unsigned len = min(tile_width - x, w);
428d7b3dSmrg				memcpy(tile_row + x, src, len);
428d7b3dSmrg
428d7b3dSmrg				tile_row += tile_size;
428d7b3dSmrg				src = (const uint8_t *)src + len;
428d7b3dSmrg				w -= len;
428d7b3dSmrg			}
428d7b3dSmrg		}
428d7b3dSmrg		while (w >= tile_width) {
428d7b3dSmrg			memcpy(tile_row, src, tile_width);
428d7b3dSmrg
428d7b3dSmrg			tile_row += tile_size;
428d7b3dSmrg			src = (const uint8_t *)src + tile_width;
428d7b3dSmrg			w -= tile_width;
428d7b3dSmrg		}
428d7b3dSmrg		memcpy(tile_row, src, w);
428d7b3dSmrg		src = (const uint8_t *)src + src_stride + w;
428d7b3dSmrg		dst_y++;
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgstatic fast_memcpy void
428d7b3dSmrgmemcpy_from_tiled_x__swizzle_0(const void *src, void *dst, int bpp,
428d7b3dSmrg			       int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg			       int16_t src_x, int16_t src_y,
428d7b3dSmrg			       int16_t dst_x, int16_t dst_y,
428d7b3dSmrg			       uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned tile_pixels = tile_width / cpp;
428d7b3dSmrg	const unsigned tile_shift = ffs(tile_pixels) - 1;
428d7b3dSmrg	const unsigned tile_mask = tile_pixels - 1;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg	assert(src != dst);
428d7b3dSmrg
428d7b3dSmrg	if (dst_x | dst_y)
428d7b3dSmrg		dst = (uint8_t *)dst + dst_y * dst_stride + dst_x * cpp;
428d7b3dSmrg	assert(dst_stride >= width * cpp);
428d7b3dSmrg	dst_stride -= width * cpp;
428d7b3dSmrg
428d7b3dSmrg	while (height--) {
428d7b3dSmrg		unsigned w = width * cpp;
428d7b3dSmrg		const uint8_t *tile_row = src;
428d7b3dSmrg
428d7b3dSmrg		tile_row += src_y / tile_height * src_stride * tile_height;
428d7b3dSmrg		tile_row += (src_y & (tile_height-1)) * tile_width;
428d7b3dSmrg		if (src_x) {
428d7b3dSmrg			tile_row += (src_x >> tile_shift) * tile_size;
428d7b3dSmrg			if (src_x & tile_mask) {
428d7b3dSmrg				const unsigned x = (src_x & tile_mask) * cpp;
428d7b3dSmrg				const unsigned len = min(tile_width - x, w);
428d7b3dSmrg				memcpy(dst, tile_row + x, len);
428d7b3dSmrg
428d7b3dSmrg				tile_row += tile_size;
428d7b3dSmrg				dst = (uint8_t *)dst + len;
428d7b3dSmrg				w -= len;
428d7b3dSmrg			}
428d7b3dSmrg		}
428d7b3dSmrg		while (w >= tile_width) {
428d7b3dSmrg			memcpy(dst, tile_row, tile_width);
428d7b3dSmrg
428d7b3dSmrg			tile_row += tile_size;
428d7b3dSmrg			dst = (uint8_t *)dst + tile_width;
428d7b3dSmrg			w -= tile_width;
428d7b3dSmrg		}
428d7b3dSmrg		memcpy(dst, tile_row, w);
428d7b3dSmrg		dst = (uint8_t *)dst + dst_stride + w;
428d7b3dSmrg		src_y++;
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgfast_memcpy static void
428d7b3dSmrgmemcpy_to_tiled_x__swizzle_9(const void *src, void *dst, int bpp,
428d7b3dSmrg			     int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg			     int16_t src_x, int16_t src_y,
428d7b3dSmrg			     int16_t dst_x, int16_t dst_y,
428d7b3dSmrg			     uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned stride_tiles = dst_stride / tile_width;
428d7b3dSmrg	const unsigned swizzle_pixels = 64 / cpp;
428d7b3dSmrg	const unsigned tile_pixels = ffs(tile_width / cpp) - 1;
428d7b3dSmrg	const unsigned tile_mask = (1 << tile_pixels) - 1;
428d7b3dSmrg
428d7b3dSmrg	unsigned x, y;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg
428d7b3dSmrg	src = (const uint8_t *)src + src_y * src_stride + src_x * cpp;
428d7b3dSmrg
428d7b3dSmrg	for (y = 0; y < height; ++y) {
428d7b3dSmrg		const uint32_t dy = y + dst_y;
428d7b3dSmrg		const uint32_t tile_row =
428d7b3dSmrg			(dy / tile_height * stride_tiles * tile_size +
428d7b3dSmrg			 (dy & (tile_height-1)) * tile_width);
428d7b3dSmrg		const uint8_t *src_row = (const uint8_t *)src + src_stride * y;
428d7b3dSmrg		uint32_t dx = dst_x, offset;
428d7b3dSmrg
428d7b3dSmrg		x = width * cpp;
428d7b3dSmrg		if (dx & (swizzle_pixels - 1)) {
428d7b3dSmrg			const uint32_t swizzle_bound_pixels = ALIGN(dx + 1, swizzle_pixels);
428d7b3dSmrg			const uint32_t length = min(dst_x + width, swizzle_bound_pixels) - dx;
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= (offset >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, length * cpp);
428d7b3dSmrg
428d7b3dSmrg			src_row += length * cpp;
428d7b3dSmrg			x -= length * cpp;
428d7b3dSmrg			dx += length;
428d7b3dSmrg		}
428d7b3dSmrg		while (x >= 64) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= (offset >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, 64);
428d7b3dSmrg
428d7b3dSmrg			src_row += 64;
428d7b3dSmrg			x -= 64;
428d7b3dSmrg			dx += swizzle_pixels;
428d7b3dSmrg		}
428d7b3dSmrg		if (x) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= (offset >> 3) & 64;
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, x);
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgfast_memcpy static void
428d7b3dSmrgmemcpy_from_tiled_x__swizzle_9(const void *src, void *dst, int bpp,
428d7b3dSmrg			       int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg			       int16_t src_x, int16_t src_y,
428d7b3dSmrg			       int16_t dst_x, int16_t dst_y,
428d7b3dSmrg			       uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned stride_tiles = src_stride / tile_width;
428d7b3dSmrg	const unsigned swizzle_pixels = 64 / cpp;
428d7b3dSmrg	const unsigned tile_pixels = ffs(tile_width / cpp) - 1;
428d7b3dSmrg	const unsigned tile_mask = (1 << tile_pixels) - 1;
428d7b3dSmrg
428d7b3dSmrg	unsigned x, y;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg
428d7b3dSmrg	dst = (uint8_t *)dst + dst_y * dst_stride + dst_x * cpp;
428d7b3dSmrg
428d7b3dSmrg	for (y = 0; y < height; ++y) {
428d7b3dSmrg		const uint32_t sy = y + src_y;
428d7b3dSmrg		const uint32_t tile_row =
428d7b3dSmrg			(sy / tile_height * stride_tiles * tile_size +
428d7b3dSmrg			 (sy & (tile_height-1)) * tile_width);
428d7b3dSmrg		uint8_t *dst_row = (uint8_t *)dst + dst_stride * y;
428d7b3dSmrg		uint32_t sx = src_x, offset;
428d7b3dSmrg
428d7b3dSmrg		x = width * cpp;
428d7b3dSmrg		if (sx & (swizzle_pixels - 1)) {
428d7b3dSmrg			const uint32_t swizzle_bound_pixels = ALIGN(sx + 1, swizzle_pixels);
428d7b3dSmrg			const uint32_t length = min(src_x + width, swizzle_bound_pixels) - sx;
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= (offset >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, length * cpp);
428d7b3dSmrg
428d7b3dSmrg			dst_row += length * cpp;
428d7b3dSmrg			x -= length * cpp;
428d7b3dSmrg			sx += length;
428d7b3dSmrg		}
428d7b3dSmrg		while (x >= 64) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= (offset >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, 64);
428d7b3dSmrg
428d7b3dSmrg			dst_row += 64;
428d7b3dSmrg			x -= 64;
428d7b3dSmrg			sx += swizzle_pixels;
428d7b3dSmrg		}
428d7b3dSmrg		if (x) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= (offset >> 3) & 64;
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, x);
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgfast_memcpy static void
428d7b3dSmrgmemcpy_to_tiled_x__swizzle_9_10(const void *src, void *dst, int bpp,
428d7b3dSmrg				int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg				int16_t src_x, int16_t src_y,
428d7b3dSmrg				int16_t dst_x, int16_t dst_y,
428d7b3dSmrg				uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned stride_tiles = dst_stride / tile_width;
428d7b3dSmrg	const unsigned swizzle_pixels = 64 / cpp;
428d7b3dSmrg	const unsigned tile_pixels = ffs(tile_width / cpp) - 1;
428d7b3dSmrg	const unsigned tile_mask = (1 << tile_pixels) - 1;
428d7b3dSmrg
428d7b3dSmrg	unsigned x, y;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg
428d7b3dSmrg	src = (const uint8_t *)src + src_y * src_stride + src_x * cpp;
428d7b3dSmrg
428d7b3dSmrg	for (y = 0; y < height; ++y) {
428d7b3dSmrg		const uint32_t dy = y + dst_y;
428d7b3dSmrg		const uint32_t tile_row =
428d7b3dSmrg			(dy / tile_height * stride_tiles * tile_size +
428d7b3dSmrg			 (dy & (tile_height-1)) * tile_width);
428d7b3dSmrg		const uint8_t *src_row = (const uint8_t *)src + src_stride * y;
428d7b3dSmrg		uint32_t dx = dst_x, offset;
428d7b3dSmrg
428d7b3dSmrg		x = width * cpp;
428d7b3dSmrg		if (dx & (swizzle_pixels - 1)) {
428d7b3dSmrg			const uint32_t swizzle_bound_pixels = ALIGN(dx + 1, swizzle_pixels);
428d7b3dSmrg			const uint32_t length = min(dst_x + width, swizzle_bound_pixels) - dx;
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 1)) >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, length * cpp);
428d7b3dSmrg
428d7b3dSmrg			src_row += length * cpp;
428d7b3dSmrg			x -= length * cpp;
428d7b3dSmrg			dx += length;
428d7b3dSmrg		}
428d7b3dSmrg		while (x >= 64) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 1)) >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, 64);
428d7b3dSmrg
428d7b3dSmrg			src_row += 64;
428d7b3dSmrg			x -= 64;
428d7b3dSmrg			dx += swizzle_pixels;
428d7b3dSmrg		}
428d7b3dSmrg		if (x) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 1)) >> 3) & 64;
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, x);
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgfast_memcpy static void
428d7b3dSmrgmemcpy_from_tiled_x__swizzle_9_10(const void *src, void *dst, int bpp,
428d7b3dSmrg				  int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg				  int16_t src_x, int16_t src_y,
428d7b3dSmrg				  int16_t dst_x, int16_t dst_y,
428d7b3dSmrg				  uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned stride_tiles = src_stride / tile_width;
428d7b3dSmrg	const unsigned swizzle_pixels = 64 / cpp;
428d7b3dSmrg	const unsigned tile_pixels = ffs(tile_width / cpp) - 1;
428d7b3dSmrg	const unsigned tile_mask = (1 << tile_pixels) - 1;
428d7b3dSmrg
428d7b3dSmrg	unsigned x, y;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg
428d7b3dSmrg	dst = (uint8_t *)dst + dst_y * dst_stride + dst_x * cpp;
428d7b3dSmrg
428d7b3dSmrg	for (y = 0; y < height; ++y) {
428d7b3dSmrg		const uint32_t sy = y + src_y;
428d7b3dSmrg		const uint32_t tile_row =
428d7b3dSmrg			(sy / tile_height * stride_tiles * tile_size +
428d7b3dSmrg			 (sy & (tile_height-1)) * tile_width);
428d7b3dSmrg		uint8_t *dst_row = (uint8_t *)dst + dst_stride * y;
428d7b3dSmrg		uint32_t sx = src_x, offset;
428d7b3dSmrg
428d7b3dSmrg		x = width * cpp;
428d7b3dSmrg		if (sx & (swizzle_pixels - 1)) {
428d7b3dSmrg			const uint32_t swizzle_bound_pixels = ALIGN(sx + 1, swizzle_pixels);
428d7b3dSmrg			const uint32_t length = min(src_x + width, swizzle_bound_pixels) - sx;
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 1)) >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, length * cpp);
428d7b3dSmrg
428d7b3dSmrg			dst_row += length * cpp;
428d7b3dSmrg			x -= length * cpp;
428d7b3dSmrg			sx += length;
428d7b3dSmrg		}
428d7b3dSmrg		while (x >= 64) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 1)) >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, 64);
428d7b3dSmrg
428d7b3dSmrg			dst_row += 64;
428d7b3dSmrg			x -= 64;
428d7b3dSmrg			sx += swizzle_pixels;
428d7b3dSmrg		}
428d7b3dSmrg		if (x) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 1)) >> 3) & 64;
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, x);
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgfast_memcpy static void
428d7b3dSmrgmemcpy_to_tiled_x__swizzle_9_11(const void *src, void *dst, int bpp,
428d7b3dSmrg				int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg				int16_t src_x, int16_t src_y,
428d7b3dSmrg				int16_t dst_x, int16_t dst_y,
428d7b3dSmrg				uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned stride_tiles = dst_stride / tile_width;
428d7b3dSmrg	const unsigned swizzle_pixels = 64 / cpp;
428d7b3dSmrg	const unsigned tile_pixels = ffs(tile_width / cpp) - 1;
428d7b3dSmrg	const unsigned tile_mask = (1 << tile_pixels) - 1;
428d7b3dSmrg
428d7b3dSmrg	unsigned x, y;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg
428d7b3dSmrg	src = (const uint8_t *)src + src_y * src_stride + src_x * cpp;
428d7b3dSmrg
428d7b3dSmrg	for (y = 0; y < height; ++y) {
428d7b3dSmrg		const uint32_t dy = y + dst_y;
428d7b3dSmrg		const uint32_t tile_row =
428d7b3dSmrg			(dy / tile_height * stride_tiles * tile_size +
428d7b3dSmrg			 (dy & (tile_height-1)) * tile_width);
428d7b3dSmrg		const uint8_t *src_row = (const uint8_t *)src + src_stride * y;
428d7b3dSmrg		uint32_t dx = dst_x, offset;
428d7b3dSmrg
428d7b3dSmrg		x = width * cpp;
428d7b3dSmrg		if (dx & (swizzle_pixels - 1)) {
428d7b3dSmrg			const uint32_t swizzle_bound_pixels = ALIGN(dx + 1, swizzle_pixels);
428d7b3dSmrg			const uint32_t length = min(dst_x + width, swizzle_bound_pixels) - dx;
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 2)) >> 3) & 64;
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, length * cpp);
428d7b3dSmrg
428d7b3dSmrg			src_row += length * cpp;
428d7b3dSmrg			x -= length * cpp;
428d7b3dSmrg			dx += length;
428d7b3dSmrg		}
428d7b3dSmrg		while (x >= 64) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 2)) >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, 64);
428d7b3dSmrg
428d7b3dSmrg			src_row += 64;
428d7b3dSmrg			x -= 64;
428d7b3dSmrg			dx += swizzle_pixels;
428d7b3dSmrg		}
428d7b3dSmrg		if (x) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(dx >> tile_pixels) * tile_size +
428d7b3dSmrg				(dx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 2)) >> 3) & 64;
428d7b3dSmrg			memcpy((char *)dst + offset, src_row, x);
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgfast_memcpy static void
428d7b3dSmrgmemcpy_from_tiled_x__swizzle_9_11(const void *src, void *dst, int bpp,
428d7b3dSmrg				  int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg				  int16_t src_x, int16_t src_y,
428d7b3dSmrg				  int16_t dst_x, int16_t dst_y,
428d7b3dSmrg				  uint16_t width, uint16_t height)
428d7b3dSmrg{
428d7b3dSmrg	const unsigned tile_width = 512;
428d7b3dSmrg	const unsigned tile_height = 8;
428d7b3dSmrg	const unsigned tile_size = 4096;
428d7b3dSmrg
428d7b3dSmrg	const unsigned cpp = bpp / 8;
428d7b3dSmrg	const unsigned stride_tiles = src_stride / tile_width;
428d7b3dSmrg	const unsigned swizzle_pixels = 64 / cpp;
428d7b3dSmrg	const unsigned tile_pixels = ffs(tile_width / cpp) - 1;
428d7b3dSmrg	const unsigned tile_mask = (1 << tile_pixels) - 1;
428d7b3dSmrg
428d7b3dSmrg	unsigned x, y;
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s(bpp=%d): src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d\n",
428d7b3dSmrg	     __FUNCTION__, bpp, src_x, src_y, dst_x, dst_y, width, height, src_stride, dst_stride));
428d7b3dSmrg
428d7b3dSmrg	dst = (uint8_t *)dst + dst_y * dst_stride + dst_x * cpp;
428d7b3dSmrg
428d7b3dSmrg	for (y = 0; y < height; ++y) {
428d7b3dSmrg		const uint32_t sy = y + src_y;
428d7b3dSmrg		const uint32_t tile_row =
428d7b3dSmrg			(sy / tile_height * stride_tiles * tile_size +
428d7b3dSmrg			 (sy & (tile_height-1)) * tile_width);
428d7b3dSmrg		uint8_t *dst_row = (uint8_t *)dst + dst_stride * y;
428d7b3dSmrg		uint32_t sx = src_x, offset;
428d7b3dSmrg
428d7b3dSmrg		x = width * cpp;
428d7b3dSmrg		if (sx & (swizzle_pixels - 1)) {
428d7b3dSmrg			const uint32_t swizzle_bound_pixels = ALIGN(sx + 1, swizzle_pixels);
428d7b3dSmrg			const uint32_t length = min(src_x + width, swizzle_bound_pixels) - sx;
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 2)) >> 3) & 64;
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, length * cpp);
428d7b3dSmrg
428d7b3dSmrg			dst_row += length * cpp;
428d7b3dSmrg			x -= length * cpp;
428d7b3dSmrg			sx += length;
428d7b3dSmrg		}
428d7b3dSmrg		while (x >= 64) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 2)) >> 3) & 64;
428d7b3dSmrg
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, 64);
428d7b3dSmrg
428d7b3dSmrg			dst_row += 64;
428d7b3dSmrg			x -= 64;
428d7b3dSmrg			sx += swizzle_pixels;
428d7b3dSmrg		}
428d7b3dSmrg		if (x) {
428d7b3dSmrg			offset = tile_row +
428d7b3dSmrg				(sx >> tile_pixels) * tile_size +
428d7b3dSmrg				(sx & tile_mask) * cpp;
428d7b3dSmrg			offset ^= ((offset ^ (offset >> 2)) >> 3) & 64;
428d7b3dSmrg			memcpy(dst_row, (const char *)src + offset, x);
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgvoid choose_memcpy_tiled_x(struct kgem *kgem, int swizzling)
428d7b3dSmrg{
428d7b3dSmrg	switch (swizzling) {
428d7b3dSmrg	default:
428d7b3dSmrg		DBG(("%s: unknown swizzling, %d\n", __FUNCTION__, swizzling));
428d7b3dSmrg		break;
428d7b3dSmrg	case I915_BIT_6_SWIZZLE_NONE:
428d7b3dSmrg		DBG(("%s: no swizzling\n", __FUNCTION__));
428d7b3dSmrg		kgem->memcpy_to_tiled_x = memcpy_to_tiled_x__swizzle_0;
428d7b3dSmrg		kgem->memcpy_from_tiled_x = memcpy_from_tiled_x__swizzle_0;
428d7b3dSmrg		break;
428d7b3dSmrg	case I915_BIT_6_SWIZZLE_9:
428d7b3dSmrg		DBG(("%s: 6^9 swizzling\n", __FUNCTION__));
428d7b3dSmrg		kgem->memcpy_to_tiled_x = memcpy_to_tiled_x__swizzle_9;
428d7b3dSmrg		kgem->memcpy_from_tiled_x = memcpy_from_tiled_x__swizzle_9;
428d7b3dSmrg		break;
428d7b3dSmrg	case I915_BIT_6_SWIZZLE_9_10:
428d7b3dSmrg		DBG(("%s: 6^9^10 swizzling\n", __FUNCTION__));
428d7b3dSmrg		kgem->memcpy_to_tiled_x = memcpy_to_tiled_x__swizzle_9_10;
428d7b3dSmrg		kgem->memcpy_from_tiled_x = memcpy_from_tiled_x__swizzle_9_10;
428d7b3dSmrg		break;
428d7b3dSmrg	case I915_BIT_6_SWIZZLE_9_11:
428d7b3dSmrg		DBG(("%s: 6^9^11 swizzling\n", __FUNCTION__));
428d7b3dSmrg		kgem->memcpy_to_tiled_x = memcpy_to_tiled_x__swizzle_9_11;
428d7b3dSmrg		kgem->memcpy_from_tiled_x = memcpy_from_tiled_x__swizzle_9_11;
428d7b3dSmrg		break;
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgvoid
428d7b3dSmrgmemmove_box(const void *src, void *dst,
428d7b3dSmrg	    int bpp, int32_t stride,
428d7b3dSmrg	    const BoxRec *box,
428d7b3dSmrg	    int dx, int dy)
428d7b3dSmrg{
428d7b3dSmrg#define FORCE_MEMMOVE 0
428d7b3dSmrg	union {
428d7b3dSmrg		uint8_t u8;
428d7b3dSmrg		uint16_t u16;
428d7b3dSmrg		uint32_t u32;
428d7b3dSmrg		uint64_t u64;
428d7b3dSmrg	} tmp;
428d7b3dSmrg	const uint8_t *src_bytes;
428d7b3dSmrg	uint8_t *dst_bytes;
428d7b3dSmrg	int width, height;
428d7b3dSmrg
428d7b3dSmrg	assert(src);
428d7b3dSmrg	assert(dst);
428d7b3dSmrg	assert(src != dst);
428d7b3dSmrg	assert(bpp >= 8);
428d7b3dSmrg	assert(box->x2 > box->x1);
428d7b3dSmrg	assert(box->y2 > box->y1);
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s: box=(%d, %d), (%d, %d), pitch=%d, bpp=%d, dx=%d, dy=%d\n",
428d7b3dSmrg	     __FUNCTION__,
428d7b3dSmrg	     box->x1, box->y1, box->x2, box->y2,
428d7b3dSmrg	     stride, bpp, dx, dy));
428d7b3dSmrg
428d7b3dSmrg	bpp /= 8;
428d7b3dSmrg	width = box->y1 * stride + box->x1 * bpp;
428d7b3dSmrg	src_bytes = (const uint8_t *)src + width;
428d7b3dSmrg	dst_bytes = (uint8_t *)dst + width;
428d7b3dSmrg	assert(dst_bytes != src_bytes);
428d7b3dSmrg
428d7b3dSmrg	width = (box->x2 - box->x1) * bpp;
428d7b3dSmrg	height = (box->y2 - box->y1);
428d7b3dSmrg	assert(width <= stride);
428d7b3dSmrg	if (width == stride) {
428d7b3dSmrg		width *= height;
428d7b3dSmrg		height = 1;
428d7b3dSmrg	}
428d7b3dSmrg
428d7b3dSmrg	if (dy >= 0) {
428d7b3dSmrg		switch (width) {
428d7b3dSmrg		case 1:
428d7b3dSmrg			do {
428d7b3dSmrg				*dst_bytes = tmp.u8 = *src_bytes;
428d7b3dSmrg				src_bytes += stride;
428d7b3dSmrg				dst_bytes += stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 2:
428d7b3dSmrg			do {
428d7b3dSmrg				*(uint16_t *)dst_bytes = tmp.u16 = *(const uint16_t *)src_bytes;
428d7b3dSmrg				src_bytes += stride;
428d7b3dSmrg				dst_bytes += stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 4:
428d7b3dSmrg			do {
428d7b3dSmrg				*(uint32_t *)dst_bytes = tmp.u32 = *(const uint32_t *)src_bytes;
428d7b3dSmrg				src_bytes += stride;
428d7b3dSmrg				dst_bytes += stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 8:
428d7b3dSmrg			do {
428d7b3dSmrg				*(uint64_t *)dst_bytes = tmp.u64 = *(const uint64_t *)src_bytes;
428d7b3dSmrg				src_bytes += stride;
428d7b3dSmrg				dst_bytes += stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		default:
428d7b3dSmrg			if (FORCE_MEMMOVE ||
428d7b3dSmrg			    (dst_bytes < src_bytes + width &&
428d7b3dSmrg			     src_bytes < dst_bytes + width)) {
428d7b3dSmrg				do {
428d7b3dSmrg					memmove(dst_bytes, src_bytes, width);
428d7b3dSmrg					src_bytes += stride;
428d7b3dSmrg					dst_bytes += stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg			} else {
428d7b3dSmrg				do {
428d7b3dSmrg					memcpy(dst_bytes, src_bytes, width);
428d7b3dSmrg					src_bytes += stride;
428d7b3dSmrg					dst_bytes += stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg			}
428d7b3dSmrg			break;
428d7b3dSmrg		}
428d7b3dSmrg	} else {
428d7b3dSmrg		src_bytes += (height-1) * stride;
428d7b3dSmrg		dst_bytes += (height-1) * stride;
428d7b3dSmrg
428d7b3dSmrg		switch (width) {
428d7b3dSmrg		case 1:
428d7b3dSmrg			do {
428d7b3dSmrg				*dst_bytes = tmp.u8 = *src_bytes;
428d7b3dSmrg				src_bytes -= stride;
428d7b3dSmrg				dst_bytes -= stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 2:
428d7b3dSmrg			do {
428d7b3dSmrg				*(uint16_t *)dst_bytes = tmp.u16 = *(const uint16_t *)src_bytes;
428d7b3dSmrg				src_bytes -= stride;
428d7b3dSmrg				dst_bytes -= stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 4:
428d7b3dSmrg			do {
428d7b3dSmrg				*(uint32_t *)dst_bytes = tmp.u32 = *(const uint32_t *)src_bytes;
428d7b3dSmrg				src_bytes -= stride;
428d7b3dSmrg				dst_bytes -= stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 8:
428d7b3dSmrg			do {
428d7b3dSmrg				*(uint64_t *)dst_bytes = tmp.u64 = *(const uint64_t *)src_bytes;
428d7b3dSmrg				src_bytes -= stride;
428d7b3dSmrg				dst_bytes -= stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		default:
428d7b3dSmrg			if (FORCE_MEMMOVE ||
428d7b3dSmrg			    (dst_bytes < src_bytes + width &&
428d7b3dSmrg			     src_bytes < dst_bytes + width)) {
428d7b3dSmrg				do {
428d7b3dSmrg					memmove(dst_bytes, src_bytes, width);
428d7b3dSmrg					src_bytes -= stride;
428d7b3dSmrg					dst_bytes -= stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg			} else {
428d7b3dSmrg				do {
428d7b3dSmrg					memcpy(dst_bytes, src_bytes, width);
428d7b3dSmrg					src_bytes -= stride;
428d7b3dSmrg					dst_bytes -= stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg			}
428d7b3dSmrg			break;
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}
428d7b3dSmrg
428d7b3dSmrgvoid
428d7b3dSmrgmemcpy_xor(const void *src, void *dst, int bpp,
428d7b3dSmrg	   int32_t src_stride, int32_t dst_stride,
428d7b3dSmrg	   int16_t src_x, int16_t src_y,
428d7b3dSmrg	   int16_t dst_x, int16_t dst_y,
428d7b3dSmrg	   uint16_t width, uint16_t height,
428d7b3dSmrg	   uint32_t and, uint32_t or)
428d7b3dSmrg{
428d7b3dSmrg	const uint8_t *src_bytes;
428d7b3dSmrg	uint8_t *dst_bytes;
428d7b3dSmrg	int i, w;
428d7b3dSmrg
428d7b3dSmrg	assert(width && height);
428d7b3dSmrg	assert(bpp >= 8);
428d7b3dSmrg	assert(width*bpp <= 8*src_stride);
428d7b3dSmrg	assert(width*bpp <= 8*dst_stride);
428d7b3dSmrg
428d7b3dSmrg	DBG(("%s: src=(%d, %d), dst=(%d, %d), size=%dx%d, pitch=%d/%d, bpp=%d, and=%x, xor=%x\n",
428d7b3dSmrg	     __FUNCTION__,
428d7b3dSmrg	     src_x, src_y, dst_x, dst_y,
428d7b3dSmrg	     width, height,
428d7b3dSmrg	     src_stride, dst_stride,
428d7b3dSmrg	     bpp, and, or));
428d7b3dSmrg
428d7b3dSmrg	bpp /= 8;
428d7b3dSmrg	src_bytes = (const uint8_t *)src + src_stride * src_y + src_x * bpp;
428d7b3dSmrg	dst_bytes = (uint8_t *)dst + dst_stride * dst_y + dst_x * bpp;
428d7b3dSmrg
428d7b3dSmrg	if (and == 0xffffffff) {
428d7b3dSmrg		switch (bpp) {
428d7b3dSmrg		case 1:
428d7b3dSmrg			if (width & 1) {
428d7b3dSmrg				do {
428d7b3dSmrg					for (i = 0; i < width; i++)
428d7b3dSmrg						dst_bytes[i] = src_bytes[i] | or;
428d7b3dSmrg
428d7b3dSmrg					src_bytes += src_stride;
428d7b3dSmrg					dst_bytes += dst_stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg				break;
428d7b3dSmrg			} else {
428d7b3dSmrg				width /= 2;
428d7b3dSmrg				or |= or << 8;
428d7b3dSmrg			}
428d7b3dSmrg		case 2:
428d7b3dSmrg			if (width & 1) {
428d7b3dSmrg				do {
428d7b3dSmrg					uint16_t *d = (uint16_t *)dst_bytes;
428d7b3dSmrg					const uint16_t *s = (const uint16_t *)src_bytes;
428d7b3dSmrg
428d7b3dSmrg					for (i = 0; i < width; i++)
428d7b3dSmrg						d[i] = s[i] | or;
428d7b3dSmrg
428d7b3dSmrg					src_bytes += src_stride;
428d7b3dSmrg					dst_bytes += dst_stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg				break;
428d7b3dSmrg			} else {
428d7b3dSmrg				width /= 2;
428d7b3dSmrg				or |= or << 16;
428d7b3dSmrg			}
428d7b3dSmrg		case 4:
428d7b3dSmrg			w = width;
428d7b3dSmrg			if (w * 4 == dst_stride && dst_stride == src_stride) {
428d7b3dSmrg				w *= height;
428d7b3dSmrg				height = 1;
428d7b3dSmrg			}
428d7b3dSmrg
428d7b3dSmrg#if USE_SSE2
428d7b3dSmrg			if (have_sse2()) {
428d7b3dSmrg				do {
428d7b3dSmrg					uint32_t *d = (uint32_t *)dst_bytes;
428d7b3dSmrg					const uint32_t *s = (const uint32_t *)src_bytes;
428d7b3dSmrg					__m128i mask = xmm_create_mask_32(or);
428d7b3dSmrg
428d7b3dSmrg					i = w;
428d7b3dSmrg					while (i && (uintptr_t)d & 15) {
428d7b3dSmrg						*d++ = *s++ | or;
428d7b3dSmrg						i--;
428d7b3dSmrg					}
428d7b3dSmrg
428d7b3dSmrg					while (i >= 16) {
428d7b3dSmrg						__m128i xmm1, xmm2, xmm3, xmm4;
428d7b3dSmrg
428d7b3dSmrg						xmm1 = xmm_load_128u((const __m128i*)s + 0);
428d7b3dSmrg						xmm2 = xmm_load_128u((const __m128i*)s + 1);
428d7b3dSmrg						xmm3 = xmm_load_128u((const __m128i*)s + 2);
428d7b3dSmrg						xmm4 = xmm_load_128u((const __m128i*)s + 3);
428d7b3dSmrg
428d7b3dSmrg						xmm_save_128((__m128i*)d + 0,
428d7b3dSmrg							     _mm_or_si128(xmm1, mask));
428d7b3dSmrg						xmm_save_128((__m128i*)d + 1,
428d7b3dSmrg							     _mm_or_si128(xmm2, mask));
428d7b3dSmrg						xmm_save_128((__m128i*)d + 2,
428d7b3dSmrg							     _mm_or_si128(xmm3, mask));
428d7b3dSmrg						xmm_save_128((__m128i*)d + 3,
428d7b3dSmrg							     _mm_or_si128(xmm4, mask));
428d7b3dSmrg
428d7b3dSmrg						d += 16;
428d7b3dSmrg						s += 16;
428d7b3dSmrg						i -= 16;
428d7b3dSmrg					}
428d7b3dSmrg
428d7b3dSmrg					if (i & 8) {
428d7b3dSmrg						__m128i xmm1, xmm2;
428d7b3dSmrg
428d7b3dSmrg						xmm1 = xmm_load_128u((const __m128i*)s + 0);
428d7b3dSmrg						xmm2 = xmm_load_128u((const __m128i*)s + 1);
428d7b3dSmrg
428d7b3dSmrg						xmm_save_128((__m128i*)d + 0,
428d7b3dSmrg							     _mm_or_si128(xmm1, mask));
428d7b3dSmrg						xmm_save_128((__m128i*)d + 1,
428d7b3dSmrg							     _mm_or_si128(xmm2, mask));
428d7b3dSmrg						d += 8;
428d7b3dSmrg						s += 8;
428d7b3dSmrg						i -= 8;
428d7b3dSmrg					}
428d7b3dSmrg
428d7b3dSmrg					if (i & 4) {
428d7b3dSmrg						xmm_save_128((__m128i*)d,
428d7b3dSmrg							     _mm_or_si128(xmm_load_128u((const __m128i*)s),
428d7b3dSmrg									  mask));
428d7b3dSmrg
428d7b3dSmrg						d += 4;
428d7b3dSmrg						s += 4;
428d7b3dSmrg						i -= 4;
428d7b3dSmrg					}
428d7b3dSmrg
428d7b3dSmrg					while (i) {
428d7b3dSmrg						*d++ = *s++ | or;
428d7b3dSmrg						i--;
428d7b3dSmrg					}
428d7b3dSmrg
428d7b3dSmrg					src_bytes += src_stride;
428d7b3dSmrg					dst_bytes += dst_stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg			} else
428d7b3dSmrg#else
428d7b3dSmrg				do {
428d7b3dSmrg					uint32_t *d = (uint32_t *)dst_bytes;
428d7b3dSmrg					uint32_t *s = (uint32_t *)src_bytes;
428d7b3dSmrg
428d7b3dSmrg					for (i = 0; i < w; i++)
428d7b3dSmrg						d[i] = s[i] | or;
428d7b3dSmrg
428d7b3dSmrg					src_bytes += src_stride;
428d7b3dSmrg					dst_bytes += dst_stride;
428d7b3dSmrg				} while (--height);
428d7b3dSmrg#endif
428d7b3dSmrg			break;
428d7b3dSmrg		}
428d7b3dSmrg	} else {
428d7b3dSmrg		switch (bpp) {
428d7b3dSmrg		case 1:
428d7b3dSmrg			do {
428d7b3dSmrg				for (i = 0; i < width; i++)
428d7b3dSmrg					dst_bytes[i] = (src_bytes[i] & and) | or;
428d7b3dSmrg
428d7b3dSmrg				src_bytes += src_stride;
428d7b3dSmrg				dst_bytes += dst_stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 2:
428d7b3dSmrg			do {
428d7b3dSmrg				uint16_t *d = (uint16_t *)dst_bytes;
428d7b3dSmrg				const uint16_t *s = (const uint16_t *)src_bytes;
428d7b3dSmrg
428d7b3dSmrg				for (i = 0; i < width; i++)
428d7b3dSmrg					d[i] = (s[i] & and) | or;
428d7b3dSmrg
428d7b3dSmrg				src_bytes += src_stride;
428d7b3dSmrg				dst_bytes += dst_stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg
428d7b3dSmrg		case 4:
428d7b3dSmrg			do {
428d7b3dSmrg				uint32_t *d = (uint32_t *)dst_bytes;
428d7b3dSmrg				const uint32_t *s = (const uint32_t *)src_bytes;
428d7b3dSmrg
428d7b3dSmrg				for (i = 0; i < width; i++)
428d7b3dSmrg					d[i] = (s[i] & and) | or;
428d7b3dSmrg
428d7b3dSmrg				src_bytes += src_stride;
428d7b3dSmrg				dst_bytes += dst_stride;
428d7b3dSmrg			} while (--height);
428d7b3dSmrg			break;
428d7b3dSmrg		}
428d7b3dSmrg	}
428d7b3dSmrg}