drivers/r600/evergreen_compute.c

848b8605Smrg/*
848b8605Smrg * Copyright 2011 Adam Rak <adam.rak@streamnovation.com>
848b8605Smrg *
848b8605Smrg * Permission is hereby granted, free of charge, to any person obtaining a
848b8605Smrg * copy of this software and associated documentation files (the "Software"),
848b8605Smrg * to deal in the Software without restriction, including without limitation
848b8605Smrg * on the rights to use, copy, modify, merge, publish, distribute, sub
848b8605Smrg * license, and/or sell copies of the Software, and to permit persons to whom
848b8605Smrg * the Software is furnished to do so, subject to the following conditions:
848b8605Smrg *
848b8605Smrg * The above copyright notice and this permission notice (including the next
848b8605Smrg * paragraph) shall be included in all copies or substantial portions of the
848b8605Smrg * Software.
848b8605Smrg *
848b8605Smrg * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
848b8605Smrg * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
848b8605Smrg * FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT. IN NO EVENT SHALL
848b8605Smrg * THE AUTHOR(S) AND/OR THEIR SUPPLIERS BE LIABLE FOR ANY CLAIM,
848b8605Smrg * DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR
848b8605Smrg * OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE
848b8605Smrg * USE OR OTHER DEALINGS IN THE SOFTWARE.
848b8605Smrg *
848b8605Smrg * Authors:
848b8605Smrg *      Adam Rak <adam.rak@streamnovation.com>
848b8605Smrg */
848b8605Smrg
b8e80941Smrg#ifdef HAVE_OPENCL
b8e80941Smrg#include <gelf.h>
b8e80941Smrg#include <libelf.h>
b8e80941Smrg#endif
848b8605Smrg#include <stdio.h>
848b8605Smrg#include <errno.h>
848b8605Smrg#include "pipe/p_defines.h"
848b8605Smrg#include "pipe/p_state.h"
848b8605Smrg#include "pipe/p_context.h"
848b8605Smrg#include "util/u_blitter.h"
b8e80941Smrg#include "util/list.h"
848b8605Smrg#include "util/u_transfer.h"
848b8605Smrg#include "util/u_surface.h"
848b8605Smrg#include "util/u_pack_color.h"
848b8605Smrg#include "util/u_memory.h"
848b8605Smrg#include "util/u_inlines.h"
848b8605Smrg#include "util/u_framebuffer.h"
b8e80941Smrg#include "tgsi/tgsi_parse.h"
848b8605Smrg#include "pipebuffer/pb_buffer.h"
848b8605Smrg#include "evergreend.h"
848b8605Smrg#include "r600_shader.h"
848b8605Smrg#include "r600_pipe.h"
848b8605Smrg#include "r600_formats.h"
848b8605Smrg#include "evergreen_compute.h"
848b8605Smrg#include "evergreen_compute_internal.h"
848b8605Smrg#include "compute_memory_pool.h"
848b8605Smrg#include "sb/sb_public.h"
848b8605Smrg#include <inttypes.h>
848b8605Smrg
848b8605Smrg/**
848b8605SmrgRAT0 is for global binding write
848b8605SmrgVTX1 is for global binding read
848b8605Smrg
848b8605Smrgfor wrting images RAT1...
848b8605Smrgfor reading images TEX2...
848b8605Smrg  TEX2-RAT1 is paired
848b8605Smrg
848b8605SmrgTEX2... consumes the same fetch resources, that VTX2... would consume
848b8605Smrg
848b8605SmrgCONST0 and VTX0 is for parameters
848b8605Smrg  CONST0 is binding smaller input parameter buffer, and for constant indexing,
848b8605Smrg  also constant cached
848b8605Smrg  VTX0 is for indirect/non-constant indexing, or if the input is bigger than
848b8605Smrg  the constant cache can handle
848b8605Smrg
848b8605SmrgRAT-s are limited to 12, so we can only bind at most 11 texture for writing
848b8605Smrgbecause we reserve RAT0 for global bindings. With byteaddressing enabled,
848b8605Smrgwe should reserve another one too.=> 10 image binding for writing max.
848b8605Smrg
848b8605Smrgfrom Nvidia OpenCL:
848b8605Smrg  CL_DEVICE_MAX_READ_IMAGE_ARGS:        128
848b8605Smrg  CL_DEVICE_MAX_WRITE_IMAGE_ARGS:       8
848b8605Smrg
848b8605Smrgso 10 for writing is enough. 176 is the max for reading according to the docs
848b8605Smrg
848b8605Smrgwritable images should be listed first < 10, so their id corresponds to RAT(id+1)
848b8605Smrgwritable images will consume TEX slots, VTX slots too because of linear indexing
848b8605Smrg
848b8605Smrg*/
848b8605Smrg
b8e80941Smrgstruct r600_resource *r600_compute_buffer_alloc_vram(struct r600_screen *screen,
b8e80941Smrg						     unsigned size)
848b8605Smrg{
b8e80941Smrg	struct pipe_resource *buffer = NULL;
848b8605Smrg	assert(size);
848b8605Smrg
b8e80941Smrg	buffer = pipe_buffer_create((struct pipe_screen*) screen,
b8e80941Smrg				    0, PIPE_USAGE_IMMUTABLE, size);
848b8605Smrg
848b8605Smrg	return (struct r600_resource *)buffer;
848b8605Smrg}
848b8605Smrg
848b8605Smrg
b8e80941Smrgstatic void evergreen_set_rat(struct r600_pipe_compute *pipe,
b8e80941Smrg			      unsigned id,
b8e80941Smrg			      struct r600_resource *bo,
b8e80941Smrg			      int start,
b8e80941Smrg			      int size)
848b8605Smrg{
848b8605Smrg	struct pipe_surface rat_templ;
848b8605Smrg	struct r600_surface *surf = NULL;
848b8605Smrg	struct r600_context *rctx = NULL;
848b8605Smrg
848b8605Smrg	assert(id < 12);
848b8605Smrg	assert((size & 3) == 0);
848b8605Smrg	assert((start & 0xFF) == 0);
848b8605Smrg
848b8605Smrg	rctx = pipe->ctx;
848b8605Smrg
848b8605Smrg	COMPUTE_DBG(rctx->screen, "bind rat: %i \n", id);
848b8605Smrg
848b8605Smrg	/* Create the RAT surface */
848b8605Smrg	memset(&rat_templ, 0, sizeof(rat_templ));
848b8605Smrg	rat_templ.format = PIPE_FORMAT_R32_UINT;
848b8605Smrg	rat_templ.u.tex.level = 0;
848b8605Smrg	rat_templ.u.tex.first_layer = 0;
848b8605Smrg	rat_templ.u.tex.last_layer = 0;
848b8605Smrg
b8e80941Smrg	/* Add the RAT the list of color buffers. Drop the old buffer first. */
b8e80941Smrg	pipe_surface_reference(&pipe->ctx->framebuffer.state.cbufs[id], NULL);
848b8605Smrg	pipe->ctx->framebuffer.state.cbufs[id] = pipe->ctx->b.b.create_surface(
848b8605Smrg		(struct pipe_context *)pipe->ctx,
848b8605Smrg		(struct pipe_resource *)bo, &rat_templ);
848b8605Smrg
848b8605Smrg	/* Update the number of color buffers */
848b8605Smrg	pipe->ctx->framebuffer.state.nr_cbufs =
848b8605Smrg		MAX2(id + 1, pipe->ctx->framebuffer.state.nr_cbufs);
848b8605Smrg
848b8605Smrg	/* Update the cb_target_mask
848b8605Smrg	 * XXX: I think this is a potential spot for bugs once we start doing
848b8605Smrg	 * GL interop.  cb_target_mask may be modified in the 3D sections
848b8605Smrg	 * of this driver. */
848b8605Smrg	pipe->ctx->compute_cb_target_mask |= (0xf << (id * 4));
848b8605Smrg
848b8605Smrg	surf = (struct r600_surface*)pipe->ctx->framebuffer.state.cbufs[id];
848b8605Smrg	evergreen_init_color_surface_rat(rctx, surf);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_cs_set_vertex_buffer(struct r600_context *rctx,
b8e80941Smrg					   unsigned vb_index,
b8e80941Smrg					   unsigned offset,
b8e80941Smrg					   struct pipe_resource *buffer)
848b8605Smrg{
848b8605Smrg	struct r600_vertexbuf_state *state = &rctx->cs_vertex_buffer_state;
848b8605Smrg	struct pipe_vertex_buffer *vb = &state->vb[vb_index];
848b8605Smrg	vb->stride = 1;
848b8605Smrg	vb->buffer_offset = offset;
b8e80941Smrg	vb->buffer.resource = buffer;
b8e80941Smrg	vb->is_user_buffer = false;
848b8605Smrg
848b8605Smrg	/* The vertex instructions in the compute shaders use the texture cache,
848b8605Smrg	 * so we need to invalidate it. */
848b8605Smrg	rctx->b.flags |= R600_CONTEXT_INV_VERTEX_CACHE;
848b8605Smrg	state->enabled_mask |= 1 << vb_index;
848b8605Smrg	state->dirty_mask |= 1 << vb_index;
b8e80941Smrg	r600_mark_atom_dirty(rctx, &state->atom);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_cs_set_constant_buffer(struct r600_context *rctx,
b8e80941Smrg					     unsigned cb_index,
b8e80941Smrg					     unsigned offset,
b8e80941Smrg					     unsigned size,
b8e80941Smrg					     struct pipe_resource *buffer)
848b8605Smrg{
848b8605Smrg	struct pipe_constant_buffer cb;
848b8605Smrg	cb.buffer_size = size;
848b8605Smrg	cb.buffer_offset = offset;
848b8605Smrg	cb.buffer = buffer;
848b8605Smrg	cb.user_buffer = NULL;
848b8605Smrg
848b8605Smrg	rctx->b.b.set_constant_buffer(&rctx->b.b, PIPE_SHADER_COMPUTE, cb_index, &cb);
848b8605Smrg}
848b8605Smrg
b8e80941Smrg/* We need to define these R600 registers here, because we can't include
b8e80941Smrg * evergreend.h and r600d.h.
b8e80941Smrg */
b8e80941Smrg#define R_028868_SQ_PGM_RESOURCES_VS                 0x028868
b8e80941Smrg#define R_028850_SQ_PGM_RESOURCES_PS                 0x028850
b8e80941Smrg
b8e80941Smrg#ifdef HAVE_OPENCL
b8e80941Smrgstatic void parse_symbol_table(Elf_Data *symbol_table_data,
b8e80941Smrg				const GElf_Shdr *symbol_table_header,
b8e80941Smrg				struct ac_shader_binary *binary)
848b8605Smrg{
b8e80941Smrg	GElf_Sym symbol;
b8e80941Smrg	unsigned i = 0;
b8e80941Smrg	unsigned symbol_count =
b8e80941Smrg		symbol_table_header->sh_size / symbol_table_header->sh_entsize;
b8e80941Smrg
b8e80941Smrg	/* We are over allocating this list, because symbol_count gives the
b8e80941Smrg	 * total number of symbols, and we will only be filling the list
b8e80941Smrg	 * with offsets of global symbols.  The memory savings from
b8e80941Smrg	 * allocating the correct size of this list will be small, and
b8e80941Smrg	 * I don't think it is worth the cost of pre-computing the number
b8e80941Smrg	 * of global symbols.
b8e80941Smrg	 */
b8e80941Smrg	binary->global_symbol_offsets = CALLOC(symbol_count, sizeof(uint64_t));
b8e80941Smrg
b8e80941Smrg	while (gelf_getsym(symbol_table_data, i++, &symbol)) {
b8e80941Smrg		unsigned i;
b8e80941Smrg		if (GELF_ST_BIND(symbol.st_info) != STB_GLOBAL ||
b8e80941Smrg		    symbol.st_shndx == 0 /* Undefined symbol */) {
b8e80941Smrg			continue;
b8e80941Smrg		}
848b8605Smrg
b8e80941Smrg		binary->global_symbol_offsets[binary->global_symbol_count] =
b8e80941Smrg					symbol.st_value;
848b8605Smrg
b8e80941Smrg		/* Sort the list using bubble sort.  This list will usually
b8e80941Smrg		 * be small. */
b8e80941Smrg		for (i = binary->global_symbol_count; i > 0; --i) {
b8e80941Smrg			uint64_t lhs = binary->global_symbol_offsets[i - 1];
b8e80941Smrg			uint64_t rhs = binary->global_symbol_offsets[i];
b8e80941Smrg			if (lhs < rhs) {
b8e80941Smrg				break;
b8e80941Smrg			}
b8e80941Smrg			binary->global_symbol_offsets[i] = lhs;
b8e80941Smrg			binary->global_symbol_offsets[i - 1] = rhs;
b8e80941Smrg		}
b8e80941Smrg		++binary->global_symbol_count;
b8e80941Smrg	}
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrg
b8e80941Smrgstatic void parse_relocs(Elf *elf, Elf_Data *relocs, Elf_Data *symbols,
b8e80941Smrg			unsigned symbol_sh_link,
b8e80941Smrg			struct ac_shader_binary *binary)
848b8605Smrg{
b8e80941Smrg	unsigned i;
848b8605Smrg
b8e80941Smrg	if (!relocs || !symbols || !binary->reloc_count) {
b8e80941Smrg		return;
b8e80941Smrg	}
b8e80941Smrg	binary->relocs = CALLOC(binary->reloc_count,
b8e80941Smrg			sizeof(struct ac_shader_reloc));
b8e80941Smrg	for (i = 0; i < binary->reloc_count; i++) {
b8e80941Smrg		GElf_Sym symbol;
b8e80941Smrg		GElf_Rel rel;
b8e80941Smrg		char *symbol_name;
b8e80941Smrg		struct ac_shader_reloc *reloc = &binary->relocs[i];
b8e80941Smrg
b8e80941Smrg		gelf_getrel(relocs, i, &rel);
b8e80941Smrg		gelf_getsym(symbols, GELF_R_SYM(rel.r_info), &symbol);
b8e80941Smrg		symbol_name = elf_strptr(elf, symbol_sh_link, symbol.st_name);
b8e80941Smrg
b8e80941Smrg		reloc->offset = rel.r_offset;
b8e80941Smrg		strncpy(reloc->name, symbol_name, sizeof(reloc->name)-1);
b8e80941Smrg		reloc->name[sizeof(reloc->name)-1] = 0;
b8e80941Smrg	}
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic void r600_elf_read(const char *elf_data, unsigned elf_size,
b8e80941Smrg		 struct ac_shader_binary *binary)
b8e80941Smrg{
b8e80941Smrg	char *elf_buffer;
b8e80941Smrg	Elf *elf;
b8e80941Smrg	Elf_Scn *section = NULL;
b8e80941Smrg	Elf_Data *symbols = NULL, *relocs = NULL;
b8e80941Smrg	size_t section_str_index;
b8e80941Smrg	unsigned symbol_sh_link = 0;
b8e80941Smrg
b8e80941Smrg	/* One of the libelf implementations
b8e80941Smrg	 * (http://www.mr511.de/software/english.htm) requires calling
b8e80941Smrg	 * elf_version() before elf_memory().
b8e80941Smrg	 */
b8e80941Smrg	elf_version(EV_CURRENT);
b8e80941Smrg	elf_buffer = MALLOC(elf_size);
b8e80941Smrg	memcpy(elf_buffer, elf_data, elf_size);
b8e80941Smrg
b8e80941Smrg	elf = elf_memory(elf_buffer, elf_size);
b8e80941Smrg
b8e80941Smrg	elf_getshdrstrndx(elf, &section_str_index);
b8e80941Smrg
b8e80941Smrg	while ((section = elf_nextscn(elf, section))) {
b8e80941Smrg		const char *name;
b8e80941Smrg		Elf_Data *section_data = NULL;
b8e80941Smrg		GElf_Shdr section_header;
b8e80941Smrg		if (gelf_getshdr(section, &section_header) != &section_header) {
b8e80941Smrg			fprintf(stderr, "Failed to read ELF section header\n");
b8e80941Smrg			return;
b8e80941Smrg		}
b8e80941Smrg		name = elf_strptr(elf, section_str_index, section_header.sh_name);
b8e80941Smrg		if (!strcmp(name, ".text")) {
b8e80941Smrg			section_data = elf_getdata(section, section_data);
b8e80941Smrg			binary->code_size = section_data->d_size;
b8e80941Smrg			binary->code = MALLOC(binary->code_size * sizeof(unsigned char));
b8e80941Smrg			memcpy(binary->code, section_data->d_buf, binary->code_size);
b8e80941Smrg		} else if (!strcmp(name, ".AMDGPU.config")) {
b8e80941Smrg			section_data = elf_getdata(section, section_data);
b8e80941Smrg			binary->config_size = section_data->d_size;
b8e80941Smrg			binary->config = MALLOC(binary->config_size * sizeof(unsigned char));
b8e80941Smrg			memcpy(binary->config, section_data->d_buf, binary->config_size);
b8e80941Smrg		} else if (!strcmp(name, ".AMDGPU.disasm")) {
b8e80941Smrg			/* Always read disassembly if it's available. */
b8e80941Smrg			section_data = elf_getdata(section, section_data);
b8e80941Smrg			binary->disasm_string = strndup(section_data->d_buf,
b8e80941Smrg							section_data->d_size);
b8e80941Smrg		} else if (!strncmp(name, ".rodata", 7)) {
b8e80941Smrg			section_data = elf_getdata(section, section_data);
b8e80941Smrg			binary->rodata_size = section_data->d_size;
b8e80941Smrg			binary->rodata = MALLOC(binary->rodata_size * sizeof(unsigned char));
b8e80941Smrg			memcpy(binary->rodata, section_data->d_buf, binary->rodata_size);
b8e80941Smrg		} else if (!strncmp(name, ".symtab", 7)) {
b8e80941Smrg			symbols = elf_getdata(section, section_data);
b8e80941Smrg			symbol_sh_link = section_header.sh_link;
b8e80941Smrg			parse_symbol_table(symbols, &section_header, binary);
b8e80941Smrg		} else if (!strcmp(name, ".rel.text")) {
b8e80941Smrg			relocs = elf_getdata(section, section_data);
b8e80941Smrg			binary->reloc_count = section_header.sh_size /
b8e80941Smrg					section_header.sh_entsize;
b8e80941Smrg		}
b8e80941Smrg	}
b8e80941Smrg
b8e80941Smrg	parse_relocs(elf, relocs, symbols, symbol_sh_link, binary);
b8e80941Smrg
b8e80941Smrg	if (elf){
b8e80941Smrg		elf_end(elf);
b8e80941Smrg	}
b8e80941Smrg	FREE(elf_buffer);
b8e80941Smrg
b8e80941Smrg	/* Cache the config size per symbol */
b8e80941Smrg	if (binary->global_symbol_count) {
b8e80941Smrg		binary->config_size_per_symbol =
b8e80941Smrg			binary->config_size / binary->global_symbol_count;
b8e80941Smrg	} else {
b8e80941Smrg		binary->global_symbol_count = 1;
b8e80941Smrg		binary->config_size_per_symbol = binary->config_size;
b8e80941Smrg	}
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic const unsigned char *r600_shader_binary_config_start(
b8e80941Smrg	const struct ac_shader_binary *binary,
b8e80941Smrg	uint64_t symbol_offset)
b8e80941Smrg{
848b8605Smrg	unsigned i;
b8e80941Smrg	for (i = 0; i < binary->global_symbol_count; ++i) {
b8e80941Smrg		if (binary->global_symbol_offsets[i] == symbol_offset) {
b8e80941Smrg			unsigned offset = i * binary->config_size_per_symbol;
b8e80941Smrg			return binary->config + offset;
b8e80941Smrg		}
b8e80941Smrg	}
b8e80941Smrg	return binary->config;
b8e80941Smrg}
848b8605Smrg
b8e80941Smrgstatic void r600_shader_binary_read_config(const struct ac_shader_binary *binary,
b8e80941Smrg					   struct r600_bytecode *bc,
b8e80941Smrg					   uint64_t symbol_offset,
b8e80941Smrg					   boolean *use_kill)
b8e80941Smrg{
b8e80941Smrg       unsigned i;
b8e80941Smrg       const unsigned char *config =
b8e80941Smrg               r600_shader_binary_config_start(binary, symbol_offset);
b8e80941Smrg
b8e80941Smrg       for (i = 0; i < binary->config_size_per_symbol; i+= 8) {
b8e80941Smrg               unsigned reg =
b8e80941Smrg                       util_le32_to_cpu(*(uint32_t*)(config + i));
b8e80941Smrg               unsigned value =
b8e80941Smrg                       util_le32_to_cpu(*(uint32_t*)(config + i + 4));
b8e80941Smrg               switch (reg) {
b8e80941Smrg               /* R600 / R700 */
b8e80941Smrg               case R_028850_SQ_PGM_RESOURCES_PS:
b8e80941Smrg               case R_028868_SQ_PGM_RESOURCES_VS:
b8e80941Smrg               /* Evergreen / Northern Islands */
b8e80941Smrg               case R_028844_SQ_PGM_RESOURCES_PS:
b8e80941Smrg               case R_028860_SQ_PGM_RESOURCES_VS:
b8e80941Smrg               case R_0288D4_SQ_PGM_RESOURCES_LS:
b8e80941Smrg                       bc->ngpr = MAX2(bc->ngpr, G_028844_NUM_GPRS(value));
b8e80941Smrg                       bc->nstack = MAX2(bc->nstack, G_028844_STACK_SIZE(value));
b8e80941Smrg                       break;
b8e80941Smrg               case R_02880C_DB_SHADER_CONTROL:
b8e80941Smrg                       *use_kill = G_02880C_KILL_ENABLE(value);
b8e80941Smrg                       break;
b8e80941Smrg               case R_0288E8_SQ_LDS_ALLOC:
b8e80941Smrg                       bc->nlds_dw = value;
b8e80941Smrg                       break;
b8e80941Smrg               }
b8e80941Smrg       }
b8e80941Smrg}
848b8605Smrg
b8e80941Smrgstatic unsigned r600_create_shader(struct r600_bytecode *bc,
b8e80941Smrg				   const struct ac_shader_binary *binary,
b8e80941Smrg				   boolean *use_kill)
b8e80941Smrg
b8e80941Smrg{
b8e80941Smrg	assert(binary->code_size % 4 == 0);
b8e80941Smrg	bc->bytecode = CALLOC(1, binary->code_size);
b8e80941Smrg	memcpy(bc->bytecode, binary->code, binary->code_size);
b8e80941Smrg	bc->ndw = binary->code_size / 4;
b8e80941Smrg
b8e80941Smrg	r600_shader_binary_read_config(binary, bc, 0, use_kill);
b8e80941Smrg	return 0;
b8e80941Smrg}
848b8605Smrg
848b8605Smrg#endif
848b8605Smrg
b8e80941Smrgstatic void r600_destroy_shader(struct r600_bytecode *bc)
b8e80941Smrg{
b8e80941Smrg	FREE(bc->bytecode);
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic void *evergreen_create_compute_state(struct pipe_context *ctx,
b8e80941Smrg					    const struct pipe_compute_state *cso)
b8e80941Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context *)ctx;
b8e80941Smrg	struct r600_pipe_compute *shader = CALLOC_STRUCT(r600_pipe_compute);
b8e80941Smrg#ifdef HAVE_OPENCL
b8e80941Smrg	const struct pipe_llvm_program_header *header;
b8e80941Smrg	const char *code;
b8e80941Smrg	void *p;
b8e80941Smrg	boolean use_kill;
b8e80941Smrg#endif
b8e80941Smrg
b8e80941Smrg	shader->ctx = rctx;
848b8605Smrg	shader->local_size = cso->req_local_mem;
848b8605Smrg	shader->private_size = cso->req_private_mem;
848b8605Smrg	shader->input_size = cso->req_input_mem;
848b8605Smrg
b8e80941Smrg	shader->ir_type = cso->ir_type;
848b8605Smrg
b8e80941Smrg	if (shader->ir_type == PIPE_SHADER_IR_TGSI) {
b8e80941Smrg		shader->sel = r600_create_shader_state_tokens(ctx, cso->prog, PIPE_SHADER_COMPUTE);
b8e80941Smrg		return shader;
848b8605Smrg	}
b8e80941Smrg#ifdef HAVE_OPENCL
b8e80941Smrg	COMPUTE_DBG(rctx->screen, "*** evergreen_create_compute_state\n");
b8e80941Smrg	header = cso->prog;
b8e80941Smrg	code = cso->prog + sizeof(struct pipe_llvm_program_header);
b8e80941Smrg	radeon_shader_binary_init(&shader->binary);
b8e80941Smrg	r600_elf_read(code, header->num_bytes, &shader->binary);
b8e80941Smrg	r600_create_shader(&shader->bc, &shader->binary, &use_kill);
b8e80941Smrg
b8e80941Smrg	/* Upload code + ROdata */
b8e80941Smrg	shader->code_bo = r600_compute_buffer_alloc_vram(rctx->screen,
b8e80941Smrg							shader->bc.ndw * 4);
b8e80941Smrg	p = r600_buffer_map_sync_with_rings(
b8e80941Smrg		&rctx->b, shader->code_bo,
b8e80941Smrg		PIPE_TRANSFER_WRITE | RADEON_TRANSFER_TEMPORARY);
b8e80941Smrg	//TODO: use util_memcpy_cpu_to_le32 ?
b8e80941Smrg	memcpy(p, shader->bc.bytecode, shader->bc.ndw * 4);
b8e80941Smrg	rctx->b.ws->buffer_unmap(shader->code_bo->buf);
848b8605Smrg#endif
b8e80941Smrg
848b8605Smrg	return shader;
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_delete_compute_state(struct pipe_context *ctx, void *state)
848b8605Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context *)ctx;
b8e80941Smrg	struct r600_pipe_compute *shader = state;
b8e80941Smrg
b8e80941Smrg	COMPUTE_DBG(rctx->screen, "*** evergreen_delete_compute_state\n");
848b8605Smrg
848b8605Smrg	if (!shader)
848b8605Smrg		return;
848b8605Smrg
b8e80941Smrg	if (shader->ir_type == PIPE_SHADER_IR_TGSI) {
b8e80941Smrg		r600_delete_shader_selector(ctx, shader->sel);
b8e80941Smrg	} else {
848b8605Smrg#ifdef HAVE_OPENCL
b8e80941Smrg		radeon_shader_binary_clean(&shader->binary);
b8e80941Smrg		pipe_resource_reference((struct pipe_resource**)&shader->code_bo, NULL);
b8e80941Smrg		pipe_resource_reference((struct pipe_resource**)&shader->kernel_param, NULL);
848b8605Smrg#endif
b8e80941Smrg		r600_destroy_shader(&shader->bc);
b8e80941Smrg	}
848b8605Smrg	FREE(shader);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_bind_compute_state(struct pipe_context *ctx, void *state)
848b8605Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context *)ctx;
b8e80941Smrg	struct r600_pipe_compute *cstate = (struct r600_pipe_compute *)state;
b8e80941Smrg	COMPUTE_DBG(rctx->screen, "*** evergreen_bind_compute_state\n");
b8e80941Smrg
b8e80941Smrg	if (!state) {
b8e80941Smrg		rctx->cs_shader_state.shader = (struct r600_pipe_compute *)state;
b8e80941Smrg		return;
b8e80941Smrg	}
b8e80941Smrg
b8e80941Smrg	if (cstate->ir_type == PIPE_SHADER_IR_TGSI) {
b8e80941Smrg		bool compute_dirty;
848b8605Smrg
b8e80941Smrg		r600_shader_select(ctx, cstate->sel, &compute_dirty);
b8e80941Smrg	}
848b8605Smrg
b8e80941Smrg	rctx->cs_shader_state.shader = (struct r600_pipe_compute *)state;
848b8605Smrg}
848b8605Smrg
848b8605Smrg/* The kernel parameters are stored a vtx buffer (ID=0), besides the explicit
848b8605Smrg * kernel parameters there are implicit parameters that need to be stored
848b8605Smrg * in the vertex buffer as well.  Here is how these parameters are organized in
848b8605Smrg * the buffer:
848b8605Smrg *
848b8605Smrg * DWORDS 0-2: Number of work groups in each dimension (x,y,z)
848b8605Smrg * DWORDS 3-5: Number of global work items in each dimension (x,y,z)
848b8605Smrg * DWORDS 6-8: Number of work items within each work group in each dimension
848b8605Smrg *             (x,y,z)
848b8605Smrg * DWORDS 9+ : Kernel parameters
848b8605Smrg */
b8e80941Smrgstatic void evergreen_compute_upload_input(struct pipe_context *ctx,
b8e80941Smrg					   const struct pipe_grid_info *info)
848b8605Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context *)ctx;
b8e80941Smrg	struct r600_pipe_compute *shader = rctx->cs_shader_state.shader;
848b8605Smrg	unsigned i;
848b8605Smrg	/* We need to reserve 9 dwords (36 bytes) for implicit kernel
848b8605Smrg	 * parameters.
848b8605Smrg	 */
b8e80941Smrg	unsigned input_size;
b8e80941Smrg	uint32_t *num_work_groups_start;
b8e80941Smrg	uint32_t *global_size_start;
b8e80941Smrg	uint32_t *local_size_start;
b8e80941Smrg	uint32_t *kernel_parameters_start;
848b8605Smrg	struct pipe_box box;
848b8605Smrg	struct pipe_transfer *transfer = NULL;
848b8605Smrg
b8e80941Smrg	if (!shader)
b8e80941Smrg		return;
848b8605Smrg	if (shader->input_size == 0) {
848b8605Smrg		return;
848b8605Smrg	}
b8e80941Smrg	input_size = shader->input_size + 36;
848b8605Smrg	if (!shader->kernel_param) {
848b8605Smrg		/* Add space for the grid dimensions */
848b8605Smrg		shader->kernel_param = (struct r600_resource *)
b8e80941Smrg			pipe_buffer_create(ctx->screen, 0,
848b8605Smrg					PIPE_USAGE_IMMUTABLE, input_size);
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	u_box_1d(0, input_size, &box);
b8e80941Smrg	num_work_groups_start = ctx->transfer_map(ctx,
848b8605Smrg			(struct pipe_resource*)shader->kernel_param,
848b8605Smrg			0, PIPE_TRANSFER_WRITE | PIPE_TRANSFER_DISCARD_RANGE,
848b8605Smrg			&box, &transfer);
848b8605Smrg	global_size_start = num_work_groups_start + (3 * (sizeof(uint) /4));
848b8605Smrg	local_size_start = global_size_start + (3 * (sizeof(uint)) / 4);
848b8605Smrg	kernel_parameters_start = local_size_start + (3 * (sizeof(uint)) / 4);
848b8605Smrg
848b8605Smrg	/* Copy the work group size */
b8e80941Smrg	memcpy(num_work_groups_start, info->grid, 3 * sizeof(uint));
848b8605Smrg
848b8605Smrg	/* Copy the global size */
848b8605Smrg	for (i = 0; i < 3; i++) {
b8e80941Smrg		global_size_start[i] = info->grid[i] * info->block[i];
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	/* Copy the local dimensions */
b8e80941Smrg	memcpy(local_size_start, info->block, 3 * sizeof(uint));
848b8605Smrg
848b8605Smrg	/* Copy the kernel inputs */
b8e80941Smrg	memcpy(kernel_parameters_start, info->input, shader->input_size);
848b8605Smrg
848b8605Smrg	for (i = 0; i < (input_size / 4); i++) {
b8e80941Smrg		COMPUTE_DBG(rctx->screen, "input %i : %u\n", i,
848b8605Smrg			((unsigned*)num_work_groups_start)[i]);
848b8605Smrg	}
848b8605Smrg
b8e80941Smrg	ctx->transfer_unmap(ctx, transfer);
848b8605Smrg
b8e80941Smrg	/* ID=0 and ID=3 are reserved for the parameters.
b8e80941Smrg	 * LLVM will preferably use ID=0, but it does not work for dynamic
b8e80941Smrg	 * indices. */
b8e80941Smrg	evergreen_cs_set_vertex_buffer(rctx, 3, 0,
b8e80941Smrg			(struct pipe_resource*)shader->kernel_param);
b8e80941Smrg	evergreen_cs_set_constant_buffer(rctx, 0, 0, input_size,
848b8605Smrg			(struct pipe_resource*)shader->kernel_param);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_emit_dispatch(struct r600_context *rctx,
b8e80941Smrg				    const struct pipe_grid_info *info,
b8e80941Smrg				    uint32_t indirect_grid[3])
848b8605Smrg{
848b8605Smrg	int i;
b8e80941Smrg	struct radeon_cmdbuf *cs = rctx->b.gfx.cs;
848b8605Smrg	struct r600_pipe_compute *shader = rctx->cs_shader_state.shader;
b8e80941Smrg	bool render_cond_bit = rctx->b.render_cond && !rctx->b.render_cond_force_off;
848b8605Smrg	unsigned num_waves;
b8e80941Smrg	unsigned num_pipes = rctx->screen->b.info.r600_max_quad_pipes;
848b8605Smrg	unsigned wave_divisor = (16 * num_pipes);
848b8605Smrg	int group_size = 1;
848b8605Smrg	int grid_size = 1;
b8e80941Smrg	unsigned lds_size = shader->local_size / 4;
b8e80941Smrg
b8e80941Smrg	if (shader->ir_type != PIPE_SHADER_IR_TGSI)
b8e80941Smrg		lds_size += shader->bc.nlds_dw;
848b8605Smrg
848b8605Smrg	/* Calculate group_size/grid_size */
848b8605Smrg	for (i = 0; i < 3; i++) {
b8e80941Smrg		group_size *= info->block[i];
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	for (i = 0; i < 3; i++)	{
b8e80941Smrg		grid_size *= info->grid[i];
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	/* num_waves = ceil((tg_size.x * tg_size.y, tg_size.z) / (16 * num_pipes)) */
b8e80941Smrg	num_waves = (info->block[0] * info->block[1] * info->block[2] +
848b8605Smrg			wave_divisor - 1) / wave_divisor;
848b8605Smrg
848b8605Smrg	COMPUTE_DBG(rctx->screen, "Using %u pipes, "
848b8605Smrg				"%u wavefronts per thread block, "
848b8605Smrg				"allocating %u dwords lds.\n",
848b8605Smrg				num_pipes, num_waves, lds_size);
848b8605Smrg
b8e80941Smrg	radeon_set_config_reg(cs, R_008970_VGT_NUM_INDICES, group_size);
848b8605Smrg
b8e80941Smrg	radeon_set_config_reg_seq(cs, R_00899C_VGT_COMPUTE_START_X, 3);
848b8605Smrg	radeon_emit(cs, 0); /* R_00899C_VGT_COMPUTE_START_X */
848b8605Smrg	radeon_emit(cs, 0); /* R_0089A0_VGT_COMPUTE_START_Y */
848b8605Smrg	radeon_emit(cs, 0); /* R_0089A4_VGT_COMPUTE_START_Z */
848b8605Smrg
b8e80941Smrg	radeon_set_config_reg(cs, R_0089AC_VGT_COMPUTE_THREAD_GROUP_SIZE,
848b8605Smrg								group_size);
848b8605Smrg
b8e80941Smrg	radeon_compute_set_context_reg_seq(cs, R_0286EC_SPI_COMPUTE_NUM_THREAD_X, 3);
b8e80941Smrg	radeon_emit(cs, info->block[0]); /* R_0286EC_SPI_COMPUTE_NUM_THREAD_X */
b8e80941Smrg	radeon_emit(cs, info->block[1]); /* R_0286F0_SPI_COMPUTE_NUM_THREAD_Y */
b8e80941Smrg	radeon_emit(cs, info->block[2]); /* R_0286F4_SPI_COMPUTE_NUM_THREAD_Z */
848b8605Smrg
848b8605Smrg	if (rctx->b.chip_class < CAYMAN) {
848b8605Smrg		assert(lds_size <= 8192);
848b8605Smrg	} else {
848b8605Smrg		/* Cayman appears to have a slightly smaller limit, see the
848b8605Smrg		 * value of CM_R_0286FC_SPI_LDS_MGMT.NUM_LS_LDS */
848b8605Smrg		assert(lds_size <= 8160);
848b8605Smrg	}
848b8605Smrg
b8e80941Smrg	radeon_compute_set_context_reg(cs, R_0288E8_SQ_LDS_ALLOC,
848b8605Smrg					lds_size | (num_waves << 14));
848b8605Smrg
b8e80941Smrg	if (info->indirect) {
b8e80941Smrg		radeon_emit(cs, PKT3C(PKT3_DISPATCH_DIRECT, 3, render_cond_bit));
b8e80941Smrg		radeon_emit(cs, indirect_grid[0]);
b8e80941Smrg		radeon_emit(cs, indirect_grid[1]);
b8e80941Smrg		radeon_emit(cs, indirect_grid[2]);
b8e80941Smrg		radeon_emit(cs, 1);
b8e80941Smrg	} else {
b8e80941Smrg		/* Dispatch packet */
b8e80941Smrg		radeon_emit(cs, PKT3C(PKT3_DISPATCH_DIRECT, 3, render_cond_bit));
b8e80941Smrg		radeon_emit(cs, info->grid[0]);
b8e80941Smrg		radeon_emit(cs, info->grid[1]);
b8e80941Smrg		radeon_emit(cs, info->grid[2]);
b8e80941Smrg		/* VGT_DISPATCH_INITIATOR = COMPUTE_SHADER_EN */
b8e80941Smrg		radeon_emit(cs, 1);
b8e80941Smrg	}
b8e80941Smrg
b8e80941Smrg	if (rctx->is_debug)
b8e80941Smrg		eg_trace_emit(rctx);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void compute_setup_cbs(struct r600_context *rctx)
848b8605Smrg{
b8e80941Smrg	struct radeon_cmdbuf *cs = rctx->b.gfx.cs;
848b8605Smrg	unsigned i;
848b8605Smrg
848b8605Smrg	/* Emit colorbuffers. */
848b8605Smrg	/* XXX support more than 8 colorbuffers (the offsets are not a multiple of 0x3C for CB8-11) */
b8e80941Smrg	for (i = 0; i < 8 && i < rctx->framebuffer.state.nr_cbufs; i++) {
b8e80941Smrg		struct r600_surface *cb = (struct r600_surface*)rctx->framebuffer.state.cbufs[i];
b8e80941Smrg		unsigned reloc = radeon_add_to_buffer_list(&rctx->b, &rctx->b.gfx,
848b8605Smrg						       (struct r600_resource*)cb->base.texture,
848b8605Smrg						       RADEON_USAGE_READWRITE,
b8e80941Smrg						       RADEON_PRIO_SHADER_RW_BUFFER);
848b8605Smrg
b8e80941Smrg		radeon_compute_set_context_reg_seq(cs, R_028C60_CB_COLOR0_BASE + i * 0x3C, 7);
848b8605Smrg		radeon_emit(cs, cb->cb_color_base);	/* R_028C60_CB_COLOR0_BASE */
848b8605Smrg		radeon_emit(cs, cb->cb_color_pitch);	/* R_028C64_CB_COLOR0_PITCH */
848b8605Smrg		radeon_emit(cs, cb->cb_color_slice);	/* R_028C68_CB_COLOR0_SLICE */
848b8605Smrg		radeon_emit(cs, cb->cb_color_view);	/* R_028C6C_CB_COLOR0_VIEW */
848b8605Smrg		radeon_emit(cs, cb->cb_color_info);	/* R_028C70_CB_COLOR0_INFO */
848b8605Smrg		radeon_emit(cs, cb->cb_color_attrib);	/* R_028C74_CB_COLOR0_ATTRIB */
848b8605Smrg		radeon_emit(cs, cb->cb_color_dim);		/* R_028C78_CB_COLOR0_DIM */
848b8605Smrg
848b8605Smrg		radeon_emit(cs, PKT3(PKT3_NOP, 0, 0)); /* R_028C60_CB_COLOR0_BASE */
848b8605Smrg		radeon_emit(cs, reloc);
848b8605Smrg
848b8605Smrg		radeon_emit(cs, PKT3(PKT3_NOP, 0, 0)); /* R_028C74_CB_COLOR0_ATTRIB */
848b8605Smrg		radeon_emit(cs, reloc);
848b8605Smrg	}
b8e80941Smrg	for (; i < 8 ; i++)
b8e80941Smrg		radeon_compute_set_context_reg(cs, R_028C70_CB_COLOR0_INFO + i * 0x3C,
b8e80941Smrg					       S_028C70_FORMAT(V_028C70_COLOR_INVALID));
b8e80941Smrg	for (; i < 12; i++)
b8e80941Smrg		radeon_compute_set_context_reg(cs, R_028E50_CB_COLOR8_INFO + (i - 8) * 0x1C,
b8e80941Smrg					       S_028C70_FORMAT(V_028C70_COLOR_INVALID));
b8e80941Smrg
b8e80941Smrg	/* Set CB_TARGET_MASK  XXX: Use cb_misc_state */
b8e80941Smrg	radeon_compute_set_context_reg(cs, R_028238_CB_TARGET_MASK,
b8e80941Smrg				       rctx->compute_cb_target_mask);
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic void compute_emit_cs(struct r600_context *rctx,
b8e80941Smrg			    const struct pipe_grid_info *info)
b8e80941Smrg{
b8e80941Smrg	struct radeon_cmdbuf *cs = rctx->b.gfx.cs;
b8e80941Smrg	bool compute_dirty = false;
b8e80941Smrg	struct r600_pipe_shader *current;
b8e80941Smrg	struct r600_shader_atomic combined_atomics[8];
b8e80941Smrg	uint8_t atomic_used_mask;
b8e80941Smrg	uint32_t indirect_grid[3] = { 0, 0, 0 };
b8e80941Smrg
b8e80941Smrg	/* make sure that the gfx ring is only one active */
b8e80941Smrg	if (radeon_emitted(rctx->b.dma.cs, 0)) {
b8e80941Smrg		rctx->b.dma.flush(rctx, PIPE_FLUSH_ASYNC, NULL);
b8e80941Smrg	}
b8e80941Smrg
b8e80941Smrg	r600_update_compressed_resource_state(rctx, true);
b8e80941Smrg
b8e80941Smrg	if (!rctx->cmd_buf_is_compute) {
b8e80941Smrg		rctx->b.gfx.flush(rctx, PIPE_FLUSH_ASYNC, NULL);
b8e80941Smrg		rctx->cmd_buf_is_compute = true;
b8e80941Smrg	}
b8e80941Smrg
b8e80941Smrg	if (rctx->cs_shader_state.shader->ir_type == PIPE_SHADER_IR_TGSI) {
b8e80941Smrg		r600_shader_select(&rctx->b.b, rctx->cs_shader_state.shader->sel, &compute_dirty);
b8e80941Smrg		current = rctx->cs_shader_state.shader->sel->current;
b8e80941Smrg		if (compute_dirty) {
b8e80941Smrg			rctx->cs_shader_state.atom.num_dw = current->command_buffer.num_dw;
b8e80941Smrg			r600_context_add_resource_size(&rctx->b.b, (struct pipe_resource *)current->bo);
b8e80941Smrg			r600_set_atom_dirty(rctx, &rctx->cs_shader_state.atom, true);
b8e80941Smrg		}
b8e80941Smrg
b8e80941Smrg		bool need_buf_const = current->shader.uses_tex_buffers ||
b8e80941Smrg			current->shader.has_txq_cube_array_z_comp;
b8e80941Smrg
b8e80941Smrg		if (info->indirect) {
b8e80941Smrg			struct r600_resource *indirect_resource = (struct r600_resource *)info->indirect;
b8e80941Smrg			unsigned *data = r600_buffer_map_sync_with_rings(&rctx->b, indirect_resource, PIPE_TRANSFER_READ);
b8e80941Smrg			unsigned offset = info->indirect_offset / 4;
b8e80941Smrg			indirect_grid[0] = data[offset];
b8e80941Smrg			indirect_grid[1] = data[offset + 1];
b8e80941Smrg			indirect_grid[2] = data[offset + 2];
b8e80941Smrg		}
b8e80941Smrg		for (int i = 0; i < 3; i++) {
b8e80941Smrg			rctx->cs_block_grid_sizes[i] = info->block[i];
b8e80941Smrg			rctx->cs_block_grid_sizes[i + 4] = info->indirect ? indirect_grid[i] : info->grid[i];
b8e80941Smrg		}
b8e80941Smrg		rctx->cs_block_grid_sizes[3] = rctx->cs_block_grid_sizes[7] = 0;
b8e80941Smrg		rctx->driver_consts[PIPE_SHADER_COMPUTE].cs_block_grid_size_dirty = true;
b8e80941Smrg
b8e80941Smrg		evergreen_emit_atomic_buffer_setup_count(rctx, current, combined_atomics, &atomic_used_mask);
b8e80941Smrg		r600_need_cs_space(rctx, 0, true, util_bitcount(atomic_used_mask));
b8e80941Smrg
b8e80941Smrg		if (need_buf_const) {
b8e80941Smrg			eg_setup_buffer_constants(rctx, PIPE_SHADER_COMPUTE);
848b8605Smrg		}
b8e80941Smrg		r600_update_driver_const_buffers(rctx, true);
b8e80941Smrg
b8e80941Smrg		evergreen_emit_atomic_buffer_setup(rctx, true, combined_atomics, atomic_used_mask);
b8e80941Smrg		if (atomic_used_mask) {
b8e80941Smrg			radeon_emit(cs, PKT3(PKT3_EVENT_WRITE, 0, 0));
b8e80941Smrg			radeon_emit(cs, EVENT_TYPE(EVENT_TYPE_CS_PARTIAL_FLUSH) | EVENT_INDEX(4));
848b8605Smrg		}
b8e80941Smrg	} else
b8e80941Smrg		r600_need_cs_space(rctx, 0, true, 0);
b8e80941Smrg
b8e80941Smrg	/* Initialize all the compute-related registers.
b8e80941Smrg	 *
b8e80941Smrg	 * See evergreen_init_atom_start_compute_cs() in this file for the list
b8e80941Smrg	 * of registers initialized by the start_compute_cs_cmd atom.
b8e80941Smrg	 */
b8e80941Smrg	r600_emit_command_buffer(cs, &rctx->start_compute_cs_cmd);
b8e80941Smrg
b8e80941Smrg	/* emit config state */
b8e80941Smrg	if (rctx->b.chip_class == EVERGREEN) {
b8e80941Smrg		if (rctx->cs_shader_state.shader->ir_type == PIPE_SHADER_IR_TGSI) {
b8e80941Smrg			radeon_set_config_reg_seq(cs, R_008C04_SQ_GPR_RESOURCE_MGMT_1, 3);
b8e80941Smrg			radeon_emit(cs, S_008C04_NUM_CLAUSE_TEMP_GPRS(rctx->r6xx_num_clause_temp_gprs));
b8e80941Smrg			radeon_emit(cs, 0);
b8e80941Smrg			radeon_emit(cs, 0);
b8e80941Smrg			radeon_set_config_reg(cs, R_008D8C_SQ_DYN_GPR_CNTL_PS_FLUSH_REQ, (1 << 8));
b8e80941Smrg		} else
b8e80941Smrg			r600_emit_atom(rctx, &rctx->config_state.atom);
848b8605Smrg	}
848b8605Smrg
b8e80941Smrg	rctx->b.flags |= R600_CONTEXT_WAIT_3D_IDLE | R600_CONTEXT_FLUSH_AND_INV;
b8e80941Smrg	r600_flush_emit(rctx);
848b8605Smrg
b8e80941Smrg	if (rctx->cs_shader_state.shader->ir_type != PIPE_SHADER_IR_TGSI) {
848b8605Smrg
b8e80941Smrg		compute_setup_cbs(rctx);
b8e80941Smrg
b8e80941Smrg		/* Emit vertex buffer state */
b8e80941Smrg		rctx->cs_vertex_buffer_state.atom.num_dw = 12 * util_bitcount(rctx->cs_vertex_buffer_state.dirty_mask);
b8e80941Smrg		r600_emit_atom(rctx, &rctx->cs_vertex_buffer_state.atom);
b8e80941Smrg	} else {
b8e80941Smrg		uint32_t rat_mask;
b8e80941Smrg
b8e80941Smrg		rat_mask = evergreen_construct_rat_mask(rctx, &rctx->cb_misc_state, 0);
b8e80941Smrg		radeon_compute_set_context_reg(cs, R_028238_CB_TARGET_MASK,
b8e80941Smrg					       rat_mask);
b8e80941Smrg	}
b8e80941Smrg
b8e80941Smrg	r600_emit_atom(rctx, &rctx->b.render_cond_atom);
848b8605Smrg
848b8605Smrg	/* Emit constant buffer state */
b8e80941Smrg	r600_emit_atom(rctx, &rctx->constbuf_state[PIPE_SHADER_COMPUTE].atom);
b8e80941Smrg
b8e80941Smrg	/* Emit sampler state */
b8e80941Smrg	r600_emit_atom(rctx, &rctx->samplers[PIPE_SHADER_COMPUTE].states.atom);
b8e80941Smrg
b8e80941Smrg	/* Emit sampler view (texture resource) state */
b8e80941Smrg	r600_emit_atom(rctx, &rctx->samplers[PIPE_SHADER_COMPUTE].views.atom);
b8e80941Smrg
b8e80941Smrg	/* Emit images state */
b8e80941Smrg	r600_emit_atom(rctx, &rctx->compute_images.atom);
b8e80941Smrg
b8e80941Smrg	/* Emit buffers state */
b8e80941Smrg	r600_emit_atom(rctx, &rctx->compute_buffers.atom);
848b8605Smrg
b8e80941Smrg	/* Emit shader state */
b8e80941Smrg	r600_emit_atom(rctx, &rctx->cs_shader_state.atom);
848b8605Smrg
848b8605Smrg	/* Emit dispatch state and dispatch packet */
b8e80941Smrg	evergreen_emit_dispatch(rctx, info, indirect_grid);
848b8605Smrg
848b8605Smrg	/* XXX evergreen_flush_emit() hardcodes the CP_COHER_SIZE to 0xffffffff
848b8605Smrg	 */
b8e80941Smrg	rctx->b.flags |= R600_CONTEXT_INV_CONST_CACHE |
848b8605Smrg		      R600_CONTEXT_INV_VERTEX_CACHE |
848b8605Smrg	              R600_CONTEXT_INV_TEX_CACHE;
b8e80941Smrg	r600_flush_emit(rctx);
b8e80941Smrg	rctx->b.flags = 0;
848b8605Smrg
b8e80941Smrg	if (rctx->b.chip_class >= CAYMAN) {
b8e80941Smrg		radeon_emit(cs, PKT3(PKT3_EVENT_WRITE, 0, 0));
b8e80941Smrg		radeon_emit(cs, EVENT_TYPE(EVENT_TYPE_CS_PARTIAL_FLUSH) | EVENT_INDEX(4));
848b8605Smrg		/* DEALLOC_STATE prevents the GPU from hanging when a
848b8605Smrg		 * SURFACE_SYNC packet is emitted some time after a DISPATCH_DIRECT
848b8605Smrg		 * with any of the CB*_DEST_BASE_ENA or DB_DEST_BASE_ENA bits set.
848b8605Smrg		 */
b8e80941Smrg		radeon_emit(cs, PKT3C(PKT3_DEALLOC_STATE, 0, 0));
b8e80941Smrg		radeon_emit(cs, 0);
848b8605Smrg	}
b8e80941Smrg	if (rctx->cs_shader_state.shader->ir_type == PIPE_SHADER_IR_TGSI)
b8e80941Smrg		evergreen_emit_atomic_buffer_save(rctx, true, combined_atomics, &atomic_used_mask);
848b8605Smrg
848b8605Smrg#if 0
b8e80941Smrg	COMPUTE_DBG(rctx->screen, "cdw: %i\n", cs->cdw);
848b8605Smrg	for (i = 0; i < cs->cdw; i++) {
b8e80941Smrg		COMPUTE_DBG(rctx->screen, "%4i : 0x%08X\n", i, cs->buf[i]);
848b8605Smrg	}
848b8605Smrg#endif
848b8605Smrg
848b8605Smrg}
848b8605Smrg
848b8605Smrg
848b8605Smrg/**
848b8605Smrg * Emit function for r600_cs_shader_state atom
848b8605Smrg */
b8e80941Smrgvoid evergreen_emit_cs_shader(struct r600_context *rctx,
b8e80941Smrg			      struct r600_atom *atom)
848b8605Smrg{
848b8605Smrg	struct r600_cs_shader_state *state =
848b8605Smrg					(struct r600_cs_shader_state*)atom;
848b8605Smrg	struct r600_pipe_compute *shader = state->shader;
b8e80941Smrg	struct radeon_cmdbuf *cs = rctx->b.gfx.cs;
b8e80941Smrg	uint64_t va;
b8e80941Smrg	struct r600_resource *code_bo;
b8e80941Smrg	unsigned ngpr, nstack;
b8e80941Smrg
b8e80941Smrg	if (shader->ir_type == PIPE_SHADER_IR_TGSI) {
b8e80941Smrg		code_bo = shader->sel->current->bo;
b8e80941Smrg		va = shader->sel->current->bo->gpu_address;
b8e80941Smrg		ngpr = shader->sel->current->shader.bc.ngpr;
b8e80941Smrg		nstack = shader->sel->current->shader.bc.nstack;
b8e80941Smrg	} else {
b8e80941Smrg		code_bo = shader->code_bo;
b8e80941Smrg		va = shader->code_bo->gpu_address + state->pc;
b8e80941Smrg		ngpr = shader->bc.ngpr;
b8e80941Smrg		nstack = shader->bc.nstack;
b8e80941Smrg	}
848b8605Smrg
b8e80941Smrg	radeon_compute_set_context_reg_seq(cs, R_0288D0_SQ_PGM_START_LS, 3);
b8e80941Smrg	radeon_emit(cs, va >> 8); /* R_0288D0_SQ_PGM_START_LS */
848b8605Smrg	radeon_emit(cs,           /* R_0288D4_SQ_PGM_RESOURCES_LS */
b8e80941Smrg			S_0288D4_NUM_GPRS(ngpr) |
b8e80941Smrg			S_0288D4_DX10_CLAMP(1) |
b8e80941Smrg			S_0288D4_STACK_SIZE(nstack));
848b8605Smrg	radeon_emit(cs, 0);	/* R_0288D8_SQ_PGM_RESOURCES_LS_2 */
848b8605Smrg
848b8605Smrg	radeon_emit(cs, PKT3C(PKT3_NOP, 0, 0));
b8e80941Smrg	radeon_emit(cs, radeon_add_to_buffer_list(&rctx->b, &rctx->b.gfx,
b8e80941Smrg					      code_bo, RADEON_USAGE_READ,
b8e80941Smrg					      RADEON_PRIO_SHADER_BINARY));
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_launch_grid(struct pipe_context *ctx,
b8e80941Smrg				  const struct pipe_grid_info *info)
848b8605Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context *)ctx;
848b8605Smrg#ifdef HAVE_OPENCL
b8e80941Smrg	struct r600_pipe_compute *shader = rctx->cs_shader_state.shader;
b8e80941Smrg	boolean use_kill;
848b8605Smrg
b8e80941Smrg	if (shader->ir_type != PIPE_SHADER_IR_TGSI) {
b8e80941Smrg		rctx->cs_shader_state.pc = info->pc;
b8e80941Smrg		/* Get the config information for this kernel. */
b8e80941Smrg		r600_shader_binary_read_config(&shader->binary, &shader->bc,
b8e80941Smrg					       info->pc, &use_kill);
b8e80941Smrg	} else {
b8e80941Smrg		use_kill = false;
b8e80941Smrg		rctx->cs_shader_state.pc = 0;
848b8605Smrg	}
848b8605Smrg#endif
b8e80941Smrg
b8e80941Smrg	COMPUTE_DBG(rctx->screen, "*** evergreen_launch_grid: pc = %u\n", info->pc);
b8e80941Smrg
b8e80941Smrg
b8e80941Smrg	evergreen_compute_upload_input(ctx, info);
b8e80941Smrg	compute_emit_cs(rctx, info);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_set_compute_resources(struct pipe_context *ctx,
b8e80941Smrg					    unsigned start, unsigned count,
b8e80941Smrg					    struct pipe_surface **surfaces)
848b8605Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context *)ctx;
848b8605Smrg	struct r600_surface **resources = (struct r600_surface **)surfaces;
848b8605Smrg
b8e80941Smrg	COMPUTE_DBG(rctx->screen, "*** evergreen_set_compute_resources: start = %u count = %u\n",
848b8605Smrg			start, count);
848b8605Smrg
848b8605Smrg	for (unsigned i = 0; i < count; i++) {
b8e80941Smrg		/* The First four vertex buffers are reserved for parameters and
848b8605Smrg		 * global buffers. */
b8e80941Smrg		unsigned vtx_id = 4 + i;
848b8605Smrg		if (resources[i]) {
848b8605Smrg			struct r600_resource_global *buffer =
848b8605Smrg				(struct r600_resource_global*)
848b8605Smrg				resources[i]->base.texture;
848b8605Smrg			if (resources[i]->base.writable) {
848b8605Smrg				assert(i+1 < 12);
848b8605Smrg
b8e80941Smrg				evergreen_set_rat(rctx->cs_shader_state.shader, i+1,
848b8605Smrg				(struct r600_resource *)resources[i]->base.texture,
848b8605Smrg				buffer->chunk->start_in_dw*4,
848b8605Smrg				resources[i]->base.texture->width0);
848b8605Smrg			}
848b8605Smrg
b8e80941Smrg			evergreen_cs_set_vertex_buffer(rctx, vtx_id,
848b8605Smrg					buffer->chunk->start_in_dw * 4,
848b8605Smrg					resources[i]->base.texture);
848b8605Smrg		}
848b8605Smrg	}
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void evergreen_set_global_binding(struct pipe_context *ctx,
b8e80941Smrg					 unsigned first, unsigned n,
b8e80941Smrg					 struct pipe_resource **resources,
b8e80941Smrg					 uint32_t **handles)
848b8605Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context *)ctx;
b8e80941Smrg	struct compute_memory_pool *pool = rctx->screen->global_pool;
848b8605Smrg	struct r600_resource_global **buffers =
848b8605Smrg		(struct r600_resource_global **)resources;
848b8605Smrg	unsigned i;
848b8605Smrg
b8e80941Smrg	COMPUTE_DBG(rctx->screen, "*** evergreen_set_global_binding first = %u n = %u\n",
848b8605Smrg			first, n);
848b8605Smrg
848b8605Smrg	if (!resources) {
848b8605Smrg		/* XXX: Unset */
848b8605Smrg		return;
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	/* We mark these items for promotion to the pool if they
848b8605Smrg	 * aren't already there */
848b8605Smrg	for (i = first; i < first + n; i++) {
848b8605Smrg		struct compute_memory_item *item = buffers[i]->chunk;
848b8605Smrg
848b8605Smrg		if (!is_item_in_pool(item))
848b8605Smrg			buffers[i]->chunk->status |= ITEM_FOR_PROMOTING;
848b8605Smrg	}
848b8605Smrg
b8e80941Smrg	if (compute_memory_finalize_pending(pool, ctx) == -1) {
848b8605Smrg		/* XXX: Unset */
848b8605Smrg		return;
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	for (i = first; i < first + n; i++)
848b8605Smrg	{
848b8605Smrg		uint32_t buffer_offset;
848b8605Smrg		uint32_t handle;
848b8605Smrg		assert(resources[i]->target == PIPE_BUFFER);
848b8605Smrg		assert(resources[i]->bind & PIPE_BIND_GLOBAL);
848b8605Smrg
848b8605Smrg		buffer_offset = util_le32_to_cpu(*(handles[i]));
848b8605Smrg		handle = buffer_offset + buffers[i]->chunk->start_in_dw * 4;
848b8605Smrg
848b8605Smrg		*(handles[i]) = util_cpu_to_le32(handle);
848b8605Smrg	}
848b8605Smrg
b8e80941Smrg	/* globals for writing */
b8e80941Smrg	evergreen_set_rat(rctx->cs_shader_state.shader, 0, pool->bo, 0, pool->size_in_dw * 4);
b8e80941Smrg	/* globals for reading */
b8e80941Smrg	evergreen_cs_set_vertex_buffer(rctx, 1, 0,
848b8605Smrg				(struct pipe_resource*)pool->bo);
b8e80941Smrg
b8e80941Smrg	/* constants for reading, LLVM puts them in text segment */
b8e80941Smrg	evergreen_cs_set_vertex_buffer(rctx, 2, 0,
b8e80941Smrg				(struct pipe_resource*)rctx->cs_shader_state.shader->code_bo);
848b8605Smrg}
848b8605Smrg
848b8605Smrg/**
848b8605Smrg * This function initializes all the compute specific registers that need to
848b8605Smrg * be initialized for each compute command stream.  Registers that are common
848b8605Smrg * to both compute and 3D will be initialized at the beginning of each compute
848b8605Smrg * command stream by the start_cs_cmd atom.  However, since the SET_CONTEXT_REG
848b8605Smrg * packet requires that the shader type bit be set, we must initialize all
848b8605Smrg * context registers needed for compute in this function.  The registers
b8e80941Smrg * initialized by the start_cs_cmd atom can be found in evergreen_state.c in the
848b8605Smrg * functions evergreen_init_atom_start_cs or cayman_init_atom_start_cs depending
848b8605Smrg * on the GPU family.
848b8605Smrg */
b8e80941Smrgvoid evergreen_init_atom_start_compute_cs(struct r600_context *rctx)
848b8605Smrg{
b8e80941Smrg	struct r600_command_buffer *cb = &rctx->start_compute_cs_cmd;
848b8605Smrg	int num_threads;
848b8605Smrg	int num_stack_entries;
848b8605Smrg
b8e80941Smrg	/* since all required registers are initialized in the
848b8605Smrg	 * start_compute_cs_cmd atom, we can EMIT_EARLY here.
848b8605Smrg	 */
848b8605Smrg	r600_init_command_buffer(cb, 256);
848b8605Smrg	cb->pkt_flags = RADEON_CP_PACKET3_COMPUTE_MODE;
848b8605Smrg
848b8605Smrg	/* We're setting config registers here. */
848b8605Smrg	r600_store_value(cb, PKT3(PKT3_EVENT_WRITE, 0, 0));
848b8605Smrg	r600_store_value(cb, EVENT_TYPE(EVENT_TYPE_CS_PARTIAL_FLUSH) | EVENT_INDEX(4));
848b8605Smrg
b8e80941Smrg	switch (rctx->b.family) {
848b8605Smrg	case CHIP_CEDAR:
848b8605Smrg	default:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 256;
848b8605Smrg		break;
848b8605Smrg	case CHIP_REDWOOD:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 256;
848b8605Smrg		break;
848b8605Smrg	case CHIP_JUNIPER:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 512;
848b8605Smrg		break;
848b8605Smrg	case CHIP_CYPRESS:
848b8605Smrg	case CHIP_HEMLOCK:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 512;
848b8605Smrg		break;
848b8605Smrg	case CHIP_PALM:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 256;
848b8605Smrg		break;
848b8605Smrg	case CHIP_SUMO:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 256;
848b8605Smrg		break;
848b8605Smrg	case CHIP_SUMO2:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 512;
848b8605Smrg		break;
848b8605Smrg	case CHIP_BARTS:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 512;
848b8605Smrg		break;
848b8605Smrg	case CHIP_TURKS:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 256;
848b8605Smrg		break;
848b8605Smrg	case CHIP_CAICOS:
848b8605Smrg		num_threads = 128;
848b8605Smrg		num_stack_entries = 256;
848b8605Smrg		break;
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	/* The primitive type always needs to be POINTLIST for compute. */
848b8605Smrg	r600_store_config_reg(cb, R_008958_VGT_PRIMITIVE_TYPE,
848b8605Smrg						V_008958_DI_PT_POINTLIST);
848b8605Smrg
b8e80941Smrg	if (rctx->b.chip_class < CAYMAN) {
848b8605Smrg
848b8605Smrg		/* These registers control which simds can be used by each stage.
848b8605Smrg		 * The default for these registers is 0xffffffff, which means
848b8605Smrg		 * all simds are available for each stage.  It's possible we may
848b8605Smrg		 * want to play around with these in the future, but for now
848b8605Smrg		 * the default value is fine.
848b8605Smrg		 *
848b8605Smrg		 * R_008E20_SQ_STATIC_THREAD_MGMT1
848b8605Smrg		 * R_008E24_SQ_STATIC_THREAD_MGMT2
848b8605Smrg		 * R_008E28_SQ_STATIC_THREAD_MGMT3
848b8605Smrg		 */
848b8605Smrg
b8e80941Smrg		/* XXX: We may need to adjust the thread and stack resource
848b8605Smrg		 * values for 3D/compute interop */
848b8605Smrg
848b8605Smrg		r600_store_config_reg_seq(cb, R_008C18_SQ_THREAD_RESOURCE_MGMT_1, 5);
848b8605Smrg
848b8605Smrg		/* R_008C18_SQ_THREAD_RESOURCE_MGMT_1
848b8605Smrg		 * Set the number of threads used by the PS/VS/GS/ES stage to
848b8605Smrg		 * 0.
848b8605Smrg		 */
848b8605Smrg		r600_store_value(cb, 0);
848b8605Smrg
848b8605Smrg		/* R_008C1C_SQ_THREAD_RESOURCE_MGMT_2
848b8605Smrg		 * Set the number of threads used by the CS (aka LS) stage to
848b8605Smrg		 * the maximum number of threads and set the number of threads
848b8605Smrg		 * for the HS stage to 0. */
848b8605Smrg		r600_store_value(cb, S_008C1C_NUM_LS_THREADS(num_threads));
848b8605Smrg
848b8605Smrg		/* R_008C20_SQ_STACK_RESOURCE_MGMT_1
848b8605Smrg		 * Set the Control Flow stack entries to 0 for PS/VS stages */
848b8605Smrg		r600_store_value(cb, 0);
848b8605Smrg
848b8605Smrg		/* R_008C24_SQ_STACK_RESOURCE_MGMT_2
848b8605Smrg		 * Set the Control Flow stack entries to 0 for GS/ES stages */
848b8605Smrg		r600_store_value(cb, 0);
848b8605Smrg
848b8605Smrg		/* R_008C28_SQ_STACK_RESOURCE_MGMT_3
848b8605Smrg		 * Set the Contol Flow stack entries to 0 for the HS stage, and
848b8605Smrg		 * set it to the maximum value for the CS (aka LS) stage. */
848b8605Smrg		r600_store_value(cb,
848b8605Smrg			S_008C28_NUM_LS_STACK_ENTRIES(num_stack_entries));
848b8605Smrg	}
848b8605Smrg	/* Give the compute shader all the available LDS space.
848b8605Smrg	 * NOTE: This only sets the maximum number of dwords that a compute
848b8605Smrg	 * shader can allocate.  When a shader is executed, we still need to
848b8605Smrg	 * allocate the appropriate amount of LDS dwords using the
848b8605Smrg	 * CM_R_0288E8_SQ_LDS_ALLOC register.
848b8605Smrg	 */
b8e80941Smrg	if (rctx->b.chip_class < CAYMAN) {
848b8605Smrg		r600_store_config_reg(cb, R_008E2C_SQ_LDS_RESOURCE_MGMT,
848b8605Smrg			S_008E2C_NUM_PS_LDS(0x0000) | S_008E2C_NUM_LS_LDS(8192));
848b8605Smrg	} else {
848b8605Smrg		r600_store_context_reg(cb, CM_R_0286FC_SPI_LDS_MGMT,
848b8605Smrg			S_0286FC_NUM_PS_LDS(0) |
848b8605Smrg			S_0286FC_NUM_LS_LDS(255)); /* 255 * 32 = 8160 dwords */
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	/* Context Registers */
848b8605Smrg
b8e80941Smrg	if (rctx->b.chip_class < CAYMAN) {
848b8605Smrg		/* workaround for hw issues with dyn gpr - must set all limits
848b8605Smrg		 * to 240 instead of 0, 0x1e == 240 / 8
848b8605Smrg		 */
848b8605Smrg		r600_store_context_reg(cb, R_028838_SQ_DYN_GPR_RESOURCE_LIMIT_1,
848b8605Smrg				S_028838_PS_GPRS(0x1e) |
848b8605Smrg				S_028838_VS_GPRS(0x1e) |
848b8605Smrg				S_028838_GS_GPRS(0x1e) |
848b8605Smrg				S_028838_ES_GPRS(0x1e) |
848b8605Smrg				S_028838_HS_GPRS(0x1e) |
848b8605Smrg				S_028838_LS_GPRS(0x1e));
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	/* XXX: Investigate setting bit 15, which is FAST_COMPUTE_MODE */
848b8605Smrg	r600_store_context_reg(cb, R_028A40_VGT_GS_MODE,
848b8605Smrg		S_028A40_COMPUTE_MODE(1) | S_028A40_PARTIAL_THD_AT_EOI(1));
848b8605Smrg
848b8605Smrg	r600_store_context_reg(cb, R_028B54_VGT_SHADER_STAGES_EN, 2/*CS_ON*/);
848b8605Smrg
848b8605Smrg	r600_store_context_reg(cb, R_0286E8_SPI_COMPUTE_INPUT_CNTL,
b8e80941Smrg			       S_0286E8_TID_IN_GROUP_ENA(1) |
b8e80941Smrg			       S_0286E8_TGID_ENA(1) |
b8e80941Smrg			       S_0286E8_DISABLE_INDEX_PACK(1));
848b8605Smrg
848b8605Smrg	/* The LOOP_CONST registers are an optimizations for loops that allows
848b8605Smrg	 * you to store the initial counter, increment value, and maximum
848b8605Smrg	 * counter value in a register so that hardware can calculate the
848b8605Smrg	 * correct number of iterations for the loop, so that you don't need
848b8605Smrg	 * to have the loop counter in your shader code.  We don't currently use
848b8605Smrg	 * this optimization, so we must keep track of the counter in the
848b8605Smrg	 * shader and use a break instruction to exit loops.  However, the
848b8605Smrg	 * hardware will still uses this register to determine when to exit a
848b8605Smrg	 * loop, so we need to initialize the counter to 0, set the increment
848b8605Smrg	 * value to 1 and the maximum counter value to the 4095 (0xfff) which
848b8605Smrg	 * is the maximum value allowed.  This gives us a maximum of 4096
848b8605Smrg	 * iterations for our loops, but hopefully our break instruction will
848b8605Smrg	 * execute before some time before the 4096th iteration.
848b8605Smrg	 */
848b8605Smrg	eg_store_loop_const(cb, R_03A200_SQ_LOOP_CONST_0 + (160 * 4), 0x1000FFF);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgvoid evergreen_init_compute_state_functions(struct r600_context *rctx)
848b8605Smrg{
b8e80941Smrg	rctx->b.b.create_compute_state = evergreen_create_compute_state;
b8e80941Smrg	rctx->b.b.delete_compute_state = evergreen_delete_compute_state;
b8e80941Smrg	rctx->b.b.bind_compute_state = evergreen_bind_compute_state;
b8e80941Smrg//	 rctx->context.create_sampler_view = evergreen_compute_create_sampler_view;
b8e80941Smrg	rctx->b.b.set_compute_resources = evergreen_set_compute_resources;
b8e80941Smrg	rctx->b.b.set_global_binding = evergreen_set_global_binding;
b8e80941Smrg	rctx->b.b.launch_grid = evergreen_launch_grid;
848b8605Smrg
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void *r600_compute_global_transfer_map(struct pipe_context *ctx,
b8e80941Smrg					      struct pipe_resource *resource,
b8e80941Smrg					      unsigned level,
b8e80941Smrg					      unsigned usage,
b8e80941Smrg					      const struct pipe_box *box,
b8e80941Smrg					      struct pipe_transfer **ptransfer)
848b8605Smrg{
b8e80941Smrg	struct r600_context *rctx = (struct r600_context*)ctx;
848b8605Smrg	struct compute_memory_pool *pool = rctx->screen->global_pool;
848b8605Smrg	struct r600_resource_global* buffer =
848b8605Smrg		(struct r600_resource_global*)resource;
848b8605Smrg
848b8605Smrg	struct compute_memory_item *item = buffer->chunk;
848b8605Smrg	struct pipe_resource *dst = NULL;
848b8605Smrg	unsigned offset = box->x;
848b8605Smrg
848b8605Smrg	if (is_item_in_pool(item)) {
b8e80941Smrg		compute_memory_demote_item(pool, item, ctx);
848b8605Smrg	}
848b8605Smrg	else {
848b8605Smrg		if (item->real_buffer == NULL) {
b8e80941Smrg			item->real_buffer =
848b8605Smrg					r600_compute_buffer_alloc_vram(pool->screen, item->size_in_dw * 4);
848b8605Smrg		}
848b8605Smrg	}
848b8605Smrg
848b8605Smrg	dst = (struct pipe_resource*)item->real_buffer;
848b8605Smrg
848b8605Smrg	if (usage & PIPE_TRANSFER_READ)
848b8605Smrg		buffer->chunk->status |= ITEM_MAPPED_FOR_READING;
848b8605Smrg
848b8605Smrg	COMPUTE_DBG(rctx->screen, "* r600_compute_global_transfer_map()\n"
848b8605Smrg			"level = %u, usage = %u, box(x = %u, y = %u, z = %u "
848b8605Smrg			"width = %u, height = %u, depth = %u)\n", level, usage,
848b8605Smrg			box->x, box->y, box->z, box->width, box->height,
848b8605Smrg			box->depth);
848b8605Smrg	COMPUTE_DBG(rctx->screen, "Buffer id = %"PRIi64" offset = "
848b8605Smrg		"%u (box.x)\n", item->id, box->x);
848b8605Smrg
848b8605Smrg
848b8605Smrg	assert(resource->target == PIPE_BUFFER);
848b8605Smrg	assert(resource->bind & PIPE_BIND_GLOBAL);
848b8605Smrg	assert(box->x >= 0);
848b8605Smrg	assert(box->y == 0);
848b8605Smrg	assert(box->z == 0);
848b8605Smrg
848b8605Smrg	///TODO: do it better, mapping is not possible if the pool is too big
b8e80941Smrg	return pipe_buffer_map_range(ctx, dst,
848b8605Smrg			offset, box->width, usage, ptransfer);
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void r600_compute_global_transfer_unmap(struct pipe_context *ctx,
b8e80941Smrg					       struct pipe_transfer *transfer)
848b8605Smrg{
848b8605Smrg	/* struct r600_resource_global are not real resources, they just map
848b8605Smrg	 * to an offset within the compute memory pool.  The function
848b8605Smrg	 * r600_compute_global_transfer_map() maps the memory pool
848b8605Smrg	 * resource rather than the struct r600_resource_global passed to
848b8605Smrg	 * it as an argument and then initalizes ptransfer->resource with
848b8605Smrg	 * the memory pool resource (via pipe_buffer_map_range).
848b8605Smrg	 * When transfer_unmap is called it uses the memory pool's
848b8605Smrg	 * vtable which calls r600_buffer_transfer_map() rather than
848b8605Smrg	 * this function.
848b8605Smrg	 */
848b8605Smrg	assert (!"This function should not be called");
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void r600_compute_global_transfer_flush_region(struct pipe_context *ctx,
b8e80941Smrg						      struct pipe_transfer *transfer,
b8e80941Smrg						      const struct pipe_box *box)
848b8605Smrg{
848b8605Smrg	assert(0 && "TODO");
848b8605Smrg}
848b8605Smrg
b8e80941Smrgstatic void r600_compute_global_buffer_destroy(struct pipe_screen *screen,
b8e80941Smrg					       struct pipe_resource *res)
848b8605Smrg{
b8e80941Smrg	struct r600_resource_global* buffer = NULL;
b8e80941Smrg	struct r600_screen* rscreen = NULL;
b8e80941Smrg
b8e80941Smrg	assert(res->target == PIPE_BUFFER);
b8e80941Smrg	assert(res->bind & PIPE_BIND_GLOBAL);
b8e80941Smrg
b8e80941Smrg	buffer = (struct r600_resource_global*)res;
b8e80941Smrg	rscreen = (struct r600_screen*)screen;
b8e80941Smrg
b8e80941Smrg	compute_memory_free(rscreen->global_pool, buffer->chunk->id);
b8e80941Smrg
b8e80941Smrg	buffer->chunk = NULL;
b8e80941Smrg	free(res);
b8e80941Smrg}
b8e80941Smrg
b8e80941Smrgstatic const struct u_resource_vtbl r600_global_buffer_vtbl =
b8e80941Smrg{
b8e80941Smrg	u_default_resource_get_handle, /* get_handle */
b8e80941Smrg	r600_compute_global_buffer_destroy, /* resource_destroy */
b8e80941Smrg	r600_compute_global_transfer_map, /* transfer_map */
b8e80941Smrg	r600_compute_global_transfer_flush_region,/* transfer_flush_region */
b8e80941Smrg	r600_compute_global_transfer_unmap, /* transfer_unmap */
b8e80941Smrg};
b8e80941Smrg
b8e80941Smrgstruct pipe_resource *r600_compute_global_buffer_create(struct pipe_screen *screen,
b8e80941Smrg							const struct pipe_resource *templ)
b8e80941Smrg{
b8e80941Smrg	struct r600_resource_global* result = NULL;
b8e80941Smrg	struct r600_screen* rscreen = NULL;
b8e80941Smrg	int size_in_dw = 0;
b8e80941Smrg
b8e80941Smrg	assert(templ->target == PIPE_BUFFER);
b8e80941Smrg	assert(templ->bind & PIPE_BIND_GLOBAL);
b8e80941Smrg	assert(templ->array_size == 1 || templ->array_size == 0);
b8e80941Smrg	assert(templ->depth0 == 1 || templ->depth0 == 0);
b8e80941Smrg	assert(templ->height0 == 1 || templ->height0 == 0);
b8e80941Smrg
b8e80941Smrg	result = (struct r600_resource_global*)
b8e80941Smrg	CALLOC(sizeof(struct r600_resource_global), 1);
b8e80941Smrg	rscreen = (struct r600_screen*)screen;
b8e80941Smrg
b8e80941Smrg	COMPUTE_DBG(rscreen, "*** r600_compute_global_buffer_create\n");
b8e80941Smrg	COMPUTE_DBG(rscreen, "width = %u array_size = %u\n", templ->width0,
b8e80941Smrg			templ->array_size);
b8e80941Smrg
b8e80941Smrg	result->base.b.vtbl = &r600_global_buffer_vtbl;
b8e80941Smrg	result->base.b.b = *templ;
b8e80941Smrg	result->base.b.b.screen = screen;
b8e80941Smrg	pipe_reference_init(&result->base.b.b.reference, 1);
b8e80941Smrg
b8e80941Smrg	size_in_dw = (templ->width0+3) / 4;
b8e80941Smrg
b8e80941Smrg	result->chunk = compute_memory_alloc(rscreen->global_pool, size_in_dw);
b8e80941Smrg
b8e80941Smrg	if (result->chunk == NULL)
b8e80941Smrg	{
b8e80941Smrg		free(result);
b8e80941Smrg		return NULL;
b8e80941Smrg	}
b8e80941Smrg
b8e80941Smrg	return &result->base.b.b;
848b8605Smrg}