Optimizing Parallel Reduction in CUDA - Nvidia preview / optimizing-parallel-reduction-in-cuda-nvidia.pdf / PDF4PRO