iframe-proxy | Sunbelt Computer Software

164 lines (153 loc) · 18.9 KB
<!DOCTYPE html>
<html lang="en">
  <meta charset="UTF-8" />
  <title>CUDA Standard Algorithms &raquo; Parallel Sort | Taskflow QuickStart</title>
  <link rel="stylesheet" href="https://fonts.googleapis.com/css?family=Source+Sans+Pro:400,400i,600,600i%7CSource+Code+Pro:400,400i,600" />
  <link rel="stylesheet" href="m-dark+documentation.compiled.css" />
  <link rel="icon" href="favicon.ico" type="image/vnd.microsoft.icon" />
  <meta name="viewport" content="width=device-width, initial-scale=1.0" />
  <meta name="theme-color" content="#22272e" />
<header><nav id="navigation">
  <div class="m-container">
    <div class="m-row">
      <span id="m-navbar-brand" class="m-col-t-8 m-col-m-none m-left-m">
        <a href="https://taskflow.github.io"><img src="taskflow_logo.png" alt="" />Taskflow</a> <span class="m-breadcrumb">|</span> <a href="index.html" class="m-thin">QuickStart</a>
      </span>
      <div class="m-col-t-4 m-hide-m m-text-right m-nopadr">
        <a href="#search" class="m-doc-search-icon" title="Search" onclick="return showSearch()"><svg style="height: 0.9rem;" viewBox="0 0 16 16">
          <path id="m-doc-search-icon-path" d="m6 0c-3.31 0-6 2.69-6 6 0 3.31 2.69 6 6 6 1.49 0 2.85-0.541 3.89-1.44-0.0164 0.338 0.147 0.759 0.5 1.15l3.22 3.79c0.552 0.614 1.45 0.665 2 0.115 0.55-0.55 0.499-1.45-0.115-2l-3.79-3.22c-0.392-0.353-0.812-0.515-1.15-0.5 0.895-1.05 1.44-2.41 1.44-3.89 0-3.31-2.69-6-6-6zm0 1.56a4.44 4.44 0 0 1 4.44 4.44 4.44 4.44 0 0 1-4.44 4.44 4.44 4.44 0 0 1-4.44-4.44 4.44 4.44 0 0 1 4.44-4.44z"/>
        </svg></a>
        <a id="m-navbar-show" href="#navigation" title="Show navigation"></a>
        <a id="m-navbar-hide" href="#" title="Hide navigation"></a>
      </div>
      <div id="m-navbar-collapse" class="m-col-t-12 m-show-m m-col-m-none m-right-m">
        <div class="m-row">
          <ol class="m-col-t-6 m-col-m-none">
            <li><a href="pages.html">Handbook</a></li>
            <li><a href="namespaces.html">Namespaces</a></li>
          </ol>
          <ol class="m-col-t-6 m-col-m-none" start="3">
            <li><a href="annotated.html">Classes</a></li>
            <li><a href="files.html">Files</a></li>
            <li class="m-show-m"><a href="#search" class="m-doc-search-icon" title="Search" onclick="return showSearch()"><svg style="height: 0.9rem;" viewBox="0 0 16 16">
              <use href="#m-doc-search-icon-path" />
            </svg></a></li>
          </ol>
        </div>
      </div>
</nav></header>
<main><article>
  <div class="m-container m-container-inflatable">
    <div class="m-row">
      <div class="m-col-l-10 m-push-l-1">
        <h1>
          <span class="m-breadcrumb"><a href="cudaStandardAlgorithms.html">CUDA Standard Algorithms</a> &raquo;</span>
          Parallel Sort
        </h1>
        <div class="m-block m-default">
          <h3>Contents</h3>
          <ul>
            <li><a href="#CUDASTDParallelSortIncludeTheHeader">Include the Header</a></li>
            <li><a href="#CUDASTDSortItems">Sort a Range of Items</a></li>
            <li><a href="#CUDASTDSortKeyValueItems">Sort a Range of Key-Value Items</a></li>
          </ul>
        </div>
<p>Taskflow provides standalone template methods for sorting ranges of items on a CUDA GPU.</p><section id="CUDASTDParallelSortIncludeTheHeader"><h2><a href="#CUDASTDParallelSortIncludeTheHeader">Include the Header</a></h2><p>You need to include the header file, <code>taskflow/cuda/algorithm/sort.hpp</code>, for using the parallel-sort algorithm.</p></section><section id="CUDASTDSortItems"><h2><a href="#CUDASTDSortItems">Sort a Range of Items</a></h2><p><a href="namespacetf.html#a06804cb1598e965febc7bd35fc0fbbb0" class="m-doc">tf::<wbr />cuda_sort</a> performs an in-place parallel sort over a range of elements specified by <code>[first, last)</code> using the given comparator. The following code sorts one million random integers in an increasing order on a GPU.</p><pre class="m-code"><span class="k">const</span> <span class="kt">size_t</span> <span class="n">N</span> <span class="o">=</span> <span class="mi">1000000</span><span class="p">;</span>
<span class="kt">int</span><span class="o">*</span> <span class="n">vec</span> <span class="o">=</span> <span class="n">tf</span><span class="o">::</span><span class="n">cuda_malloc_shared</span><span class="o">&lt;</span><span class="kt">int</span><span class="o">&gt;</span><span class="p">(</span><span class="n">N</span><span class="p">);</span>  <span class="c1">// vector</span>
<span class="c1">// initializes the data</span>
<span class="k">for</span><span class="p">(</span><span class="kt">size_t</span> <span class="n">i</span><span class="o">=</span><span class="mi">0</span><span class="p">;</span> <span class="n">i</span><span class="o">&lt;</span><span class="n">N</span><span class="p">;</span> <span class="n">i</span><span class="o">++</span><span class="p">)</span> <span class="p">{</span>
  <span class="n">vec</span><span class="p">[</span><span class="n">i</span><span class="p">]</span> <span class="o">=</span> <span class="n">rand</span><span class="p">();</span>
<span class="p">}</span> 
<span class="c1">// queries the required buffer size to sort a vector</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cudaDefaultExecutionPolicy</span> <span class="n">policy</span><span class="p">;</span>
<span class="k">auto</span> <span class="n">bytes</span>  <span class="o">=</span> <span class="n">tf</span><span class="o">::</span><span class="n">cuda_sort_buffer_size</span><span class="o">&lt;</span><span class="n">tf</span><span class="o">::</span><span class="n">cudaDefaultExecutionPolicy</span><span class="p">,</span> <span class="kt">int</span><span class="o">&gt;</span><span class="p">(</span><span class="n">N</span><span class="p">);</span>
<span class="k">auto</span> <span class="n">buffer</span> <span class="o">=</span> <span class="n">tf</span><span class="o">::</span><span class="n">cuda_malloc_device</span><span class="o">&lt;</span><span class="n">std</span><span class="o">::</span><span class="n">byte</span><span class="o">&gt;</span><span class="p">(</span><span class="n">bytes</span><span class="p">);</span>
<span class="c1">// sorts the vector</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cuda_sort</span><span class="p">(</span>
  <span class="n">policy</span><span class="p">,</span> <span class="n">vec</span><span class="p">,</span> <span class="n">vec</span><span class="o">+</span><span class="n">N</span><span class="p">,</span> <span class="p">[]</span> <span class="n">__device__</span> <span class="p">(</span><span class="kt">int</span> <span class="n">a</span><span class="p">,</span> <span class="kt">int</span> <span class="n">b</span><span class="p">)</span> <span class="p">{</span> <span class="k">return</span> <span class="n">a</span> <span class="o">&lt;</span> <span class="n">b</span><span class="p">;</span> <span class="p">},</span> <span class="n">buffer</span>
<span class="p">);</span>
<span class="c1">// synchronizes the execution and verifies the result</span>
<span class="n">policy</span><span class="p">.</span><span class="n">synchronize</span><span class="p">();</span>
<span class="n">assert</span><span class="p">(</span><span class="n">std</span><span class="o">::</span><span class="n">is_sorted</span><span class="p">(</span><span class="n">vec</span><span class="p">,</span> <span class="n">vec</span><span class="o">+</span><span class="n">N</span><span class="p">));</span>
<span class="c1">// deletes the memory</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cuda_free</span><span class="p">(</span><span class="n">buffer</span><span class="p">);</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cuda_free</span><span class="p">(</span><span class="n">vec</span><span class="p">);</span></pre><p>The sort algorithm runs <em>asynchronously</em> through the stream specified in the execution policy. You need to synchronize the stream to obtain correct results. Since the GPU sort algorithm may require extra buffer to store the temporary results, you need provide a buffer of size at least bytes returned from <a href="namespacetf.html#a9c69906a4dfd1e2d0cd7ed496d29dafd" class="m-doc">tf::<wbr />cuda_sort_buffer_size</a>.</p><aside class="m-note m-warning"><h4>Attention</h4><p>You must keep the buffer alive before the merge call completes.</p></aside></section><section id="CUDASTDSortKeyValueItems"><h2><a href="#CUDASTDSortKeyValueItems">Sort a Range of Key-Value Items</a></h2><p><a href="namespacetf.html#a3461b9179221dd7230ce2a0e45156c7f" class="m-doc">tf::<wbr />cuda_sort_by_key</a> sorts a range of key-value items into ascending key order. If <code>i</code> and <code>j</code> are any two valid iterators in <code>[k_first, k_last)</code> such that <code>i</code> precedes <code>j</code>, and <code>p</code> and <code>q</code> are iterators in <code>[v_first, v_first + (k_last - k_first))</code> corresponding to <code>i</code> and <code>j</code> respectively, then <code>comp(*i, *j)</code> is <code>true</code>. The following example sorts a range of items into ascending key order and swaps their corresponding values:</p><pre class="m-code"><span class="k">const</span> <span class="kt">size_t</span> <span class="n">N</span> <span class="o">=</span> <span class="mi">4</span><span class="p">;</span>
<span class="k">auto</span> <span class="n">vec</span> <span class="o">=</span> <span class="n">tf</span><span class="o">::</span><span class="n">cuda_malloc_shared</span><span class="o">&lt;</span><span class="kt">int</span><span class="o">&gt;</span><span class="p">(</span><span class="n">N</span><span class="p">);</span>  <span class="c1">// keys</span>
<span class="k">auto</span> <span class="n">idx</span> <span class="o">=</span> <span class="n">tf</span><span class="o">::</span><span class="n">cuda_malloc_shared</span><span class="o">&lt;</span><span class="kt">int</span><span class="o">&gt;</span><span class="p">(</span><span class="n">N</span><span class="p">);</span>  <span class="c1">// values</span>
<span class="c1">// initializes the data</span>
<span class="n">vec</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">vec</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">=</span> <span class="mi">4</span><span class="p">,</span> <span class="n">vec</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="o">=</span> <span class="mi">-5</span><span class="p">,</span> <span class="n">vec</span><span class="p">[</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="mi">2</span><span class="p">;</span>
<span class="n">idx</span><span class="p">[</span><span class="mi">0</span><span class="p">]</span> <span class="o">=</span> <span class="mi">0</span><span class="p">,</span> <span class="n">idx</span><span class="p">[</span><span class="mi">1</span><span class="p">]</span> <span class="o">=</span> <span class="mi">1</span><span class="p">,</span> <span class="n">idx</span><span class="p">[</span><span class="mi">2</span><span class="p">]</span> <span class="o">=</span> <span class="mi">2</span><span class="p">,</span>  <span class="n">idx</span><span class="p">[</span><span class="mi">3</span><span class="p">]</span> <span class="o">=</span> <span class="mi">3</span><span class="p">;</span>
<span class="c1">// queries the required buffer size to sort a key-value range</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cudaDefaultExecutionPolicy</span> <span class="n">policy</span><span class="p">;</span>
<span class="k">auto</span> <span class="n">bytes</span>  <span class="o">=</span> <span class="n">tf</span><span class="o">::</span><span class="n">cuda_sort_buffer_size</span><span class="o">&lt;</span><span class="k">decltype</span><span class="p">(</span><span class="n">policy</span><span class="p">),</span> <span class="kt">int</span><span class="p">,</span> <span class="kt">int</span><span class="o">&gt;</span><span class="p">(</span><span class="n">N</span><span class="p">);</span>
<span class="k">auto</span> <span class="n">buffer</span> <span class="o">=</span> <span class="n">tf</span><span class="o">::</span><span class="n">cuda_malloc_device</span><span class="o">&lt;</span><span class="n">std</span><span class="o">::</span><span class="n">byte</span><span class="o">&gt;</span><span class="p">(</span><span class="n">bytes</span><span class="p">);</span>
<span class="c1">// sorts keys (vec) and swaps their corresponding values (idx)</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cuda_sort_by_key</span><span class="p">(</span>
  <span class="n">policy</span><span class="p">,</span> <span class="n">vec</span><span class="p">,</span> <span class="n">vec</span><span class="o">+</span><span class="n">N</span><span class="p">,</span> <span class="n">idx</span><span class="p">,</span> <span class="p">[]</span> <span class="n">__device__</span> <span class="p">(</span><span class="kt">int</span> <span class="n">a</span><span class="p">,</span> <span class="kt">int</span> <span class="n">b</span><span class="p">)</span> <span class="p">{</span> <span class="k">return</span> <span class="n">a</span><span class="o">&lt;</span><span class="n">b</span><span class="p">;</span> <span class="p">},</span> <span class="n">buffer</span>
<span class="p">);</span>
<span class="c1">// synchronizes the execution and verifies the result</span>
<span class="n">policy</span><span class="p">.</span><span class="n">synchronize</span><span class="p">();</span>
<span class="c1">// now vec = {-5, 1, 2, 4}</span>
<span class="c1">// now idx = { 2, 0, 3, 1}</span>
<span class="c1">// deletes the memory</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cuda_free</span><span class="p">(</span><span class="n">buffer</span><span class="p">);</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cuda_free</span><span class="p">(</span><span class="n">vec</span><span class="p">);</span>
<span class="n">tf</span><span class="o">::</span><span class="n">cuda_free</span><span class="p">(</span><span class="n">idx</span><span class="p">);</span></pre><p>The buffer size required by <a href="namespacetf.html#a3461b9179221dd7230ce2a0e45156c7f" class="m-doc">tf::<wbr />cuda_sort_by_key</a> is the same as <a href="namespacetf.html#a06804cb1598e965febc7bd35fc0fbbb0" class="m-doc">tf::<wbr />cuda_sort</a> and must be at least equal to or larger than the value returned by <a href="namespacetf.html#a9c69906a4dfd1e2d0cd7ed496d29dafd" class="m-doc">tf::<wbr />cuda_sort_buffer_size</a>. While you can capture the values into the lambda and sort them indirectly using plain <a href="namespacetf.html#a06804cb1598e965febc7bd35fc0fbbb0" class="m-doc">tf::<wbr />cuda_sort</a>, this organization will result in frequent and costly access to the global memory. For example, we can sort <code>idx</code> indirectly using the captured keys in <code>vec:</code></p><pre class="m-code"><span class="n">tf</span><span class="o">::</span><span class="n">cuda_sort</span><span class="p">(</span><span class="n">policy</span><span class="p">,</span> 
  <span class="n">idx</span><span class="p">,</span> <span class="n">idx</span><span class="o">+</span><span class="n">N</span><span class="p">,</span> <span class="p">[</span><span class="n">vec</span><span class="p">]</span> <span class="n">__device__</span> <span class="p">(</span><span class="kt">int</span> <span class="n">a</span><span class="p">,</span> <span class="kt">int</span> <span class="n">b</span><span class="p">)</span> <span class="p">{</span> <span class="k">return</span> <span class="n">vec</span><span class="p">[</span><span class="n">a</span><span class="p">]</span> <span class="o">&lt;</span> <span class="n">vec</span><span class="p">[</span><span class="n">b</span><span class="p">];</span> <span class="p">},</span> <span class="n">buffer</span>
<span class="p">);</span></pre><p>The comparator here will frequently access the global memory of <code>vec</code>, resulting in high memory latency. Instead, you should use <a href="namespacetf.html#a3461b9179221dd7230ce2a0e45156c7f" class="m-doc">tf::<wbr />cuda_sort_by_key</a> that has been optimized for this purpose.</p></section>
      </div>
</article></main>
<div class="m-doc-search" id="search">
  <a href="#!" onclick="return hideSearch()"></a>
  <div class="m-container">
    <div class="m-row">
      <div class="m-col-m-8 m-push-m-2">
        <div class="m-doc-search-header m-text m-small">
          <div><span class="m-label m-default">Tab</span> / <span class="m-label m-default">T</span> to search, <span class="m-label m-default">Esc</span> to close</div>
          <div id="search-symbolcount">&hellip;</div>
        </div>
        <div class="m-doc-search-content">
          <form>
            <input type="search" name="q" id="search-input" placeholder="Loading &hellip;" disabled="disabled" autofocus="autofocus" autocomplete="off" spellcheck="false" />
          </form>
          <noscript class="m-text m-danger m-text-center">Unlike everything else in the docs, the search functionality <em>requires</em> JavaScript.</noscript>
          <div id="search-help" class="m-text m-dim m-text-center">
            <p class="m-noindent">Search for symbols, directories, files, pages or
            modules. You can omit any prefix from the symbol or file path; adding a
            <code>:</code> or <code>/</code> suffix lists all members of given symbol or
            directory.</p>
            <p class="m-noindent">Use <span class="m-label m-dim">&darr;</span>
            / <span class="m-label m-dim">&uarr;</span> to navigate through the list,
            <span class="m-label m-dim">Enter</span> to go.
            <span class="m-label m-dim">Tab</span> autocompletes common prefix, you can
            copy a link to the result using <span class="m-label m-dim">⌘</span>
            <span class="m-label m-dim">L</span> while <span class="m-label m-dim">⌘</span>
            <span class="m-label m-dim">M</span> produces a Markdown link.</p>
          </div>
          <div id="search-notfound" class="m-text m-warning m-text-center">Sorry, nothing was found.</div>
          <ul id="search-results"></ul>
        </div>
      </div>
<script src="search-v1.js"></script>
<script src="searchdata-v1.js" async="async"></script>
<footer><nav>
  <div class="m-container">
    <div class="m-row">
      <div class="m-col-l-10 m-push-l-1">
        <p>Taskflow handbook is part of the <a href="https://taskflow.github.io">Taskflow project</a>, copyright © <a href="https://tsung-wei-huang.github.io/">Dr. Tsung-Wei Huang</a>, 2018&ndash;2022.<br />Generated by <a href="https://doxygen.org/">Doxygen</a> 1.8.14 and <a href="https://mcss.mosra.cz/">m.css</a>.</p>
      </div>
</nav></footer>
Sunbelt Computer Software

PL/B Language Development and Support

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Sunbelt Computer Software

PL/B Language Development and Support

FilesExpand file tree

CUDASTDSort.html

Latest commit

History

CUDASTDSort.html

File metadata and controls