CUDA學習（十三）

隱式同步：

如果主機執行緒在它們之間發出以下任一操作，則來自不同流的兩個命令不能同時執行：

對於支援併發核心執行且計算能力為3.0或更低的裝置，任何需要依賴性檢查以檢視流式核心啟動是否完成的操作：

重疊行為：

兩個流之間的執行重疊量取決於向每個流發出命令的順序，以及裝置是否支援資料傳輸和核心執行，並行核心執行或併發資料傳輸

例如，在不支援併發資料傳輸的裝置上，建立和銷毀**示例的兩個流根本不重疊，因為從裝置的儲存器複製之後從主機到裝置的儲存器複製被發布到流[1] 到主機被傳送到流[0]，所以一旦從裝置到主機的儲存器拷貝發出到流[0]，它就只能啟動完成。如果**按以下方式重寫（並且假設裝置支援資料傳輸和核心執行的重疊）

for (int i = 0; i < 2; ++i)
cudamemcpyasync(inputdevptr + i * size, hostptr + i * size,
size, cudamemcpyhosttodevice, stream[i]);
for (int i = 0; i < 2; ++i)
mykernel << <100, 512, 0, stream[i] >> >
(outputdevptr + i * size, inputdevptr + i * size, size);
for (int i = 0; i < 2; ++i)
cudamemcpyasync(hostptr + i * size, outputdevptr + i * size,
size, cudamemcpydevicetohost, stream[i]);

在支援併發資料傳輸的裝置上，兩個建立和銷毀**示例流重疊：傳送到流[1]的從主機到裝置的儲存器複製與從裝置到主機的儲存器複製重疊，傳送到流[0 ]，甚至在核心啟動時傳送到流[0]（假設裝置支援資料傳輸和核心執行的重疊）。然而，對於計算能力為3.0或更低的裝置，核心執行不可能重疊，因為在從裝置到主機的記憶體複製傳送到流[0]之後，第二次核心啟動傳送到流[1]，所以直到傳送到流[0]的第一次核心啟動按照隱式同步完成。如果**如上所述重寫，則核心執行重疊（假定裝置支援併發核心執行），因為在從裝置到主機的記憶體複製傳送到流[0]之前，第二次核心啟動發布到流[1]。然而，在這種情況下，傳送到流[0]的從裝置到主機的儲存器副本僅與根據隱式同步發布到流[1]的核心啟動的最後執行緒塊重疊，其可以僅表示總數的一小部分核心的執行時間。

CUDA學習（十三）

CUDA學習（九十三）

CUDA學習（三十三）

CUDA實踐指南（十三）

CUDA學習（十三）

CUDA學習（九十三）

CUDA學習（三十三）

CUDA實踐指南（十三）

相關推薦