TensorFlow 指南：GPU 的使用

Leo_chen 發布于2019-04-25 18:31 / 3632人閱讀

摘要：大家好，今天我們來給講講關于在中的使用規則。在某些情況下，最理想的是進程只分配可用內存的一個子集，或者僅根據進程需要增加內存使用量。

大家好，今天我們來給講講關于 TensorFlow 在 GPU 中的使用規則。

支持的設備

在一套標準系統中通常有多臺計算設備。TensorFlow 支持 CPU 和 GPU 這兩種設備。它們均用 strings 表示。例如：

"/cpu:0"：機器的 CPU

"/device:GPU:0"：機器的 GPU（如果有一個）

"/device:GPU:1"：機器的第二個 GPU（以此類推）

如果 TensorFlow 指令中兼有 CPU 和 GPU 實現，當該指令分配到設備時，GPU 設備有優先權。例如，如果 matmul 同時存在 CPU 和 GPU 核函數，在同時有 cpu:0 和 gpu:0 設備的系統中，gpu:0 會被選來運行 matmul。

記錄設備分配方式

要找出您的指令和張量被分配到哪個設備，請創建會話并將 log_device_placement 配置選項設為 True。

# Creates a graph.

a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name="a")

b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name="b")

c = tf.matmul(a, b)

# Creates a session with log_device_placement set to True.

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

# Runs the op.

print(sess.run(c))

您應該會看到以下輸出內容：

Device mapping:

/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: Tesla K40c, pci bus

id: 0000:05:00.0

b: /job:localhost/replica:0/task:0/device:GPU:0

a: /job:localhost/replica:0/task:0/device:GPU:0

MatMul: /job:localhost/replica:0/task:0/device:GPU:0

[[ 22. ?28.]

?[ 49. ?64.]]

手動分配設備

如果您希望特定指令在您選擇的設備（而非系統自動為您選擇的設備）上運行，您可以使用 with tf.device 創建設備上下文，這個上下文中的所有指令都將被分配在同一個設備上運行。

# Creates a graph.

with tf.device("/cpu:0"):

? a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name="a")

? b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name="b")

c = tf.matmul(a, b)

# Creates a session with log_device_placement set to True.

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

# Runs the op.

print(sess.run(c))

您會看到現在 a 和 b 被分配到 cpu:0。由于未明確指定運行 MatMul 指令的設備，因此 TensorFlow 運行時將根據指令和可用設備（此示例中的 gpu:0）選擇一個設備，并會根據要求自動復制設備間的張量。

Device mapping:

/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: Tesla K40c, pci bus

id: 0000:05:00.0

b: /job:localhost/replica:0/task:0/cpu:0

a: /job:localhost/replica:0/task:0/cpu:0

MatMul: /job:localhost/replica:0/task:0/device:GPU:0

[[ 22. ?28.]

?[ 49. ?64.]]

允許增加 GPU 內存

默認情況下，TensorFlow 會映射進程可見的所有 GPU 的幾乎所有 GPU 內存（取決于 CUDA_VISIBLE_DEVICES）。通過減少內存碎片，可以更有效地使用設備上相對寶貴的 GPU 內存資源。

在某些情況下，最理想的是進程只分配可用內存的一個子集，或者僅根據進程需要增加內存使用量。TensorFlow 在 Session 上提供兩個 Config 選項來進行控制。

第一個是 allow_growth 選項，它試圖根據運行時的需要來分配 GPU 內存：它剛開始分配很少的內存，隨著 Session 開始運行并需要更多 GPU 內存，我們會擴展 TensorFlow 進程所需的 GPU 內存區域。請注意，我們不會釋放內存，因為這可能導致出現更嚴重的內存碎片情況。要開啟此選項，請通過以下方式在 ConfigProto 中設置選項：

config = tf.ConfigProto()

config.gpu_options.allow_growth = True

session = tf.Session(config=config, ...)

如要真正限制 TensorFlow 進程可使用的 GPU 內存量，這非常實用。

在多 GPU 系統中使用單一 GPU

如果您的系統中有多個 GPU，則默認情況下將選擇 ID 最小的 GPU。如果您希望在其他 GPU 上運行，則需要顯式指定偏好設置：

# Creates a graph.

with tf.device("/device:GPU:2"):

? a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name="a")

? b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name="b")

? c = tf.matmul(a, b)

# Creates a session with log_device_placement set to True.

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

# Runs the op.

print(sess.run(c))

如果您指定的設備不存在，您會看到 InvalidArgumentError：

InvalidArgumentError: Invalid argument: Cannot assign a device to node "b":

Could not satisfy explicit device specification "/device:GPU:2"

? ?[[Node: b = Const[dtype=DT_FLOAT, value=Tensor

? ?values: 1 2 3...>, _device="/device:GPU:2"]()]]

當指定設備不存在時，如果您希望 TensorFlow 自動選擇現有的受支持設備來運行指令，則可以在創建會話時將配置選項中的 allow_soft_placement 設為 True。

# Creates a graph.

with tf.device("/device:GPU:2"):

? a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3], name="a")

? b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2], name="b")

? c = tf.matmul(a, b)

# Creates a session with allow_soft_placement and log_device_placement set

# to True.

sess = tf.Session(config=tf.ConfigProto(

? ? ? allow_soft_placement=True, log_device_placement=True))

# Runs the op.

print(sess.run(c))

使用多個 GPU

如果您想要在多個 GPU 上運行 TensorFlow，則可以采用多塔式方式構建模型，其中每個塔都會分配給不同 GPU。例如：

# Creates a graph.

c = []

for d in ["/device:GPU:2", "/device:GPU:3"]:

? with tf.device(d):

? ? a = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[2, 3])

? ? b = tf.constant([1.0, 2.0, 3.0, 4.0, 5.0, 6.0], shape=[3, 2])

? ? c.append(tf.matmul(a, b))

with tf.device("/cpu:0"):

? sum = tf.add_n(c)

# Creates a session with log_device_placement set to True.

sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))

# Runs the op.

print(sess.run(sum))

您會看到以下輸出內容：

Device mapping:

/job:localhost/replica:0/task:0/device:GPU:0 -> device: 0, name: Tesla K20m, pci bus

id: 0000:02:00.0

/job:localhost/replica:0/task:0/device:GPU:1 -> device: 1, name: Tesla K20m, pci bus

id: 0000:03:00.0

/job:localhost/replica:0/task:0/device:GPU:2 -> device: 2, name: Tesla K20m, pci bus

id: 0000:83:00.0

/job:localhost/replica:0/task:0/device:GPU:3 -> device: 3, name: Tesla K20m, pci bus

id: 0000:84:00.0

Const_3: /job:localhost/replica:0/task:0/device:GPU:3

Const_2: /job:localhost/replica:0/task:0/device:GPU:3

MatMul_1: /job:localhost/replica:0/task:0/device:GPU:3

Const_1: /job:localhost/replica:0/task:0/device:GPU:2

Const: /job:localhost/replica:0/task:0/device:GPU:2

MatMul: /job:localhost/replica:0/task:0/device:GPU:2

AddN: /job:localhost/replica:0/task:0/cpu:0

[[ ?44. ? 56.]

?[ ?98. ?128.]]

cifar10 教程就是個很好的例子（https://tensorflow.google.cn/tutorials/images/deep_cnn?hl=zh-CN），演示了如何使用多個 GPU 進行訓練。

聲明：文章收集于網絡，如有侵權，請聯系小編及時處理，謝謝！

歡迎加入本站公開興趣群

商業智能與數據分析群

興趣范圍包括各種讓數據產生價值的辦法，實際應用案例分享與討論，分析工具，ETL工具，數據倉庫，數據挖掘工具，報表系統等全方位知識

QQ群：81035754

GPU云服務器云服務器 tensorflow指南使用指南接口使用指南 webRTC使用指南

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/4839.html

【GPU云主機 UHost】產品簡介、產品優勢、機型與性能和深度學習指南

摘要：云主機產品簡介增強型云主機是基于成熟的云計算技術，專享高性能硬件的云主機服務。目前提供采用采用和采用機型。支持多種操作系統增強型云主機支持多種操作系統，如等，以適應不同行業的專業軟件及建模需求。機型與性能型可選顆。GPU云主機UHost產品簡介GPU增強型云主機是基于UCloud成熟的云計算技術，專享高性能GPU硬件的云主機服務。大幅提升圖形圖像處理和高性能計算能力，并具備彈性、低成本、易于...

Tecode 2022-06-28 18:59 評論0 收藏0
喜大普奔！TensorFlow終于支持A卡了

摘要：工資不漲，英偉達的售價年年漲。近日，宣布推出適用于的，其中包括。對于正在進行的深度學習加速工作而言，這是一座重大的里程碑。而實現則使用了，這是一個適用于深度學習的高度優化例程庫。目前已發布安裝說明及預構建的映像。工資不漲，英偉達 GPU 的售價年年漲。因此，多一個競爭對手，總是好事。近日，Google 宣布推出適用于 ROCm GPU 的 TensorFlow v1.8，其中包括 Rade...

Cristalven 2019-04-25 18:28 評論0 收藏0
概覽 AI在線服務 UAI Inference

摘要：概覽概覽產品簡介基礎知識產品優勢機制產品架構設計原理彈性擴縮容機制開發綜述服務請求方式開源鏡像開源案例學習視頻產品定價快速上手快速上手案例介紹環境準備在線服務代碼簡介概覽產品簡介UAI-Inference基礎知識產品優勢Hot-Standby機制產品架構設計原理彈性擴縮容機制開發綜述服務請求方式開源Docker鏡像開源案例學習視頻產品定價快速上手快速上手（TF-Mnist案例)MNIST ...

ernest.wang 2022-07-12 16:25 評論0 收藏1403
PyTorch和TensorFlow到底哪個更好？看看一線開發者怎么說

摘要：我認為對機器學習開發者來說，是一個了不起的工具集。這個帖子發出后得到了很多機器學習研究者和開發者的關注，他們紛紛跟貼談論自己的想法和經驗不只是關于和，討論中還涉及到更多工具。 Theano、TensorFlow、Torch、MXNet 再到近日比較熱門的 PyTorch 等等，深度學習框架之間的比較一直以來都是非常受人關注的熱點話題。機器之心也曾發表過多篇相關的介紹和對比文章，如《主流深度學...

coordinate35 2019-04-25 18:09 評論0 收藏0
Google Coral Edge TPU USB加速棒上手體驗

摘要：谷歌在年國際消費電子展以及今年的開發峰會上首次展示了他們的，然后于三月份發布了。樹莓派上性能的局限性不幸的是，業余愛好者最喜歡樹莓派無法充分發揮加速器的功能和速度。使用端口，目前的樹莓派設備沒有或，而只能使用速度較慢的。 Edge AI是什么？它為何如此重要？傳統意義上，AI解決方案需要強大的并行計算處理能力，長期以來，AI服務都是通過聯網在線的云端基于服務器的計算來提供服務。但是具...

hiyayiji 2019-06-26 18:59 評論0 收藏0