Google Coral Edge TPU USB加速棒上手體驗

hiyayiji 發布于2019-06-26 18:59 / 1412人閱讀

摘要：谷歌在年國際消費電子展以及今年的開發峰會上首次展示了他們的，然后于三月份發布了。樹莓派上性能的局限性不幸的是，業余愛好者最喜歡樹莓派無法充分發揮加速器的功能和速度。使用端口，目前的樹莓派設備沒有或，而只能使用速度較慢的。

Edge AI是什么？它為何如此重要？

傳統意義上，AI解決方案需要強大的并行計算處理能力，長期以來，AI服務都是通過聯網在線的云端基于服務器的計算來提供服務。但是具有實時性要求的AI解決方案需要在設備上進行計算，因此邊緣人工智能(Edge AI)正在逐漸進入人們的視野。

雖然本質上AI計算可以使用基于GPU的設備，但這套設備成本高昂，并且搭配非常繁瑣，比如對內存要求越來越高、能耗越來越大等。無論是從研究還是創新角度來講，邊緣人工智能推理都正在成為蓬勃發展的深度學習革命越來越重要的組成部分。

與此同時手持設備（比如手機、平板等）日益普及，每年都能賣掉幾十億臺，手機已然成為日常使用最為頻繁的設備，可以預測對移動AI計算的需求也正在穩步增加。因此，移動處理器的開發已經變得越來越以人工智能為重點，這些處理器都具有用于機器學習的專用硬件，比如現在主流的手機CPU評測都會加上一項AI計算能力的跑分。

目前從消費應用到企業應用都遍布 AI 的身影。隨著聯網設備數量的爆發式增長，以及對隱私/機密、低延遲時間和帶寬限制的需求，云端訓練的 AI 模型需要在邊緣運行的情況不斷增加。Edge TPU 是 Google 專門為在邊緣運行 AI 而打造的 ASIC，它體型小、能耗低，但性能出色，讓您可以在邊緣部署高精度 AI。從下圖可以看出Edge TPU核心的面積僅有一美分的大概十分之一大小。

Edge TPU可以用來做什么？

可以使用Edge TPU在移動設備上訓練模型，但目前僅支持通過遷移學習在設備上重新訓練的分類模型，這種訓練方法是在Low-Shot Learning with Imprinted Weights這篇論文中提到的imprinted weight技術，此技術為實時系統創造了許多可能性。并且，據相關評測顯示，Edge TPU是同類產品中計算速度最快的設備。

市面上已經有的其他AI邊緣推理硬件

雖然這是第一個Edge TPU，但這之前就已經有一些類似的AI專用硬件，例如：

英特爾基于MyriadVPU的神經計算棒，及Google Vision Kit。

基于Cuda的NVIDIA Jetson TX2。

Coral Beta版

TPU，也稱張量處理單元(Tensor Processing Unit)主要供Google數據中心使用。對于普通用戶，可以在Google云端平臺（GCP）上使用，也可以使用Google Colab來使用免費版。

谷歌在2019年國際消費電子展（以及今年的TensorFlow開發峰會上）首次展示了他們的Edge TPU，然后于三月份發布了Coral Beta。

Beta版本包括開發板和USB加速器，以及用于生產目的的預覽版PCI-E加速器和模塊化系統（SOM）。

USB Accelerator

Edge TPU USB Accelerator與任何其他USB設備基本一樣，跟英特爾的MyriadVPU的差不多，但功能更強大。接下來我們來一個開箱，并且稍微上手看看。

開箱

盒子中包含：

入門指南

USB加速器

Type C USB數據線

入門指南

入門指南介紹了安裝步驟，你可以很快完成安裝。包括模型文件在內的所有需要的文件可以隨安裝包一起在官網下載即可，安裝過程并不需要TensorFlow或OpenCV這些依賴庫。

提示：必須使用Python 3.5，否則將無法完成安裝。還需要將install.sh文件最后一行 
python3.5 setup.py develop - user
改為
python3 setup.py develop - user

演示程序

Coral Edge TPU API文檔包括圖像分類和目標檢測的概述和演示程序。

Edge TPU API

在完成以下教程之前，關于Edge TPU API有以下注意事項：

需要安裝Python的edgetpu模塊才能在Edge TPU上運行TensorFlow Lite模型。它是一個較高層的API，包含一些簡單的API以執行模型推理過程。

這些API已經預先安裝在開發板上，但如果使用的是USB加速器，則需要自行下載。詳細信息請參閱此設置指南。

推理過程中需要用到以下關鍵API：用于圖像分類的ClassificationEngine、用于目標檢測的DetectionEngine和用于遷移學習的ImprintingEngine。

圖像分類

實現圖像分類的Demo非常簡單，比如可以將下邊的圖片作為ClassificationEngine接口的輸入：

目標檢測

與圖像分類一樣，我們只需要調用一下DetectionEngine接口，就可以將輸入圖片中的目標檢測出并用方框進行標識：

由于默認配置會產生假負例，我們可以將默認示例程序中的閾值從0.05調整到0.5，另外將矩形的寬度調整為5，可以得到以下結果：

由于Coral仍只有測試版，API文檔中給出的細節不夠完整，但目前給出的部分用于以上示例已經足夠了。

注意事項

以上demo的所有代碼、模型和標注文件都隨安裝包中包含的庫文件一同在官網下載，根據目前已經給出的模型和輸入標注文件等，我們可以完成分類和檢測任務。

對于分類任務，結果返回排名前2的預測類別及對應的置信度得分；而對于目標檢測任務，結果將返回置信度得分及標注方框的各頂點坐標，若輸入時給出類別標注，返回結果中也包含類別名稱。

樹莓派上性能的局限性

不幸的是，業余愛好者最喜歡樹莓派無法充分發揮USB加速器的功能和速度。USB Accelerator使用USB 3.0端口，目前的樹莓派設備沒有USB 3或USB type-C，而只能使用速度較慢的USB 2。

目前，它只在Debian Linux上運行，但預計很快就會有支持其他操作系統的方法。

深入拓展

在Edge TPU的幫助下，Coral還能提供哪些產品呢？

開發板（Dev Board）

作為開發板來講，樹莓派通常是最受歡迎的選擇，但谷歌卻更推崇NXP i.MX 8M SOC(Quad-core Cortex-A53 與 Cortex-M4F)。有關開發版的更多信息，請參考此頁面。

但是如果用于實驗，尤其是僅需使用Edge TPU的情況下，我們更加推薦USB Accelerator。

后續開發

若您已經使用開發板或USB Accelerator做出了不錯的prototype原型機，但后續需要將同樣的代碼應用于大規模生產環境，該怎么辦呢？

谷歌已經預先想到這一點，可以在產品列表中看到，下述模塊將用于企業支持，并且已經被標記為 _即將上線_。

模塊化系統（System-on-module, SOM）

這是一個完全集成的系統（包含CPU、GPU、Edge TPU、Wifi、藍牙和安全元件），采用大小為40mm*40mm的可插拔模塊。

此模塊可以用于大規模生產，制造商可以按照本模塊所提供的指南生產自己喜歡的IO板，甚至上文提到的已經上市的開發板（Dev Board）都包含這個可拆卸的模塊，理論上只要拆下來就可以使用。

PCI-E 加速器

關于PCI-E加速器的信息很少，但顧名思義，它是一個帶有PCI-E（快捷外設互聯標準，Peripheral Component Interconnect Express）的模塊，且有兩種變體，這類似于USB加速器，不過不同之處在于將USB接口換成了PCI-E，就像內存條或者網卡那樣，樹莓派也有PCI-E接口的Compute Module版本。

隨著各種外設模塊的誕生，可以預料，一些企業級項目也將隨之誕生。谷歌Coral也這么認為，在他們的網站上有以下說法：

靈活易用，精準裁剪，適用于初創公司與大型企業。

Tensorflow與Coral項目

谷歌的產品大都與Tensorflow有關，目前，Edge TPU僅支持傳統的Tensorflow Lite版本的模型，Tensorflow Lite穩定版剛剛發布，參見此頁面。

目前，你需要通過一個網頁編譯器將tflite模型轉換為tflite-tpu模型。如果使用的是PyTorch或其他框架也不用擔心，可以通過ONNX將模型轉化為Tensorflow模型。

展望

盡管缺乏對樹莓派的全面支持，以及Beta版本中文檔有限，但我對Coral項目保持樂觀態度。雖然無法立刻確定這種技術的發展前景，但對更強大、低能耗、高成本效益以及更具創新性的產品，我們應當報以更高的期望。

好了，本次介紹就到這里，這個系列的全文會收錄在我的github目錄，歡迎大家star和溝通：https://github.com/asukafighting/RaspberryPiHacker

云服務器 GPU云服務器 google用戶體驗 CORAL 加速器體驗加速器 cdn加速后體驗

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/20038.html

做深度學習這么多年還不會挑GPU？這兒有份選購全攻略

摘要：深度學習是一個對算力要求很高的領域。這一早期優勢與英偉達強大的社區支持相結合，迅速增加了社區的規模。對他們的深度學習軟件投入很少，因此不能指望英偉達和之間的軟件差距將在未來縮小。深度學習是一個對算力要求很高的領域。GPU的選擇將從根本上決定你的深度學習體驗。一個好的GPU可以讓你快速獲得實踐經驗，而這些經驗是正是建立專業知識的關鍵。如果沒有這種快速的反饋，你會花費過多時間，從錯誤中吸取教訓...

JohnLui 2019-04-25 18:32 評論0 收藏0
Jeff Dean「Hot Chips 2017」演講：AI對計算機系統設計的影響

摘要：谷歌也不例外，在大會中介紹了人工智能近期的發展及其對計算機系統設計的影響，同時他也對進行了詳細介紹。表示，在谷歌產品中的應用已經超過了個月，用于搜索神經機器翻譯的系統等。此外，學習優化更新規則也是自動機器學習趨勢中的一個信號。在剛剛結束的 2017 年國際高性能微處理器研討會（Hot Chips 2017）上，微軟、百度、英特爾等公司都發布了一系列硬件方面的新信息，比如微軟的 Projec...

explorer_ddf 2019-04-25 18:16 評論0 收藏0
讓AI簡單且強大：深度學習引擎OneFlow技術實踐

摘要：本文內容節選自由主辦的第七屆，北京一流科技有限公司首席科學家袁進輝老師木分享的讓簡單且強大深度學習引擎背后的技術實踐實錄。年創立北京一流科技有限公司，致力于打造分布式深度學習平臺的事實工業標準。本文內容節選自由msup主辦的第七屆TOP100summit，北京一流科技有限公司首席科學家袁進輝（老師木）分享的《讓AI簡單且強大：深度學習引擎OneFlow背后的技術實踐》實錄。北京一流...

chenjiang3 2019-06-26 18:55 評論0 收藏0