Jupyter 常見可視化框架選擇

YuboonaZhang 發布于2019-07-30 14:54 / 2967人閱讀

摘要：可能對于社區而言，鼎鼎大名的是常見的可視化框架，而大家對于，以及為核心的交互式報告的可個視化方案就并沒有那么熟悉。是維護的比較具有潛力的開源交互可視化框架。示例是基于和組合發展的內核交互式的可視化框架。

對于以Python作為技術棧的數據科學工作者，Jupyter是不得不提的數據報告工具。可能對于R社區而言，鼎鼎大名的ggplot2是常見的可視化框架，而大家對于Python，以及Jupyter為核心的交互式報告的可個視化方案就并沒有那么熟悉。本文試圖比較幾個常用的解決方案，方便大家選擇。

選擇標準 稱述式還是命令式

數據工作者使用的圖的類別，常見的就三類：GIS可視化、網絡可視化和統計圖。因此，大多數場景下，我們并不想接觸非常底層的基于點、線、面的命令，所以，選擇一個好的封裝的框架相當重要。

當然，公認較好的封裝是基于《The Grammar of Graphics (Statistics and Computing)》一書，R中的ggplot2基本上就是一個很好的實現。我們基本上可以像用「自然語言」（Natural Language）一樣使用這些繪圖命令。我們姑且采用計算機科學領域的「陳述式」來表達這種繪圖方式。

相反，有時候，以下情形時，我們可能對于這種繪圖命令可能并不在意：

出圖相當簡單，要求繪制速度，一般大的框架較重（當然只是相對而言）；

想要對細節做非常詳盡的微調，一般大框架在微調方面會相對復雜或者退縮成一句句命令；

是統計作圖可視化的創新者，想要嘗試做出新的可視化實踐。

這些情況下，顯然，簡單操作式并提供底層繪制命令的框架更讓人愉快，與上面類似，我們借用「命令式」描述這類框架。

是否交互

與傳統的交付靜態圖標不同，基于Web端的Jupter的一大好處就是可以繪制交互的圖標（最近的RNotebook也有實現），因此，是否選擇交互式，也是一個需要權衡的地方。

交互圖的優勢：

可以提供更多的數據維度和信息；

用戶端可以做更多諸如放大、選取、轉存的操作；

可以交付BI工程師相應的JavaScript代碼用以工程化；

效果上比較炫酷，考慮到報告接受者的特征可以選擇。

非交互圖的優勢：

報告文件直接導出成靜態文件時相對問題，不會因為轉換而損失信息；

圖片可以與報告分離，必要時作為其他工作的成果；

不需要在運行Notebook時花很多世界載入各類前端框架。

是非內核交互

Jupyter上大多數命令通過以下方式獲取數據，而大多數繪圖方式事實上只是通過Notebook內的代碼在Notebook與內核交互后展示出輸出結果。但ipywidgets框架則可以實現Code Cell中的代碼與Notebook中的前端控件（比如按鈕等）綁定來進行操作內核，提供不同的繪圖結果，甚至某些繪圖框架的每個元素都可以直接和內核進行交互。

用這些框架，可以搭建更復雜的Notebook的可視化應用，但缺點是因為基于內核，所以在呈遞、展示報告時如果使用離線文件時，這些交互就會無效。

框架羅列 matplotlib

最家喻戶曉的繪圖框架是matplotlib，它提供了幾乎所有python內靜態繪圖框架的底層命令。如果按照上面對可視化框架的分法，matplotlib屬于非交互式的的「命令式」作圖框架。

## matplotlib代碼示例
from pylab import *

X = np.linspace(-np.pi, np.pi, 256,endpoint=True)
C,S = np.cos(X), np.sin(X)

plot(X,C)
plot(X,S)

show()

優點是相對較快，底層操作較多。缺點是語言繁瑣，內置默認風格不夠美觀。

matplotlib在jupyter中需要一些配置，可以展現更好的效果，詳情參見這篇文章.

ggplot和plotnine

值得一說，對于R遷移過來的人來說，ggplot和plotnine簡直是福音，基本克隆了ggplot2所有語法。橫向比較的話，plotnine的效果更好。這兩個繪圖包的底層依舊是matplotlib，因此，在引用時別忘了使用%matplotlib inline語句。值得一說的是plotnine也移植了ggplot2中良好的配置語法和邏輯。

## plotnine示例
(ggplot(mtcars, aes("wt", "mpg", color="factor(gear)"))
 + geom_point()
 + stat_smooth(method="lm")
 + facet_wrap("~gear"))

Seaborn

seaborn準確上說屬于matplotlib的擴展包，在其上做了許多非常有用的封裝，基本上可以滿足大部分統計作圖的需求，以matplotlib+seaborn基本可以滿足大部分業務場景，語法也更加「陳述式」。

缺點是封裝較高，基本上API不提供的圖就完全不可繪制，對于各類圖的拼合也不適合；此外配置語句語法又回歸「命令式」，相對復雜且不一致。

## seaborn示例
import seaborn as sns; sns.set(color_codes=True)
iris = sns.load_dataset("iris")
species = iris.pop("species")
g = sns.clustermap(iris)

plotly

plotly是跨平臺JavaScript交互式繪圖包，由于開發者的核心是javascript，所以整個語法類似于寫json配置，語法特質也介于「陳述式」和「命令式」之間，無服務版本是免費的。

有點是學習成本不高，可以很快將語句移植到javascript版本；缺點是語言相對繁瑣。

##plotly示例
import plotly.plotly as py
import plotly.graph_objs as go

# Add data
month = ["January", "February", "March", "April", "May", "June", "July",
         "August", "September", "October", "November", "December"]
high_2000 = [32.5, 37.6, 49.9, 53.0, 69.1, 75.4, 76.5, 76.6, 70.7, 60.6, 45.1, 29.3]
low_2000 = [13.8, 22.3, 32.5, 37.2, 49.9, 56.1, 57.7, 58.3, 51.2, 42.8, 31.6, 15.9]
high_2007 = [36.5, 26.6, 43.6, 52.3, 71.5, 81.4, 80.5, 82.2, 76.0, 67.3, 46.1, 35.0]
low_2007 = [23.6, 14.0, 27.0, 36.8, 47.6, 57.7, 58.9, 61.2, 53.3, 48.5, 31.0, 23.6]
high_2014 = [28.8, 28.5, 37.0, 56.8, 69.7, 79.7, 78.5, 77.8, 74.1, 62.6, 45.3, 39.9]
low_2014 = [12.7, 14.3, 18.6, 35.5, 49.9, 58.0, 60.0, 58.6, 51.7, 45.2, 32.2, 29.1]

# Create and style traces
trace0 = go.Scatter(
    x = month,
    y = high_2014,
    name = "High 2014",
    line = dict(
        color = ("rgb(205, 12, 24)"),
        width = 4)
)
trace1 = go.Scatter(
    x = month,
    y = low_2014,
    name = "Low 2014",
    line = dict(
        color = ("rgb(22, 96, 167)"),
        width = 4,)
)
trace2 = go.Scatter(
    x = month,
    y = high_2007,
    name = "High 2007",
    line = dict(
        color = ("rgb(205, 12, 24)"),
        width = 4,
        dash = "dash") # dash options include "dash", "dot", and "dashdot"
)
trace3 = go.Scatter(
    x = month,
    y = low_2007,
    name = "Low 2007",
    line = dict(
        color = ("rgb(22, 96, 167)"),
        width = 4,
        dash = "dash")
)
trace4 = go.Scatter(
    x = month,
    y = high_2000,
    name = "High 2000",
    line = dict(
        color = ("rgb(205, 12, 24)"),
        width = 4,
        dash = "dot")
)
trace5 = go.Scatter(
    x = month,
    y = low_2000,
    name = "Low 2000",
    line = dict(
        color = ("rgb(22, 96, 167)"),
        width = 4,
        dash = "dot")
)
data = [trace0, trace1, trace2, trace3, trace4, trace5]

# Edit the layout
layout = dict(title = "Average High and Low Temperatures in New York",
              xaxis = dict(title = "Month"),
              yaxis = dict(title = "Temperature (degrees F)"),
              )

fig = dict(data=data, layout=layout)
py.iplot(fig, filename="styled-line")

注意：此框架在jupyter中使用需要使用init_notebook_mode()加載JavaScript框架。

bokeh

bokeh是pydata維護的比較具有潛力的開源交互可視化框架。

值得一說的是，該框架同時提供底層語句和「陳述式」繪圖命令。相對來說語法也比較清楚，但其配置語句依舊有很多可視化框架的問題，就是與「陳述式」命令不符，沒有合理的結構。此外，一些常見的交互效果都是以底層命令的方式使用的，因此如果要快速實現Dashboard或者作圖時就顯得較為不便了。

## Bokeh示例
import numpy as np
import scipy.special

from bokeh.layouts import gridplot
from bokeh.plotting import figure, show, output_file

p1 = figure(title="Normal Distribution (μ=0, σ=0.5)",tools="save",
            background_fill_color="#E8DDCB")

mu, sigma = 0, 0.5

measured = np.random.normal(mu, sigma, 1000)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(-2, 2, 1000)
pdf = 1/(sigma * np.sqrt(2*np.pi)) * np.exp(-(x-mu)**2 / (2*sigma**2))
cdf = (1+scipy.special.erf((x-mu)/np.sqrt(2*sigma**2)))/2

p1.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
        fill_color="#036564", line_color="#033649")
p1.line(x, pdf, line_color="#D95B43", line_width=8, alpha=0.7, legend="PDF")
p1.line(x, cdf, line_color="white", line_width=2, alpha=0.7, legend="CDF")

p1.legend.location = "center_right"
p1.legend.background_fill_color = "darkgrey"
p1.xaxis.axis_label = "x"
p1.yaxis.axis_label = "Pr(x)"



p2 = figure(title="Log Normal Distribution (μ=0, σ=0.5)", tools="save",
            background_fill_color="#E8DDCB")

mu, sigma = 0, 0.5

measured = np.random.lognormal(mu, sigma, 1000)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(0.0001, 8.0, 1000)
pdf = 1/(x* sigma * np.sqrt(2*np.pi)) * np.exp(-(np.log(x)-mu)**2 / (2*sigma**2))
cdf = (1+scipy.special.erf((np.log(x)-mu)/(np.sqrt(2)*sigma)))/2

p2.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
        fill_color="#036564", line_color="#033649")
p2.line(x, pdf, line_color="#D95B43", line_width=8, alpha=0.7, legend="PDF")
p2.line(x, cdf, line_color="white", line_width=2, alpha=0.7, legend="CDF")

p2.legend.location = "center_right"
p2.legend.background_fill_color = "darkgrey"
p2.xaxis.axis_label = "x"
p2.yaxis.axis_label = "Pr(x)"



p3 = figure(title="Gamma Distribution (k=1, θ=2)", tools="save",
            background_fill_color="#E8DDCB")

k, theta = 1.0, 2.0

measured = np.random.gamma(k, theta, 1000)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(0.0001, 20.0, 1000)
pdf = x**(k-1) * np.exp(-x/theta) / (theta**k * scipy.special.gamma(k))
cdf = scipy.special.gammainc(k, x/theta) / scipy.special.gamma(k)

p3.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
        fill_color="#036564", line_color="#033649")
p3.line(x, pdf, line_color="#D95B43", line_width=8, alpha=0.7, legend="PDF")
p3.line(x, cdf, line_color="white", line_width=2, alpha=0.7, legend="CDF")

p3.legend.location = "center_right"
p3.legend.background_fill_color = "darkgrey"
p3.xaxis.axis_label = "x"
p3.yaxis.axis_label = "Pr(x)"



p4 = figure(title="Weibull Distribution (λ=1, k=1.25)", tools="save",
            background_fill_color="#E8DDCB")

lam, k = 1, 1.25

measured = lam*(-np.log(np.random.uniform(0, 1, 1000)))**(1/k)
hist, edges = np.histogram(measured, density=True, bins=50)

x = np.linspace(0.0001, 8, 1000)
pdf = (k/lam)*(x/lam)**(k-1) * np.exp(-(x/lam)**k)
cdf = 1 - np.exp(-(x/lam)**k)

p4.quad(top=hist, bottom=0, left=edges[:-1], right=edges[1:],
       fill_color="#036564", line_color="#033649")
p4.line(x, pdf, line_color="#D95B43", line_width=8, alpha=0.7, legend="PDF")
p4.line(x, cdf, line_color="white", line_width=2, alpha=0.7, legend="CDF")

p4.legend.location = "center_right"
p4.legend.background_fill_color = "darkgrey"
p4.xaxis.axis_label = "x"
p4.yaxis.axis_label = "Pr(x)"



output_file("histogram.html", title="histogram.py example")

show(gridplot(p1,p2,p3,p4, ncols=2, plot_width=400, plot_height=400, toolbar_location=None))

bqplot

bqplot是基于ipywidgets和d3.js組合發展的內核交互式的可視化框架。語法上采用了和matplotlib大致一致的語法已經相對封裝較高的「陳述式語法」。優點是直接和內核交互，可以使用大量控件來實現更多的圖像處理，缺點也是直接的，離線文檔則不會顯示任何圖案、控件也都失效。

## bqplot示例
import numpy as np
from IPython.display import display
from bqplot import (
    OrdinalScale, LinearScale, Bars, Lines, Axis, Figure
)

size = 20
np.random.seed(0)

x_data = np.arange(size)

x_ord = OrdinalScale()
y_sc = LinearScale()

bar = Bars(x=x_data, y=np.random.randn(2, size), scales={"x": x_ord, "y":
y_sc}, type="stacked")
line = Lines(x=x_data, y=np.random.randn(size), scales={"x": x_ord, "y": y_sc},
             stroke_width=3, colors=["red"], display_legend=True, labels=["Line chart"])

ax_x = Axis(scale=x_ord, grid_lines="solid", label="X")
ax_y = Axis(scale=y_sc, orientation="vertical", tick_format="0.2f",
            grid_lines="solid", label="Y")

Figure(marks=[bar, line], axes=[ax_x, ax_y], title="API Example",
       legend_location="bottom-right")

其他特殊需求的作圖

除了統計作圖，網絡可視化和GIS可視化也是很常用的，在此只做一個簡單的羅列：

GIS類：

gmap：交互，使用google maps接口

ipyleaflet：交互，使用leaflet接口

網絡類：

networkx：底層為matplotlib

plotly

總結

	底層實現	交互方式	語法	語言結構	備注	推薦程度
matplotlib	-	無	命令式	底層語言	可以實現復雜底層操作	★★★
gglot	matplotlib	無	陳述式	類ggplot2	建議選擇plotnine	★★
plotnine	matplotlib	無	陳述式	類ggplot2	完全移植ggplot2	★★★★★
seaborn	matplotlib	無	陳述式	高級語言	有很多有用的統計圖類的封裝；但不適合做圖拼裝	★★★★★
plotly	plotly.js	前端交互	介于命令式和陳述式之間	類似JavaScript	語法類似于json配置	★★★★
bokeh	-	前端交互	命令、陳述式	同時有底層語言和高級語言	社區具有潛力	★★★
bqplot	d3.js	內核交互	命令、陳述式	有類似matplotlib底層語言，已經封裝好的高級語言	內核交互	★★★★

GPU云服務器云服務器數據可視化框架大數據可視化框架可視化html框架 bi可視化框架

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/40992.html

“大數據+”實踐：數據平臺的設計與搭建

摘要：在近期舉辦的全球架構師峰會上，個推首席數據架構師袁凱，基于他在數據平臺的建設以及數據產品研發的多年經驗，分享了面向機器學習數據平臺的設計與搭建。二具體開展機器學習的過程原始數據經過數據的處理，入庫到數據倉里。機器學習作為近幾年的一項熱門技術，不僅憑借眾多人工智能產品而為人所熟知，更是從根本上增能了傳統的互聯網產品。在近期舉辦的2018 ArchSummit全球架構師峰會上，個推首席數...

BlackHole1 2019-07-30 17:07 評論0 收藏0
Python數據科學環境：Anaconda 了解一下

摘要：我自己印象最深的是在上安裝加密和科學計算模塊，折騰了很久。這個精裝是面向數據科學的，同時也保留了你自己進一步改裝的空間。數據科學庫包環境管理工具，這幾樣就是的主要功能。幾乎所有的 Python 學習者都遇到過安裝方面的問題。這些安裝問題包括 Python 自身環境的安裝、第三方模塊的安裝、不同版本的切換，以及不同平臺、版本間的兼容問題等。當你因為這些問題而卡殼，一行代碼沒寫就已...

shaonbean 2019-07-31 09:59 評論0 收藏0
收藏 | 10個可以快速用Python進行數據分析的小技巧

摘要：函數將單元格內容以形式呈現。自動評論代碼自動注釋單元格中的選定行，再次命中組合將取消注釋相同的代碼行。如果需要恢復整個已刪除的單元格，請按或撤消刪除單元格。 showImg(https://segmentfault.com/img/remote/1460000019599210); 編譯：小七、蔣寶尚一些小提示和小技巧可能是非常有用的，特別是在編程領域。有時候使用一點點黑客技術，既可...

silvertheo 2019-07-31 10:37 評論0 收藏0
編程界的“頭牌”名媛：Python，14個與數據科學的“曖昧情事”

摘要：安裝安裝用于數據科學的的最佳方法是使用發行版。但這只是展示了構建數據科學問題的不同方式中的機器學習這是一個重要的主題，機器學習正在風靡世界，是數據科學家工作的重要組成部分。作為編程界的頭牌名媛，Python平易近人的態度和精明婉約的靈動深得各個大佬歡心。比如：人工智能、web開發、爬蟲、系統運維、數據分析與計算等等。這幾位風流多金的行業精英隨便哪個都能逆轉未來。本文為你精心準備了一...

Labradors 2019-07-31 10:30 評論0 收藏0