Python數據分析 - numpy

CHENGKANG 發布于2019-07-30 14:44 / 2662人閱讀

摘要：前言以下簡稱是數據分析必不可少的第三方庫，的出現一定程度上解決了運算性能不佳的問題，同時提供了更加精確的數據類型。因此，理解的數據類型對數據分析十分有幫助。一維數據由對等關系的有序或無序數據構成，采用線性方式組織，可以用數組表示。

前言

NUMPY（以下簡稱NP）是Python數據分析必不可少的第三方庫，np的出現一定程度上解決了Python運算性能不佳的問題，同時提供了更加精確的數據類型。如今，np被Python其它科學計算包作為基礎包，已成為Python 數據分析的基礎，可以說，NP是SciPy、Pandas等數據處理或科學計算庫最基本的函數功能庫。因此，理解np的數據類型對python數據分析十分有幫助。
下面，本文將介紹Np的常用操作和基本數據類型。

NP提供了以下重點功能。

一個強大的N維數組對象ndarray

廣功能函數

整合C/C++/Fortran代碼的工具

提供了線性代數、傅里葉變換、隨機數生成的相關功能

為了更加直觀的了解Np的強大與作用，我們先看作用再看方法：

使用NUMPY操作數據集

在操作數據之前，我們先來理解什么是維度：

什么是維度

維度是一組數據的組織形式，不同數據維度可能表示不同的含義。
一維數據由對等關系的有序或無序數據構成，采用線性方式組織，可以用數組表示。
通俗來講，

1，2，3，4

這么一行數據就可以稱之為一維數據，但如果我們再對其折疊：

1，2，
3，4

那么他就成為了二維數據，又可以稱之為矩陣。

什么是數據集

數據集，顧名思義就是數據的集合，是用以訓練程序的數據集合，一般是二維或者多維數表。
如果我們想自己手工新建一個數據集，可以直接新建一個文本文件，只要有恰當的數據，都可以稱之為數據集：

城市,環比,同比,定基
北京,100.1,100.2,100.3
上海,111.1,111.2,111.3
南京,133.0,133.3,133.4

比如這樣，我們就可以稱上面的文件稱之為數據集。
我們還注意到，上面數據是使用逗號作為分隔符分隔數據的，它簡單描述了數據的內容和含義，并使用半角逗號作為分隔符。
像這樣，用逗號分隔的數據集就稱之為CSV（Comma-Separated Value,逗號分隔值）數據集，它是一種常見的文件格式，用來存儲批量的數據。它就像一張excel表，用來存儲簡單結構的數據。
怎么樣，數據集的概念是否特別簡單呢？

生成數據集

數據集是一個簡單的概念，但每次使用手工的方式去寫畢竟不方便，所以，我們可以使用np的內置函數來生成數據集：

np.savetxt(frame,array,fmt="%.18e",delimiter=None)

frame：文件、字符串、或產生器的名字，可以是.gz，.bz2的壓縮文件

arrray：存入文件的NP的數組

fmt(format):寫入文件的格式，如%d,%.2f,%.18e(默認，科學計數法保留18位)

delemiter:分割字符串，默認是任何空格。

我們可以這樣寫下代碼：

a= np.arange(20).reshape(4,5)
np.savetxt("demo.csv",a,fmt="%d",delimiter=",")

這樣，我們就會在當前的工作目錄下發現一個新的demo.csv，用記事本打開，里面是一個4 * 5的矩陣，元素0~19。

讀取數據集

既然生成，那就可以讀取，同樣使用np：

np.loadtxt(frame,dtype=np.float,delimiter=None,inpack=False)

frame:指定讀入的文件來源

dtype:數據類型，默認為np.float。

delimiter:分割字符串

unpack：默認為False讀入文件寫入一個數組，如果為True，讀入屬性將分別寫入不同變量

同樣的我們只需要寫下代碼：

np.loadtxt("demo.csv",delimiter=",")

就可以查看到我們先前寫入的數組a。

CSV文件的局限

可以發現，CSV文件只能有效存儲和讀取一維和二維數組，因為更高的維度無法更直觀的文本下顯現出來，這時，更加靈活的存取方式就呼之欲出了，但講之前先賣個關子，再介紹一個不太常用的方法：tofile：
對于NP中的ndarray數組，我們可以使用NP中的tofile方法。

a.tofile(frame,sep="",format="%d")

frame:文件，字符串

數據分割字符串，如果不寫，將使用二進制文件存儲

format：寫入數據的格式

同樣，我們只需要命令：

import numpy as np
a = np.arange(100).reshape(5,10,2)
a.tofile("a.dat",sep=",",format="%d")

就可以生成新的CSV數據集。

此時，我們如果打開a.dat文件，我們可以看到數組1,2,3……99。但是與CSV不同，這個文件并沒有包含數字的維度信息，他只是將數組所有元素逐一的列出。而且如果我們不指定sep，將保存為二進制文件，雖然對人不可讀，但將占用更小的空間。

既然tofile可以保存文本文件，那么也很容易猜到對應的fromfile可以還原這些信息。

np.fromfile(frame,dtype=float,count=-1,sep="")

frame：文件

dtype：讀取元素使用的數據類型，默認為float

count：讀文件的個數，默認-1，讀取全部

sep:數據分割字符串，如果是空串，寫入文件為二進制。

如果我們想要重新恢復數據的維度信息，我們需要重新使用reshape來恢復維度信息：

c = np.fromfile("b.dat",sep=",",dtype=np.int).reshape(5,10,2)

不得不說，當我看到這個方法時感覺這兩個真是蠢爆了，使用savetxt / loadtxt 至少還能保存個二維信息，而使用了tofile / fromfile 方法居然把數被伸展為一維的，然后自己記住維度信息(╯‵□′)╯︵┻━┻。

因此，為了保存更復雜的數據類型，二維以上的數據信息，save / load 函數成功解決了這個問題：（為了方便，兩個函數就放到一起了）

保存 / 讀取高維度數據

np.save(frame,array)或np.savez(fname,array)(壓縮)
+ frame：文件名，以.npy為擴展名，壓縮擴展名為.npz
+ array：數組變量
np.load(fname)

Demo:

a = np.arange(100).reshape(5,10,2)
np.save("a.npy",a)
b=np.load("a.npy")

附錄

附錄中提供NP的常用方法及注釋，做查詢用。

np數組定義

>>>lst = [[1,3,5],[2,4,6]]
>>>np_lst = np.array(lst,dtype=np.float)
>>>print(np_lst.shape)#返回數組的行列
>>>print(np_lst.ndim)#返回數組的維數
>>>print(np_lst.dtype)#返回數據類型，float默認為64
>>>print(np_lst.itemsize)#np.array每個元素的大小，float64占8個字節
>>>print(np_lst.size)#大小，6個元素
(2, 3)
2
float64
8
6

初始化數組

>>>print(np.zeros([2,4])#初始化一個2行4列的數組
>>>print(np.ones([2,4])
[[ 0.  0.  0.  0.]
[ 0.  0.  0.  0.]]
[[ 1.  1.  1.  1.]
[ 1.  1.  1.  1.]]

隨機序列

>>>print(np.random.rand(2,4))#將生成一個處于0~1之間2行4列的隨機數序列（不加參數將只返回一個）
[[ 0.39531286  0.4845      0.1463168   0.82327991]
[ 0.89042255  0.65049931  0.43890163  0.89577744]]

如果想要多個隨機整數：

print(np.random.randint(22,55,3))#必須有（前兩個參數）指定范圍，第三個參數用于指定生成的個數
[27 40 29]
print(np.random.randn(2，4))#生成標準正態隨機數
[[-1.15561548  0.3689953   0.38253231 -1.16346441]
[-1.32625322 -0.41707673 -0.11822205 -0.95807535]]
print(np.random.choice([10,20,40,33]))#從指定可迭代的數組中生成隨機數
20
print(np.random.beta(1,10,4))#生成4個beta分布
[ 0.02258548  0.25848896  0.00696899  0.0609543 ]

多維數組運算

print(np.arange(1,11,2))#得到step為2的range序列
[1 3 5 7 9]

還可以使用reshape函數，對數組結構重定義：

print(np.arange(1,11).reshape(2,5))#（5可以缺省為-1）
[[ 1  2  3  4  5]
[ 6  7  8  9 10]]

下面介紹一些常用的運算操作：

lst=np.arange(1,11).reshape(2,5)
print(np.exp(lst))#自然指數操作
[[  2.71828183e+00   7.38905610e+00   2.00855369e+01   5.45981500e+01    1.48413159e+02]
[  4.03428793e+02   1.09663316e+03   2.98095799e+03   8.10308393e+03    2.20264658e+04]]

此外，還可以sqrt、log、sin、sum、max等操作：
我們下定義一個三維數組：

lst = np.array([
                [[1,2,3,4],[4,5,6,7]],
                [[7,8,9,10],[10,11,12,13]],
                [[14,15,16,17],[18,19,20,21]]
            ])
print(lst.sum())
252

我們可以看到sum方法對lst的所有元素都進行了求和，此外我們還可以通過對sum方法增加參數axis的方式來設置求和的深入維度：

print(lst.sum(axis=0))
[[22 25 28 31]#22=1+7+14；25=2+8+15
[32 35 38 41]]
print(lst.sum(axis=1))
[[ 5  7  9 11]#5=1+4；7=2+5
[17 19 21 23]
[32 34 36 38]]
print(lst.sum(axis=2))
[[10 22]#10=1+2+3+4；22=4+5+6+7
[34 46]
[62 78]]

這里的axis取值為數組維數-1，axis可以理解為進行運算操作時的深入程度，axis越大，深入程度越大。同理，不僅sum函數，max等函數也可以一樣理解。

相加運算

numpy.array是np最簡單的數據結構。np.array相比與Python原生列表其強大之處在于可以實現對數組數據的運算。我們知道，list只能對元素的追加。而numpy是真正意義上的數據運算。
例如

    In [1]: import numpy as np
    In [2]: list1 = np.array([10,20,30,40])
    In [3]: list2 = np.array([4,3,2,1])
    In [4]: print(list1)
    [10 20 30 40]
    In [5]: print(list1+list2)
    [14 23 32 41]

但np最強大的地方不在于簡單的一維運算，Np對矩陣也能進行基本的運算操作：

lst1 =np.array([10,20,30,40])
lst2 = np.array([4,3,2,1])
print(np.dot(lst1.reshape([2,2]),lst2.reshape([2,2])))
[[10 22]
[34 46]
[62 78]]
[[ 80  50]
[200 130]]

此外，由于原生list沒有確定的數據類型，所以維護起來成本較高，而使用C編寫的numpy，則可以聲明各種常見的數據類型：

lst = [[1,3,5],[2,4,6]]
np_lst = np.array(lst,dtype=np.float)

np所支持的數據類型都有bool、int8/16/32/64/128/、uint8/16/32/64/128、float16/32/43、complex64/128、string。

總結

Python作為一門弱類型語言，有其不可避免的缺點。但NP的出現，彌補了這些缺點，使其具備了構造復雜數據類型的能力，為Python數據分析提供了基礎。

云服務器 GPU云服務器 python_numPy python安裝numpy numpy數據分析 numpy

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/40884.html

真假美猴王-Numpy數據與Python數組的區別與聯系

摘要：下文統一稱為數組是存儲單一數據類型的多維數組同語言數組直接保存數值而則是能夠對數組進行處理的函數。動態數據類型與的數組和的這些不可變數據類型的適用場景等可變數據類型適用于需要不斷對原始數據進行修改的場景。 showImg(https://segmentfault.com/img/remote/1460000018925396);Numpy,是python中的一個矩陣計算包,功能類似ma...

鄒強 2019-07-31 10:18 評論0 收藏0
Numpy 中文用戶指南 1. 安裝

摘要：包的核心是對象。但有個例外，包括對象數組的元素大小是不同的。序列大小和速度在科學計算中尤為重要。例如考慮兩個長度相同的列表中每個元素相乘的情況。此外，編碼所需的工作量隨數據維數的增加而增加。這些信息主要用于高級用戶。譯者：飛龍 1.1 NumPy 是什么？原文：What is NumPy? NumPy是Python中用于科學計算的基礎包。它是一個Python庫，提供多維數組對象，各...

mochixuan 2019-07-24 18:34 評論0 收藏0
python綜合學習三之Numpy和Pandas

摘要：本章學習兩個科學運算當中最為重要的兩個模塊，一個是一個是。這種工具可用來存儲和處理大型矩陣，比自身的嵌套列表結構要高效的多該結構也可以用來表示矩陣。專為進行嚴格的數字處理而產生。可以通過函數對相應值進行打印檢驗。本章學習兩個科學運算當中最為重要的兩個模塊，一個是 numpy,一個是 pandas。任何關于數據分析的模塊都少不了它們兩個。一、numpy & pandas特點 NumP...

tinylcy 2019-07-30 17:37 評論0 收藏0
NumPy與Python內置列表計算標準差區別詳析

　　小編寫這篇文章的主要目的，主要是給大家進行介紹，關于NumPy與Python內置列表計算標準差區別的相關介紹，希望可以給各位讀者帶來幫助。　　1什么是Numpy 　NumPy，是NumericalPython的通稱，用以性能卓越計算機的應用和數據統計分析的前提包，像數理科學專用工具（pandas）和架構（Scikit-learn）中都采用上了NumPy這個包。　　NumPy中的基本數據結構是n...

89542767 2022-09-19 00:08 評論0 收藏0
python學習筆記 --- python中的list和numpy中的矩陣分析

摘要：中的和中的矩陣分析由于之前在做的源碼學習，并且將其的源碼翻譯成了的版本。在逛知乎里，我又發現了很多關于為什么這么快的討論，很有意思。作者鏈接來源知乎著作權歸作者所有。 python中的list和numpy中的矩陣分析 Author : Jasper Yang School : Bupt preface 由于之前在做GIbbsLDA++的源碼學習，并且將其c++的源碼翻譯成了pyth...

DobbyKim 2019-07-30 14:18 評論0 收藏0
numpy：python數據領域的功臣

摘要：前言對的意義非凡，在數據分析與機器學習領域為立下了汗馬功勞。現在用搞數據分析或機器學習經常使用的等庫，都需要基于構建。毫不夸張地說，沒有，今天在數據分析與機器學習領域只能是捉襟見肘。前言 numpy對python的意義非凡，在數據分析與機器學習領域為python立下了汗馬功勞。現在用python搞數據分析或機器學習經常使用的pandas、matplotlib、sklearn等庫，都需...

DevYK 2019-07-25 10:48 評論0 收藏0