用進度條助您特征工程一臂之力

darry 發布于2019-07-30 17:31 / 1548人閱讀

摘要：在此探討的是級別以下的數據之上的分析，有基于的分布式任務精度條，主要環境是下基于包的分析和特征工程任務。當然，首先我們得載入模塊，在中使用帶的基于顯示的進度條前，請務必檢查是否安裝模塊。

在具體的分析或者特征工程之中，經常會遇到處理時間很久的問題，當然必要的優化是必須的。但是顯然，數據量上升，計算量過大后，處理時間是必須的此。時，如果有個可以幫助您查看任務進度的進度條，必定可以提高你抓住處理時間去做（磨）別（洋）事（工）。當然逐行打印是不錯的選擇，但在Jupyter notebook/JupyterLab中，這種實踐最大的問題是，打印過多，影響整個notebook的美觀程度。

在此探討的是5GB級別以下的數據（之上的Spark分析，有基于Zipplin的分布式任務精度條），主要環境是Jupyter下基于pandas包的分析和特征工程任務。

一個極為簡單的例子

tqdm是基于Python的精度條模塊，里面提供了簡單的代碼行進度條和基于ipywidgets的notebook內的進度條。由于現在tqdm相關模塊還在開發階段，可能會用到一些私有對象，之后正式版中可能具體API會有所變化。

當然，首先我們得載入模塊，在notebook中使用tqdm帶的基于Js顯示的進度條前，請務必檢查是否安裝ipywidgets模塊。

from tqdm import tqdm_notebook, _tqdm_notebook
_tqdm_notebook.tqdm_notebook.pandas()

其中第一行載入的兩個方法的作用分別是：

tqdm_notebook：用來包裝任何可以iterable的對象，在使用其元素進行運算結束后統計時間。

_tqdm_notebook：其中含有模塊可以處理pandas的對象。

第二行則是重載pandas里面的對象，提供可以展示精度條的方法。

下面我們可以嘗試直接使用tqdm_notebook包裹iterable對象來展示進度條，效果如下：

a = list(range(1, 10000))
b = range(1, 10000)
_ = [(lambda x: x+1)(i) for i in tqdm_notebook(a)]
_ = [(lambda x: x+1)(i) for i in tqdm_notebook(b)]

當然如果僅僅是使用range也可以使用tqdm自帶的tnrange：

from tqdm._tqdm_notebook import tnrange
_ = [(lambda x: x+1)(i) for i in tnrange(1, 10000)]

效果如下：

命名和深度

在一些場合，可能寫需要多個層級的迭代，此時，我們可以通過命名每個層級的迭代器來實現這個個效果。使用desc參數即可：

for i in tnrange(1, 10, desc="i Loop"):
    for j in tnrange(1, 10000, desc="j Loop"):
        i+j

當然，如果遇到Loop過多時，可能會依舊出現打印過多的困擾。此時leave參數是一個不錯的推薦。

for i in tqdm_notebook(range(100), desc="i-Loop"):
    for j in tqdm_notebook(range(10000), desc="j-Loop", leave=False):
        i+j

多進程的擴展

當然，在具體計算中，多進程往往是經常會需要的一類擴展（由于Python只能基于一個運算核心進行計算的限制），這時候線程的運算也是經常需要考量的方式。

在使用過程中，第一個需要注意的問題是，tqdm每次是在從iterable對象中取值時，進行更新，而如果在map之前的list中做進度條的包裹，是在未使用map的函數之前統計。所以在進度條完成時，可能還會有一段時間后才真的執行結束。

from multiprocessing import Pool
def f(x):
    return x**32
p = Pool(5)
_ = [i for i in p.imap(f, tnrange(1000))]

而一個更好的處理是在使用后標記時間，使用multiprocessing.Pool.imap作為迭代對象，但這個問題是tqdm無法識別具體數量，此時，指定tqdm的迭代次數total即可。

_ = [i+1 for i in tqdm_notebook(p.imap(f, range(1000)))]

_ = [i for i in tqdm_notebook(p.imap(f, range(3, 1000)), total=997)]

pandas中使用

pandas中的使用，也是非常簡單，在重載命令執行后，Serires、DataFrame、GroupBy對象都會擁有progress_apply方法，用法和apply一致，直接可以調取進度條。

實戰：復雜場景中的使用

最后，我們結合一下之前的多線程和pandas操作，處理更大規模的數據?；舅悸肥?，將DataFrame拆成若干組分，最后通過pandas.concat合并起結果。

def parallelize_dataframe(df, func, n_jobs=3, split_num=10):
    ## 拆分數據表
    df_split = np.array_split(df, split_num)
    pool = Pool(n_jobs)
    df_list = []
    
    ## map操作
    for df_element in tqdm_notebook(pool.imap(func, df_split), total=10000):
        df_list.append(df_element)
       
    ## reduce操作
    df = pd.concat(df_list)
    
    ## 關閉進程
    pool.close()
    pool.join()
    return df

以上實現了基本的基于tqdm顯示處理進度的操作。使用方法如下：

def apply_add_1(df):
    return df.apply(lambda row: row["sepal_length"]+1, axis=1)
_ = parallelize_dataframe(iris_df, apply_add_1)

結語

查看了一下進度條，這次預處理我還要花一小時，可以先去沖杯咖啡了。

GPU云服務器云服務器 python特征工程圖像識別如何做特征工程工程項目進度管理我是前端工程師怎么用

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/42246.html

年薪50w+的軟件測試工程師是怎么煉成的？

摘要：它讓傳統的測試工程師從簡單，重復，低效可替代性強的手工測試，變成了有技術難度和門檻的測試開發工作，也讓我們有更多的機會拿到更高的薪資。隨著互聯網行業的迅速發展，軟件測試工程師的地位越來越高，公司招聘時的薪資也越來越高，那么市場上為什么還有大量的軟件測試工程師薪資只有5-6k呢？因為他們有一...

laznrbfe 2021-11-11 16:55 評論0 收藏0
20170822 前端開發日報

摘要：如果沒有學習過計算機科學的程序員，當我們在處理一些問題時，比較熟悉的數據結構就是數組，數組無疑是一個很好的選擇。幾種 JavaScript 動畫庫推薦 JavaScript 庫對設計師和開發人員來說，都是非常有用的工具。它們可以為你的網站添加一些超級強大的功能，給用戶帶來更好的體驗。 2017年8月前端開發者超實用干貨大合集在過去的幾年當中，網絡上所流傳的各種設計和開發資源，在素質...

raoyi 2019-08-01 17:27 評論0 收藏0
20170822 前端開發日報

摘要：如果沒有學習過計算機科學的程序員，當我們在處理一些問題時，比較熟悉的數據結構就是數組，數組無疑是一個很好的選擇。幾種 JavaScript 動畫庫推薦 JavaScript 庫對設計師和開發人員來說，都是非常有用的工具。它們可以為你的網站添加一些超級強大的功能，給用戶帶來更好的體驗。 2017年8月前端開發者超實用干貨大合集在過去的幾年當中，網絡上所流傳的各種設計和開發資源，在素質...

olle 2019-08-20 18:54 評論0 收藏0

發表評論

登陸后可評論

0條評論

darry

男|高級講師

我要關注我要私信

TA的文章

tensorflow是否安裝成功

閱讀 3785·2023-04-26 02:07
SvenHost：黑色星期五，美國VPS，免費DDOS保護，全線優惠，最高達40%，月付$4.2起

閱讀 3671·2021-10-27 14:14
InterServer：新增存儲服務，支持安裝OwnCloud，月付3美元起

閱讀 2859·2021-10-14 09:49
第五第六天

閱讀 1624·2019-08-30 15:43
年終活動h5動畫總結

閱讀 2611·2019-08-29 18:33
css3實現顫動的動畫

閱讀 2369·2019-08-29 17:01
淺談前端優化的幾個思路

閱讀 915·2019-08-29 15:11
margin詳解

閱讀 582·2019-08-29 11:06

国产xxxx99真实实拍_久久不雅视频_高清韩国a级特黄毛片_嗯老师别我我受不了了小说

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

用進度條助您特征工程一臂之力

相關文章

年薪50w+的軟件測試工程師是怎么煉成的？

20170822 前端開發日報

20170822 前端開發日報

發表評論

0條評論

darry

男|高級講師

TA的文章

tensorflow是否安裝成功

SvenHost：黑色星期五，美國VPS，免費DDOS保護，全線優惠，最高達40%，月付$4.2起

InterServer：新增存儲服務，支持安裝OwnCloud，月付3美元起

第五第六天

年終活動h5動畫總結

css3實現顫動的動畫

淺談前端優化的幾個思路

margin詳解

最新活動

資訊專欄INFORMATION COLUMN

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！

用進度條助您特征工程一臂之力

相關文章

發表評論

0條評論

男|高級講師

TA的文章

最新活動

上云采購季！| 2核2G4M爆款云服務器低至59元/年，更有多臺、長期優惠，快來選購！