摘要:后文所用的測試文件是一個阿里云導出的文件,,測試時文件已緩存顯示的接近用去用看一下方法耗時較大,因為會對每一行都進行處理,但是實際上只有第一行有,所以浪費了。
工作中多多少少都會遇到UTF-8 BOM(后面直接叫BOM),有時第三方工具不支持就要自己去掉BOM,例如阿里云導出的SQL文件是有BOM的,但是Navicat不支持,這就要去掉BOM了。
后文所用的測試文件是一個阿里云導出的SQL文件,265M,測試時文件已緩存(time顯示的 File system inputs接近0)
用sed去BOMsed -e "1s/^xefxbbxbf//" file
用time看一下sed方法耗時:
$ /usr/bin/time -v sed -e "1s/^xefxbbxbf//" sqlResult_1601835.sql > /dev/null ... User time (seconds): 0.33 System time (seconds): 0.11 Percent of CPU this job got: 98% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:00.46 ...
User time較大,因為sed會對每一行都進行處理,但是實際上只有第一行有BOM,所以浪費了CPU。
sed還支持原地更新(-i):
$ /usr/bin/time -v sed -e "1s/^xefxbbxbf//" sqlResult_1601835.sql -i ... User time (seconds): 1.31 System time (seconds): 3.89 Percent of CPU this job got: 71% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:07.32 ...
因為會寫入文件,所以會更慢,用strace可以發現,sed是通過輸出到臨時文件然后覆蓋原文件實現更新的
open("sqlResult_1601835.sql", O_RDONLY) = 3 open("./sedGlXm60", O_RDWR|O_CREAT|O_EXCL, 0600) = 4 ... rename("./sedGlXm60", "sqlResult_1601835.sql")用tail去BOM
tail --bytes=+4 file
用tail可以直接跳過BOM,然后直接復制文件內容,減少了不必要的CPU處理:
$ /usr/bin/time -v tail --bytes=+4 sqlResult_1601835.sql > /dev/null ... User time (seconds): 0.01 System time (seconds): 0.12 Percent of CPU this job got: 96% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:00.14 ...
但是tail必須自己重定向到新文件再覆蓋舊文件。
strip-bom為了結合sed和tail的優點,我寫了一個strip-bom,支持原地更新文件。
先測試一下重定向:
$ /usr/bin/time -v php strip-bom.phar sqlResult_1601835.sql > /dev/null ... User time (seconds): 0.11 System time (seconds): 0.22 Percent of CPU this job got: 98% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:00.35 ...
只比sed快了20%,User time少了但System time增加了。因為是個循環讀寫的過程,每次循環就是一次read和write調用,所以我增加了一個參數來調節每次讀的塊大小,可以減少循環次數和系統調用,可以比sed快60%:
$ /usr/bin/time -v php strip-bom.phar -b 16384 sqlResult_1601835.sql > /dev/null ... User time (seconds): 0.06 System time (seconds): 0.12 Percent of CPU this job got: 96% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:00.19
測試原地更新,比sed快30%:
$ /usr/bin/time -v php strip-bom.phar -i -b 16384 sqlResult_1601835.sql User time (seconds): 0.23 System time (seconds): 0.67 Percent of CPU this job got: 17% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:05.11copy_file_range
Linux 4.5增加了一個系統調用:
ssize_t copy_file_range(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsigned int flags);
可以直接在兩個文件描述符間復制內容,而且通常只要一個系統調用,所以可以參考sed復制到臨時文件,然后覆蓋舊文件,實現代碼在:Gist
測試:
$ /usr/bin/time -v ./copy_file_range sqlResult_1601835.sql ... User time (seconds): 0.00 System time (seconds): 2.47 Percent of CPU this job got: 37% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:06.52
減少了系統調用也只比sed快一點,復制到臨時文件還是比strip-bom原地更新慢。
dos2unix去BOM一直以為dos2unix就是轉CRLF的,看Feng_Yu評論之后看了man page,原來dos2unix功能很多,其中有去BOM的選項(-r):
$ /usr/bin/time -v dos2unix -r sqlResult_1601835.sql dos2unix: 正在轉換文件 sqlResult_1601835.sql 為Unix格式... Command being timed: "dos2unix -r sqlResult_1601835.sql" User time (seconds): 10.01 System time (seconds): 0.90 Percent of CPU this job got: 60% Elapsed (wall clock) time (h:mm:ss or m:ss): 0:18.20
dos2unix實現類似sed,也是寫到臨時文件再覆蓋,也和sed一樣,會處理每一行,所以性能并不好。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/26272.html
代碼組織和部署 模塊的路徑解析規則 require支持/或者盤符的絕對路徑,也支持./開頭的相對地址同時require也支持第三種寫法 內置模塊 如果傳遞給require的函數是node.js的內置模塊,將會不做路徑解析,直接返回內部exports模塊要導出的對象 node_modules目錄 node.js定義一個node_modules存放模塊,每次使用foo/bar的方式的時候,會先尋找該目...
摘要:今天團隊小伙伴給了我一個配置文件,可以用如下替代畢竟內容不是重點考慮到這個并不需要常駐,就沒有用來引用,因為模塊的緩存機制,勢必會導致內存泄漏問題的發生,就采取了以下方式但是詭異的事情發生了,竟然報錯了此時一臉懵逼,就用了的方式試了一下發現 bug 今天團隊小伙伴給了我一個json配置文件,可以用如下替代(畢竟內容不是重點): { text: this is a example...
摘要:前言對于從其他服務器的獲得數據,我們一般都為數據傳輸,比如服務器要從服務器的獲得分頁信息,得到字符后如果可以方便快捷操作要轉為自己的對象。第二種是的,這種就是無報錯,但是對象的值一直為空。把值傳進去去除報頭測試結果是成給對象賦值了 前言 對于從其他服務器的url獲得數據,我們一般都為json數據傳輸,比如服務器B要從服務器A的url獲得分頁信息,得到json字符后如果可以方便快捷操作要...
摘要:由此造成即使頁面的或者設置為,也無法讓整個網頁緊貼瀏覽器頂部,因為在一開頭有這個隱藏字符解決辦法保存文件為建議不要用記事本打開開發文件 說明 初衷: 本文檔用于記錄所遇到的網站安全問題,并分類匯總,方便后期遇到類似問題,能夠快速找到解決方案,提高效率,讓程序員有更多的時間去把妹,LOL... 記錄規范: 標題必須清晰明了,方便用戶快速查找,拒絕標題黨; 問題放到正確的分類中; 記錄問...
閱讀 2001·2019-08-29 16:27
閱讀 1370·2019-08-29 16:14
閱讀 3372·2019-08-29 14:18
閱讀 3455·2019-08-29 13:56
閱讀 1252·2019-08-29 11:13
閱讀 2118·2019-08-28 18:19
閱讀 3439·2019-08-27 10:57
閱讀 2273·2019-08-26 11:39