摘要:背景當知道要上傳的視頻資料從條變成條時,我就明白,絕對不能再人工處理了。
背景
當知道要上傳的視頻資料從20條變成100條時,我就明白,絕對不能再人工處理了。他們總是想當然的認為,錄入一條數據需要1分鐘,那錄入20條數據就是20分鐘,錄入100條數據,不就是100分鐘嗎?我有時候,真的很想問問他們,沒有考慮過人是會犯錯的嗎?數據越多,出錯的可能就越大;但是數據本身,又是不允許出現紕漏的。那拿什么去保證數據的正確性?刷臉?可能嗎?
大多數時候,類似的爭論,最終幾乎總是會以他們的一句“我不懂技術,你們看著辦吧”結束。所以,也懶得去做口舌之爭。我盡力盡快做;但是你承不承認事情本身的復雜度,并不會影響事情本身的復雜度。
回到問題本身,究竟如何處理新到來的100條數據以及以后更多的數據,確實是一個必須想辦法徹底解決下的問題。
我拿到的原始數據此處適當象征性的描述下我拿到的數據。以下討論,單以 10 條數據為例。
一個 word 文檔,是一組問題。內容假定是:
1.【smart-transform】取自 Atom 的 babeljs&coffeescript&typescript 智能轉 es5 庫 2.【YFMemoryLeakDetector】人人都能理解的 iOS 內存泄露檢測工具類 3.【玩轉樹莓派】使用 sinopia 搭建私有 npm 服務器 4.【小技巧解決大問題】使用 frp 突破阿里云主機無彈性公網 IP 不能用作 Web 服務器的限制 5.【樹莓派自動化應用實例】整點提醒自己休息五分鐘 6. 借助 frp 隨時隨地訪問自己的樹莓派 7.【LuaJIT版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境 8.【最新版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境 9. 關于混合應用開發(fā)的未來的一些思考 10.記錄我發(fā)現的第一個關于 Google 的 Bug
是的,內容中還有各種中文標點。他們有相當一部分人不理解攻城獅為什么喜歡用英文標點,甚至還有人以此為由說我們小學標點符號沒學好。懶得解釋那么多,但是既然給出來了,作為純文本,也不用管這么多,照單全收就行了。符號習慣問題本身,也是一個無傷大雅的問題。
另一個 word 文檔,是一組問題對應的 Luis 語義分析結果微軟的 Luis 語義分析服務,勉強算是和人工智能沾點邊吧,感興趣的請自行了解下。從客戶端角度來說,你給它一個文本字符串,他們分析出來和這個字符串匹配度最高的某個預錄入的答案的唯一標記。每個唯一標記 ID,被稱作一個 intent。每次請求,最多只有一個匹配度最高的 intent。
感覺已經有的 word 問題,我們的后端小伙伴,送來了另一個 word 文檔:
1. smart_transform 2. memory_leakDetector 3. sinopia_npm 4. frp_ip 5. tip_rest 6. frp_anywhere 7. luajit_macos 8. lua_macos 9. app_future 10. google_bug
又是非結構化的數據。顯而易見,我們可愛的后端同學,只是簡單完成了錄入,自己沒有做必要的單元測試。這是在等著我去發(fā)現問題啊。很久很久以前,我總是幻想著,所有的攻城獅,必然都是各種自動化測試用例,就像樹上寫的各種敏捷,各種快速迭代。事實上,我見到的許多所謂的敏捷式開發(fā),最終其實只是把成本后置,各種技術債。出來混,真的遲早是要換的。100個問題,逐一去驗證,真的是很耗費時間的,而且最終有問題的,數量也不會太多。也就說說,如果手動去做,很有可能尋找問題的時間,要遠遠大于發(fā)現問題的時間。所以,自動化批量測試,是顯而易見的。根據不同的場景和需要,快速構建基本夠用的批量自動化測試工具鏈,應該成為每個攻城獅的必修課。
一組勉強算是有規(guī)律的分文件夾放置的視頻我依然是象征性的描述下,結構類似于:
/videos/樹莓派/【smart-transform】取自 Atom 的 babeljs&coffeescript&typescript 智能轉 es5 庫.mp4 /videos/樹莓派/【YFMemoryLeakDetector】人人都能理解的 iOS 內存泄露檢測工具類.mp4 /videos/樹莓派/【玩轉樹莓派】使用 sinopia 搭建私有 npm 服務器.mp4 /videos/樹莓派/【小技巧解決大問題】使用 frp 突破阿里云主機無彈性公網 IP 不能用作 Web 服務器的限制.mp4 /videos/frp/【樹莓派自動化應用實例】整點提醒自己休息五分鐘.mp4 /videos/frp/借助 frp 隨時隨地訪問自己的樹莓派.mp4 /videos/Lua/【LuaJIT版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境.mp4 /videos/Lua/【最新版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境.mp4 /videos/Lua/關于混合應用開發(fā)的未來的一些思考.mp4 /videos/Lua/記錄我發(fā)現的第一個關于 Google 的 Bug.mp4目標數據要求 intent 必須和問題關聯起來
顯而易見,應該使用 intent 作為數據的唯一 id。為了便于處理,索性寫成了一個 JS 模塊。之所以不直接用 JSON,是因為模塊比 JSON 文件,更靈活性,后期擴展方便,如果有的話。
這一步是必須手動做的,或者說總是需要有一個人手動去做的。為了效率,團隊內總是需要有一個人必須要充當這個角色。
大致處理下,初版結構 intent_info.js 大概類似這樣:
module.exports = { /* 樹莓派 */ "smart_transform":"【smart-transform】取自 Atom 的 babeljs&coffeescript&typescript 智能轉 es5 庫", "memory_leakDetector":"【YFMemoryLeakDetector】人人都能理解的 iOS 內存泄露檢測工具類", "sinopia_npm":"【玩轉樹莓派】使用 sinopia 搭建私有 npm 服務器", "frp_ip":"【小技巧解決大問題】使用 frp 突破阿里云主機無彈性公網 IP 不能用作 Web 服務器的限制", /* frp */ "tip_rest":"【樹莓派自動化應用實例】整點提醒自己休息五分鐘", "frp_anywhere":"借助 frp 隨時隨地訪問自己的樹莓派", /* Lua */ "luajit_macos":"【LuaJIT版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "lua_macos":"【最新版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "app_future":"關于混合應用開發(fā)的未來的一些思考", "google_bug":"記錄我發(fā)現的第一個關于 Google 的 Bug", }排序
排序,是需要增加一個新的字段 order。不過,我就直接上面的類似 JSON 的結構來排序的。因為排序是由另外一個人做,懂技術,操作很簡單些。
經過對方排序后,intent_info.js,可能變成了這樣:
module.exports = { /* 樹莓派 */ "smart_transform":"【smart-transform】取自 Atom 的 babeljs&coffeescript&typescript 智能轉 es5 庫", "memory_leakDetector":"【YFMemoryLeakDetector】人人都能理解的 iOS 內存泄露檢測工具類", "sinopia_npm":"【玩轉樹莓派】使用 sinopia 搭建私有 npm 服務器", "frp_ip":"【小技巧解決大問題】使用 frp 突破阿里云主機無彈性公網 IP 不能用作 Web 服務器的限制", /* Lua */ "luajit_macos":"【LuaJIT版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "lua_macos":"【最新版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "app_future":"關于混合應用開發(fā)的未來的一些思考", "google_bug":"記錄我發(fā)現的第一個關于 Google 的 Bug", /* frp */ "tip_rest":"【樹莓派自動化應用實例】整點提醒自己休息五分鐘", "frp_anywhere":"借助 frp 隨時隨地訪問自己的樹莓派", }
在上面的優(yōu)先顯示。在真正生成 order 字段時,是借助 Node 一個不太可靠的特性: 字典遍歷時,會基于key的書寫順序來遍歷。這一點,在 Node 和 Android 瀏覽器上都是成立的,在 safari 上,無效。一般開發(fā)時,不應依賴于這一點,不過目前,我只是需要一個夠用的東西。Node 的這個特性,在短時間內,應該是不會有改變的。
分類沒過幾天,果然又加了新需求,說是視頻太多了,太雜亂,想給每個視頻加個分類,然后可以按分類查看視頻。
好,那我給你加個分類:
module.exports = { /* 樹莓派 */ "樹莓派":"_category", "smart_transform":"【smart-transform】取自 Atom 的 babeljs&coffeescript&typescript 智能轉 es5 庫", "memory_leakDetector":"【YFMemoryLeakDetector】人人都能理解的 iOS 內存泄露檢測工具類", "sinopia_npm":"【玩轉樹莓派】使用 sinopia 搭建私有 npm 服務器", "frp_ip":"【小技巧解決大問題】使用 frp 突破阿里云主機無彈性公網 IP 不能用作 Web 服務器的限制", /* Lua */ "Lua":"_category", "luajit_macos":"【LuaJIT版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "lua_macos":"【最新版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "app_future":"關于混合應用開發(fā)的未來的一些思考", "google_bug":"記錄我發(fā)現的第一個關于 Google 的 Bug", /* frp */ "frp":"_category", "tip_rest":"【樹莓派自動化應用實例】整點提醒自己休息五分鐘", "frp_anywhere":"借助 frp 隨時隨地訪問自己的樹莓派", }
新加了幾個值為 _category 的字段。當檢測到值為 _category 時,就自動判定為是一個分類。我這種處理方式,免不了引來一陣唏噓。但是,許多時候,你選擇的技術策略,都必須根據項目所處的狀態(tài)和各種條件,去綜合權衡。我只有幾十分鐘時間去重新規(guī)劃和整理100條數據。可能真的沒法想太多。需求總是變化的,不知道明天又會變成什么樣,可能再進一步,就變成”過度設計“了。另外,項目本身, intent 本身約定了自己特有命名規(guī)律,是可以安全認為 intent 和 分類一定不會重復的。
問題和視頻關聯在讀取 intent_info.js 中的足夠可信的結構化數據后,我會動態(tài)建立問題和視頻的關聯。這個過程中,可能需要適當修改問題和視頻的標題。為了避免遺漏,一個標題,如果沒有對應的視頻或對應多個視頻,就直接crash。有些霸道,但總比后期一個一個比對排查,省太多事了。結合問題和視頻標題的特點,我專門封裝了一個方法:
/* 獲取某個標題對應的本地路徑. 為了避免未知錯誤,如果找不到或找到多個,就直接 crash. @return 本地視頻的相對路徑. */ function localVideoPath(title) { let path = require("path") let fs = require ("fs-plus") let fse = require("fs-extra") let os = require("os") let {execSync} = require("child_process") let videoDir = path.resolve(__dirname,"./videos") let videos = fs.listTreeSync(videoDir) .filter(item=>{ return [".mov",".mp4"].includes(path.extname(item)) }) .map(item=>{ return path.relative(__dirname,item) }) /* 一個標題,能且只能對應一個視頻,否則就拋出異常. */ let localVideoPath = null for (let item of videos) { if (item.includes(title)) { if (localVideoPath) { const tip = `致命異常: ${title} 對應的視頻重復: ${localVideoPath} ${item}` throw new Error(tip) } localVideoPath = item } } if (!localVideoPath) { const tip = `致命異常!這個標題竟然沒有對應的視頻: ${title}` throw new Error(tip) } return localVideoPath }見碼如唔
完整的自動化處理成結構數據的邏輯如下,都集中在 make_data.js 中。
/* 生成帶有排序等信息的文件. */ /* 支持自動生成數據. */ makeDataWithOrder() function makeDataWithOrder() { const fs = require("fs-extra") const path = require("path") const intentInfo = require("./intent_info.js") let intentInfoNew = [] let index = 1 /* 在node中遍歷時,key的順序是和原始key的順序對應的. 這個特性,并不總是有效,比如在 ios 瀏覽器中. 目前,僅僅是夠用. */ let category = "" for (let intent in intentInfo) { if (intentInfo[intent] == "_category") { /* 說明是一個分類標記. */ category = intent continue } let title = intentInfo[intent] const local_path = localVideoPath(title) intentInfoNew.push({ "type":"video", "content":"", "intent": intent, "title": title, "order": index, "local_video_path": local_path, "ext": path.extname(local_path), "category":category, }) ++ index } localVideoLoseCheck(intentInfoNew) const dataPath = path.resolve(__dirname, "./data.json") fs.writeJsonSync(dataPath, intentInfoNew) console.log(`恭喜!數據已寫入 ${dataPath}`) } /* 確保視頻總數與intent總數是對應的,防止有視頻遺漏. 有視頻沒有對應問題時,會直接拋出異常. */ function localVideoLoseCheck(intents) { /* 先把視頻信息處理成 key-value. */ let path = require("path") let fs = require ("fs-plus") let fse = require("fs-extra") let os = require("os") let {execSync} = require("child_process") let videoDir = path.resolve(__dirname,"./videos") let videoDict = fs.listTreeSync(videoDir) .filter(item=>{ return [".mov",".mp4"].includes(path.extname(item)) }) .map(item=>{ return path.relative(__dirname,item) }) .reduce((sum,item,idx)=>{ sum[item] = false return sum },{}) for (let item of intents) { videoDict[item.local_video_path] = true } /* 尋找缺失的. */ let loses = [] for (let item in videoDict) { if (!videoDict[item]) { loses.push(item) } } if (loses.length) { const tip = `一下 ${loses.length} 個視頻沒有對應的問題: ${JSON.stringify(loses)}` throw new Error(tip) } } /* 獲取某個標題對應的本地路徑. 為了避免未知錯誤,如果找不到或找到多個,就直接 crash. @return 本地視頻的相對路徑. */ function localVideoPath(title) { let path = require("path") let fs = require ("fs-plus") let fse = require("fs-extra") let os = require("os") let {execSync} = require("child_process") let videoDir = path.resolve(__dirname,"./videos") let videos = fs.listTreeSync(videoDir) .filter(item=>{ return [".mov",".mp4"].includes(path.extname(item)) }) .map(item=>{ return path.relative(__dirname,item) }) /* 一個標題,能且只能對應一個視頻,否則就拋出異常. */ let localVideoPath = null for (let item of videos) { if (item.includes(title)) { if (localVideoPath) { const tip = `致命異常: ${title} 對應的視頻重復: ${localVideoPath} ${item}` throw new Error(tip) } localVideoPath = item } } if (!localVideoPath) { const tip = `致命異常!這個標題竟然沒有對應的視頻: ${title}` throw new Error(tip) } return localVideoPath }
我們在項目目錄執(zhí)行
node ./make_data.js
就可以得到我們想要的結構化的數據:
[ { "type": "video", "content": "", "intent": "smart_transform", "title": "【smart-transform】取自 Atom 的 babeljs:coffeescript:typescript 智能轉 es5 庫", "order": 1, "local_video_path": "videos/樹莓派/【smart-transform】取自 Atom 的 babeljs:coffeescript:typescript 智能轉 es5 庫.mp4", "ext": ".mp4", "category": "樹莓派" }, { "type": "video", "content": "", "intent": "memory_leakDetector", "title": "【YFMemoryLeakDetector】人人都能理解的 iOS 內存泄露檢測工具類", "order": 2, "local_video_path": "videos/樹莓派/【YFMemoryLeakDetector】人人都能理解的 iOS 內存泄露檢測工具類.mp4", "ext": ".mp4", "category": "樹莓派" }, { "type": "video", "content": "", "intent": "sinopia_npm", "title": "【玩轉樹莓派】使用 sinopia 搭建私有 npm 服務器", "order": 3, "local_video_path": "videos/樹莓派/【玩轉樹莓派】使用 sinopia 搭建私有 npm 服務器.mp4", "ext": ".mp4", "category": "樹莓派" }, { "type": "video", "content": "", "intent": "frp_ip", "title": "【小技巧解決大問題】使用 frp 突破阿里云主機無彈性公網 IP 不能用作 Web 服務器的限制", "order": 4, "local_video_path": "videos/樹莓派/【小技巧解決大問題】使用 frp 突破阿里云主機無彈性公網 IP 不能用作 Web 服務器的限制.mp4", "ext": ".mp4", "category": "樹莓派" }, { "type": "video", "content": "", "intent": "luajit_macos", "title": "【LuaJIT版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "order": 5, "local_video_path": "videos/Lua/【LuaJIT版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境.mp4", "ext": ".mp4", "category": "Lua" }, { "type": "video", "content": "", "intent": "lua_macos", "title": "【最新版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境", "order": 6, "local_video_path": "videos/Lua/【最新版】從零開始在 macOS 上配置 Lua 開發(fā)環(huán)境.mp4", "ext": ".mp4", "category": "Lua" }, { "type": "video", "content": "", "intent": "app_future", "title": "關于混合應用開發(fā)的未來的一些思考", "order": 7, "local_video_path": "videos/Lua/關于混合應用開發(fā)的未來的一些思考.mp4", "ext": ".mp4", "category": "Lua" }, { "type": "video", "content": "", "intent": "google_bug", "title": "記錄我發(fā)現的第一個關于 Google 的 Bug", "order": 8, "local_video_path": "videos/Lua/記錄我發(fā)現的第一個關于 Google 的 Bug.mp4", "ext": ".mp4", "category": "Lua" }, { "type": "video", "content": "", "intent": "tip_rest", "title": "【樹莓派自動化應用實例】整點提醒自己休息五分鐘", "order": 9, "local_video_path": "videos/frp/【樹莓派自動化應用實例】整點提醒自己休息五分鐘.mp4", "ext": ".mp4", "category": "frp" }, { "type": "video", "content": "", "intent": "frp_anywhere", "title": "借助 frp 隨時隨地訪問自己的樹莓派", "order": 10, "local_video_path": "videos/frp/借助 frp 隨時隨地訪問自己的樹莓派.mp4", "ext": ".mp4", "category": "frp" } ]參考文章
【趣味連載】攻城獅上傳視頻與普通人上傳視頻 源碼工程
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規(guī)行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/11044.html
摘要:還有就是,我拿到的第一手數據,也不是什么結構化數據,而是一個表格,和一個分散在多個文件夾下的視頻資源。原來只有約個視頻,都是交給普通人上傳的。一生成結構化數據講述的是,數據如何從普通的文檔數據,變成最終可被程序化處理的過程。 前言 我想寫一個簡單的系列文章。主題很簡單,就是記錄下面對上傳視頻需求時,攻城獅和普通人(泛指所有非技術人員)的一些區(qū)別。當然,從需求分析到最終完整實現,每個步驟...
摘要:還有就是,我拿到的第一手數據,也不是什么結構化數據,而是一個表格,和一個分散在多個文件夾下的視頻資源。原來只有約個視頻,都是交給普通人上傳的。一生成結構化數據講述的是,數據如何從普通的文檔數據,變成最終可被程序化處理的過程。 前言 我想寫一個簡單的系列文章。主題很簡單,就是記錄下面對上傳視頻需求時,攻城獅和普通人(泛指所有非技術人員)的一些區(qū)別。當然,從需求分析到最終完整實現,每個步驟...
閱讀 3042·2021-09-03 10:33
閱讀 1269·2019-08-30 15:53
閱讀 2617·2019-08-30 15:45
閱讀 3378·2019-08-30 14:11
閱讀 526·2019-08-30 13:55
閱讀 2580·2019-08-29 15:24
閱讀 1904·2019-08-26 18:26
閱讀 3557·2019-08-26 13:41