摘要:而就在這個時候,國內也有一個新消息曝出釘釘已正式成立音視頻事業部,還下設釘釘蜂鳴鳥音頻實驗室,由技術大拿馮津偉直接負責。
前腳Facebook改名Meta,后腳微軟也在會議軟件上搞出XR新花樣。
這波元宇宙熱度燒得太旺,個中真假虛實著實讓人難以辨別。
而就在這個時候,國內也有一個新消息曝出:
釘釘已正式成立音視頻事業部,還下設釘釘蜂鳴鳥音頻實驗室,由技術大拿馮津偉直接負責。
這個時間節點,瞄準的又是國際大廠紛紛打上“元宇宙”標簽的在線會議場景,釘釘此舉立即引得這樣一種說法甚囂塵上:
釘釘這個新實驗室的研發目標,指向的就是元宇宙。
啊?這意思,我以后不會要在元宇宙里遲到了吧。
個中真相,是有必要進一步搞清楚。
話不多說,我們立即著手聯系了新聞中提到的新實驗室一號位——聲學大拿馮津偉博士。
來,真假虛實,我們一問究竟。
馮津偉博士首先向我們確認,釘釘確實多帶帶成立了音視頻事業部,并且下設音頻實驗室,網羅各路博士研究員的那種。
這加碼音視頻業務的意圖明明白白。不過在更靠近業務側的釘釘設立一個研究型實驗室,到底有些出人意料。
核心的問題就是:釘釘成立這個 “實驗室”,具體是要研究什么?關注哪個方向的前沿技術?
圍繞這一點,馮津偉博士向我們透露了他和團隊的幾個“小目標”:
其一,針對線上會議場景的最大痛難點,將對應的前沿音頻技術論文算法,在釘釘進行落地,提升音視頻產品體驗與競爭力。
例如,用目前常見的會議軟件在高鐵上、地鐵中緊急開會,往往會出現信號極不穩定,說話人卡頓、掉線的情況。
現在,蜂鳴鳥音頻實驗室正在針對這種情況設計“高鐵模式”音頻方案,從聲學原理、信號處理到軟硬件產品全流程進行技術研發,力圖真正解決線上會議網絡不穩定的問題,包括采用電腦自帶的麥克風等通用收音硬件的情況。
其二,透過釘釘,把經過驗證的成熟技術開放給行業伙伴。
例如研發獨立音視頻模組,把釘釘音視頻會議的產品技術、AI能力等封裝成一個硬件化的SDK,硬件可以接上模組,實現設備的智能化升級;
其三,進行“下一代音視頻形態研究”,如XR。
如此看來,這個“蜂鳴鳥實驗室”的研究路徑,其實已經很明確:既有研究成果——轉化為產品結果——向行業開放——深化研究。
而這也就是為什么,釘釘會請來馮津偉坐鎮新實驗室:
這位負責人本科、碩士分別畢業于南京大學無線電物理專業、聲學研究所,還是南洋理工大學電子信號處理碩士、弗吉尼亞理工大學聲學博士。
加入阿里巴巴前,馮津偉曾在公認的全球視頻會議設備“黃埔軍校”——寶利通(Polycom)擔任首席工程師。以他為核心貢獻者的團隊,成功研發了世界上首臺音視頻會議行業的智能攝像機。
可以說,他在聲學和信號處理方面的雙重背景,使其在世界音頻研究領域備受關注。
2017年加入達摩院之后,馮津偉博士也繼續著聲學與信號處理方面的研究。并且不僅是學術研究,事實上從2017年起,馮津偉就已經負責起阿里內部音頻與聲學相關算法的結合應用。
最經典的落地案例,就是支持釘釘F1音視頻一體機的打造,將語音3A算法(主要負責音頻降噪和增益)應用到智能硬件中。
除此之外,釘閃會的會議轉寫“閃記”項目、遠程教育的“專遞課堂”項目、釘釘音視頻一體機“F2”項目……背后也均有馮津偉所在達摩院團隊技術方案的身影。
結合兩方面的信息,釘釘成立“實驗室”這一看上去不合常情的舉措,也就有了更為明確的解釋:
相比更側重于基礎理論型研究,蜂鳴鳥音頻實驗室主打應用型研究——研究方向與釘釘音視頻的場景結合更為緊密。
馮津偉博士表示,這其實也是云釘一體給釘釘帶來的更深入的價值——從橫向支持到走進來專項做業務。
“因為釘釘這個獨特的商業環境,每一項技術都直接能被用戶感知到,所以蜂鳴鳥音頻實驗室的風格會在技術的理想主義和現實主義之間。我們的定位是研究‘領先半步到一步’的技術,既具有領先性,又能落地。”馮津偉這樣解釋。
并且具體到團隊本身,研究基礎早已具備,實驗室成立亦能加速技術的聚攏和落地。
說到這里,最關鍵的問題也可以展開解答了:
這個時間節點,明確提出瞄準“下一代音視頻形態研究”,還和產品結合如此緊密,釘釘莫非真的如外界所猜測,要在微軟Meta之后,加速沖向元宇宙了?
馮津偉博士的答案很明確:否。
他指出,XR是蜂鳴鳥音頻實驗室的一個研究方向,但實驗室的核心目標還是圍繞音頻的基礎能力建設與創新,最優先要做的,還是改善釘釘音視頻的軟硬件體驗。
甚至歸納起來時,釘釘蜂鳴鳥音頻實驗室成立的真實原因,比想象中要更加樸素——
無論是從自身業務角度、還是從整個行業來看,音頻都是一塊必須要補的技術“短板”。
在馮津偉看來,站在行業角度,音頻技術在會議場景下其實還有很大的發展空間。甚至“音頻技術研發的優先級應該大于視頻技術”。
他引用了音視頻行業的一句名言:
No video, people talk; no audio, people walk.(即使沒有視頻,人們還能在會議中聊天;但沒有音頻的話,人們就只能散會了)
而包括弱網場景、3D音頻、個性化降噪在內的音頻技術,其實更是下一代交互技術(如跟元宇宙緊密結合的XR)的核心體驗要點。
但目前的現狀卻是,像微軟、Meta這樣的大型互聯網公司,在視頻技術上已經有不少儲備。相比之下,大部分會議軟件在音頻技術上,投入都相對較少,整體也還沒有太大的動作。
一個最常見的場景就是開會,我們在開視頻會議時,如果用的是手機、電腦自帶的麥克風,就會發現稍遠一點距離就聽不清了;有幾個人爭論,AI速記軟件就傻傻分不清楚了,一堆看不懂的文字紀要出來了;如果會議室混響很大,別說AI速記軟件,回音的影響下,人也是聽不清了。
這是音頻研究上最基礎的拾音問題。無論是視頻會議,還是語音識別,除非對著麥克風說話,都會面臨這項難題。
實際上,遠場拾音一直是業界的難點與痛點,挑戰來自在閉空間中的混響、噪聲、回波,其中去混響曾被美國工程院列為“當代未解決的十大工程問題之一”,學術界和工業界已經研究了幾十年,目前仍沒有完美的解決方案。
所以,蜂鳴鳥音頻實驗室接下來重點要做的,就是在更基礎的音頻技術上進行突破,并從這個角度出發,改變釘釘、釘釘合作伙伴直至產業的現狀。
背后的具體技術路線,也已經可以從團隊研發儲備中推測出來。
比如針對前文中遠場拾音的麥克風陣列技術,這一技術主要負責聲音信號的定位和提取。光是去年一年,馮津偉所在的大團隊就在INTER-SPEECH等國際音頻頂會上,主導發表了系列論文6篇,均與自研的“指向性差分麥克風陣列”技術有關。
這項研究首次將麥克風聲學特性和差分波束理論的優勢進行結合,明顯改善了語音低頻拾音的魯棒性,將差分波束在低頻段的白噪聲增益明顯提升,并將遠場拾音的語音識別準確率提升至行業TOP 1,比第二名高出7%~9%。
另外,以差分陣列為載體,馮津偉團隊還和相關團隊合作,提出了業界首個利用差分陣列計算空間方位信息,用于角色分離的技術框架。也積極參與了業界首個基于指向性麥克風陣列的大規模遠場語音開源數據集建設。
還有語音3A算法。
馮津偉團隊會將達摩院Fullband 3A快速在釘釘落地,這項算法對會議拾音的3個核心能力做了深度優化:
優化主講增益(AGC)。實測3米以外10dBFS的聲音可增益至22dBFS,距離主機5米的地方講話,對方依然可以聽得很清楚。
優化回聲消除(AEC)。能有效消除99%由揚聲器外放聲音經空間傳播后產生的回聲,人聲失真控制在3%以內;實現房間自適應,可以智能檢測房間混響,實現雙講透明。
優化噪聲抑制(ANS)。能夠抑制特定的噪聲,比如壓制主講人旁邊的人聲和會議室常見的空調、鼠標、鍵盤、翻書等噪音,確保傳遞出的聲音更純凈。
這一算法目前已經應用在釘釘F1視頻會議一體機,以及合作伙伴的產品上。借助這一算法,相關產品在音頻質量主觀盲測MOS等得分,遠超同段位視頻會議設備。可以說是同類產品中的性價比之選。
……
技術儲備顯然已經就位,思路亦清晰明朗。從這個角度來說,釘釘加碼音視頻技術這一舉動,似乎也值得被重新評估。
無疑,元宇宙是當下最火科技熱詞,而釘釘的會議場景,又恰恰是巨頭們紛紛看好的元宇宙應用陣地。
技術、場景對口,又背靠阿里這樣的大集團,乘概念之勢提前搶占生態位,聽上去倒也是業內的常規操作。
但或許,恰恰是在概念滿天飛之時,才更應該冷靜思考,什么才是現有技術能直觀改變用戶體驗之處,什么才是行業最急需的技術進步。
釘釘單純加碼音視頻,又著重選擇了音頻這個更不容易被“看”到的賽道,看似逆潮流,但反過來說,焉不是一種對自身定位的明確,一種技術底氣的體現。
說到這里,吃瓜已畢:釘釘確實加碼了音視頻,但進軍元宇宙——還不到這份上。
話說回來,雖然不是直指元宇宙,但正如前文所說,音頻等技術同樣是保障元宇宙交互體驗的基礎。釘釘音視頻將開放建生態作為重點,或許反而能在元宇宙的未來風向里站穩自己的生態位。
而且,馮津偉也強調,有了音頻實驗室的中間環節,釘釘接下來與達摩院語音、視頻、視覺、XR等相關實驗室的合作將會更深入,畢竟同為研究人員,更有共同話題嘛(手動狗頭)。
不過,釘釘的選擇,卻也引發了新一層思考:
跟風熱度,而缺少對行業本質的洞察,恐怕會在愈發擁擠的賽道之中,偏離自身的航向。
stop doing list,未為不可。
你覺得呢?
最后的最后,馮津偉博士還向我們透露了一個訊息:
釘釘蜂鳴鳥音頻實驗室啟動階段,人才需求旺盛。
感興趣的小伙伴可以投起來了。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/123691.html
摘要:往年回顧氪研究院長期追蹤一級市場行業動態,深入調研各領域細分賽道最具代表性的企業,從行業發展環境成長性競爭格局未來趨勢等角度進行分析與研究,輸出了包含人工智能金融教育醫療交通文娛電商泛科技在內的上百份報告。 showImg(http://upload-images.jianshu.io/upload_images/13825820-d8888a77e920c16f.jpg?imageM...
摘要:不同瀏覽器下的限制策略和方案的整理端瀏覽器的限制策略和應對方案使用在端測試的瀏覽器包括瀏覽器瀏覽器瀏覽器瀏覽器限制策略內容參考自年月份發布的正式關掉了聲音自動播放靜音自動播放總是允許的。 不同瀏覽器下 autoplay 的限制策略和方案的整理 PC 端瀏覽器的限制策略 和 應對方案 使用 Mac 在 PC 端測試的瀏覽器包括 Chrome 瀏覽器 Safari 瀏覽器 Firefox...
王菊 這波熱點來得莫名其妙啊,讓我們這些 菊外人 一臉懵逼。 showImg(https://segmentfault.com/img/remote/1460000016404968?w=600&h=1035);showImg(https://segmentfault.com/img/remote/1460000016404969?w=600&h=317);showImg(https://segm...
閱讀 2106·2021-11-18 10:02
閱讀 2859·2021-09-04 16:41
閱讀 1148·2019-08-30 15:55
閱讀 1414·2019-08-29 17:27
閱讀 1085·2019-08-29 17:12
閱讀 2538·2019-08-29 15:38
閱讀 2861·2019-08-29 13:02
閱讀 2836·2019-08-29 12:29