摘要:截至目前,平臺上的算法和數據挖掘工程師面試邀請數占到全部崗位的比例僅有左右。在一家互聯網金融公司從事算法和數據挖掘相關工作,聽起來就是一項復雜的工作。這意味著,互聯網金融的算法和數據挖掘需要以壞賬為代價。
「實在太難了,但現在也沒有很好的辦法。」
當話題轉向「算法工程師的招聘」時,TalkingData 首席數據科學家張夏天不免面露難色起來。而在此之前,談論起算法和數據挖掘等具體業務時,他還滔滔不絕、興致勃勃。
不只是張夏天,自去年 10 月以來,不止一位技術 Leader 曾向我吐過「招聘算法工程師難」的苦水。盡管「算法」背后代表的是「人工智能、機器學習」等被看作是未來發展方向的前沿技術,但招聘相關領域人才確實是擺在不少創業公司面前的一道難題。
100offer 的平臺數據也側面論證了這一點。截至目前,100offer 平臺上的算法和數據挖掘工程師面試邀請數占到全部崗位的比例僅有 6% 左右。整個互聯網世界,算法和數據挖掘工程師比例也差不多這個數字。
與此同時,一個可以觀察到的事實是,隨著人工智能和機器學習的逐漸火熱,企業對算法和數據挖掘崗位的技術人才需求是逐步增多的,且相較其他崗位的招聘需求,其增長速度更快。
一.
天平的一端是,越來越火熱的大數據、人工智能領域帶來的人才需求增多,另一端卻是人才相對的稀缺,這就形成了目前算法和數據挖掘工程師招聘難的現狀。
但具體原因是什么呢?在與幾位大數據公司的技術 Leader 溝通后,我抽象總結出了這兩點:
人工智能起步晚,底蘊薄,很難有行業資深人才
對人才招聘難的苦水,大多集中在「很難有資深人才」上。這是一個無法回避的事實。
人工智能的確不是一個新鮮名詞。早在上世紀 50 年代,就有科學家提出了「人工智能」的概念,但人工智能真正從一個概念、一個研究方向,演變成一項被認為是可以落地實現的技術,僅僅是過去不足 10 年時間。很多時候,人工智能在大眾的眼里最生動的形象仍停留在,去年在圍棋項目上擊敗李世石的 Google AlphaGo。
在這樣的前提下,要想發現一名在算法和數據挖掘領域擁有五年以上工作經驗的技術人才實屬困難——沒有哪一家公司不希望擁有資深技術人才,作為整個團隊的支柱。不少公司都坦言,團隊大數據相關領域人才工作經驗三年以下占到 60%。
不同行業區別大,要求嚴苛
作為人工智能的核心,機器學習是一套能應用于各個行業的基礎技術。通常情況下,機器學習不會以純粹的形態出現,而是與圖形圖像識別、個性化推薦、互聯網金融等等具體業務結合。
不同業務代表了不同的行業,也能誕生不同創業公司。盡管運用的底層技術核心都是機器學習,但彼此之間差別甚大。
通常情況下,一個理想的算法和數據挖掘工程師候選人是,既有機器學習理論知識、算法和數據挖掘實踐經驗,又有 Ta 想要從事的具體行業的所要求的基本知識和能力,例如計算機視覺能力、內容分發知識、互聯網金融知識等等。
顯然,這樣嚴苛的要求可能會阻礙不少希望從事相關崗位的技術人才——過往的工作經驗也許只能滿足其中一至兩項標準。
二.
招聘難的另一面,顯然是意欲從事算法和數據挖掘崗位的技術人才的巨大機會。對候選人來說,有哪些可行的選擇呢?
這里,100offer 選擇了一點資訊、宜信大數據研究中心、格靈深瞳、TalkingData 四個團隊——分別代表當下機器學習典型的「內容分發、互聯網金融、圖形圖像計算機視覺、大數據服務」四個不同應用領域——作為研究標的物。
在與四家公司的技術 Leader 溝通后,看看這四家公司的特點和難點,權當是拋磚引玉,或許可以作為你選擇時的參考。
一點資訊
某種意義上,一點資訊是一家依賴于算法技術的創業公司。
一點資訊技術 Leader 這樣解釋這一點,「舉個例子,與電商行業相比,淘寶去掉所有機器學習的算法,依然值 1000 億美金。但在內容分發行業,去掉算法,整個行業就倒退到 10 年前,不值錢了。」
可以說,算法驅動了整個內容分發行業向前發展,一點資訊自然也身處其中。在一點資訊技術 Leader 王元元眼里,這成了一點資訊的優勢,也是一大難點。
優勢在于算法驅動帶來的「個性化推薦」如新鮮糖果一般,吸引了早已習慣將自身全部碎片時間「傾注」到手機屏幕的普羅大眾。相比起過往閱讀千篇一律的內容,為每一個用戶推薦獨一無二的內容——這一機器學習算法在內容分發行業的外在產品形態,給予了人們十足的新鮮感。
估值 110 億美元的今日頭條,證明了資本對這一行業持有的巨大想象力。作為追趕者身份的一點資訊,也享受到了資本和用戶的目光。
對一個相關行業從業人員來說,沒有什么比「這代表了未來」更能興奮的了。更何況,算法和數據挖掘工程師恰恰是內容分發行業未來的基礎。
但與此同時,個性化推薦帶來的一大可能的弊端是,機器發現人性的特點讓所謂低俗、娛樂的消遣性內容當道,這消磨了一部分用戶的信任,也給從業者帶來了挑戰——誰能解決這一弊端或許就能走得更遠。
王元元認為,本質上,整個內容分發行業都推崇的「個性化推薦」背后運用到的技術和方法,大同小異。一點資訊想出的差異化方法是,在消遣性內容之外,強調價值閱讀,為用戶引導一些他們可能感興趣的垂直性有價值的內容。這在一點資訊內部被稱作「興趣探索」。
短期來看,這些內容的點擊率不一定特別高,但對用戶的長期留存卻有幫助。更重要的是,對一點資訊來說,它們符合公司整體「培養用戶閱讀品味」的價值觀,也有利于構建一點資訊的競爭差異性。
宜信大數據創新中心
宜信大數據創新中心可能是互聯網金融領域,與機器學習走得最近的團隊,旗下 4 款產品都是機器學習的產物——理財平臺「指旺理財」和小額信貸服務「商通貸」的內在技術是構建在算法模型之上的用戶畫像征信和個性化推薦,風控引擎「姨搜」則更是大數據技術的集中體現。
在一家互聯網金融公司從事算法和數據挖掘相關工作,聽起來就是一項復雜的工作。宜信大數據創新中心技術總監鄭赟表達了同樣的意思,「和其他大數據公司不同,互聯網金融具有不可避免的特點——數據獲取周期長、成本高。」
眾所周知,大數據的基礎是數據,沒有數據,就無從談起算法和數據挖掘。對互聯網金融行業來說,每一個樣本數據就是一筆信貸業務。短則半年、長則數年的信貸周期,使得宜信大數據創新中心獲取數據的周期特別長。這是其一。
其二,對互聯網金融領域的機器學習來說,模型訓練的一個目的是識別壞賬樣本,提前控制風險。但沒有遇到過壞賬樣本,機器是無法被訓練出具備識別其他壞賬樣本的可能性。這意味著,互聯網金融的算法和數據挖掘需要以壞賬為代價。
但顯然,一旦遇到壞賬樣本,就意味著業務虧本。「很有可能 1 個壞樣本需要 100 個好樣本才能抵消虧損」,這意味著,宜信大數據創新中心獲取數據的成本遠超其他行業的高。
這項技術挑戰顯然給宜信大數據創新中心提出了更高的標準——從算法和數據底層研究上,更為細致謹慎,才能將這樣的風險降至較低。
硬幣的另一面,鄭赟表示,「互聯網金融領域的數據,盡管不如電商或內容分發行業的頻率高,但它信息更豐富,也更有價值,也更有利于從業人員的研究。」
格靈深瞳
印象里,格靈深瞳是一家專注在計算機視覺的大數據創業公司,圖形圖像識別、安防、機器人、無人駕駛等都是格靈深瞳的研究方向。
去年底,格靈深瞳還推出過一款基于人眼工作原理的攝像機——深瞳人眼攝像機。甚至,還曾拉來前英特爾中國研究院院長吳甘沙,聯合成立馭勢科技公司,專注研究無人駕駛視覺的解決方案。
看起來比其他公司更多的動作背后,格靈深瞳技術副總裁解釋稱,這是因為格靈深瞳不愿意將自己定義為算法公司,而是一家提供視頻大數據產品和解決方案的公司。
產品和解決方案占據了格靈深瞳很大的重心。格靈深瞳 CTO 鄧亞峰認為,目前這個時間點,人工智能還不具備成為一種通用的能力。「算法是無法多帶帶成立的,它必須融入到具體產品和解決方案上,才能存在意義。而這也讓格靈深瞳才能具備行業競爭力。」
但對格靈深瞳來說,產品和解決方案并非易事一件,更何況它是四家團隊中一家需要硬件產品的團隊。即使去年推出了人眼攝像機「深瞳」,但實際效果和市場反響,其實遠達不到支撐起整個團隊的行業競爭力。甚至,機器人、無人駕駛,聽起來都是至少 5 年才能有產品真正落地實現的領域。對一家創業公司來說,時間可能也是一項難題。
TalkingData
作為一家大數據服務公司,TalkingData 并沒有與圖形圖像、內容分發等具體業務相結合。但 TalkingData 卻有大數據研究得天獨厚的優勢——海量數據。
首席數據科學家張夏天說:「TalkingData 最不缺的就是數據。」TalkingData 官網顯示,目前已經覆蓋 51 億款移動終端——每一款移動終端都可以看作是一份數據。這些數據可被應用到用戶畫像、市場營銷、風險控制、情景識別等等多種使用途徑。
舉個例子,當知道設備信息,需要猜測背后使用者的年齡、性別等信息時,機器學習就派上了用場。此時,算法和數據挖掘工程師就需要就已知的數據信息,搭建起一套行之有效的模型,并訓練機器進行之后的工作。而一旦這些用戶信息被猜測出,則可以被應用到用戶畫像、市場營銷等領域。
既然算法和數據挖掘工程師,每天的使命便是與數據打交道,拋開具體行業,單純研究數據顯然同樣有價值。甚至,對不少感興趣算法和數據挖掘崗位的工程師而言,進入一個不需要具體行業經驗的領域,是一件吸引力不錯的機會。
三.
在看過四家公司的特點后,具體來說,技術負責人們對算法和數據挖掘工程師有怎樣要求呢?事實上,他們對候選人提出的要求大致相同:
基礎工程能力強,語言并非
偏向計算機底層系統研究的 Java、C++ 語言是技術負責人比較青睞的,但語言并非選擇一名候選人的標準。就拿宜信大數據創新中心舉例,一段時間,它們需要 Go 語言工程師,但卻沒有苛求這一點。
相較于語言,技術負責人更看重的要求是,候選人的基礎工程能力,即代碼能力。在自己擅長的領域里有深刻的理解和研究,是技術負責人們欣賞的品質。擁有這一品質,通常代表了,未來學習新語言和技術,都是水到渠成。
理解算法和數據挖掘理論知識
由于行業起步晚,很多時候,候選人并沒有太多算法和數據挖掘的實踐經驗。因此,對算法和數據挖掘理論知識的理解就成為了重要考慮因素。
畢竟,擁有理論知識的理解,候選人一方面能快速融入崗位,另一方面也代表了候選人是真正愿意熱愛大數據和機器學習研究。
看重潛力培養,而非現有能力
意外的是,這四家公司都愿意招聘應屆畢業生,或者是高校研究所的研究人才。這在一個相對尖精的行業并不多見。
這其實還是要歸因到人工智能行業的起步晚,以及算法和數據挖掘工程師的招聘難題。在技術 Leader 們看來,「現在會什么」并不重要,候選人將來能會什么才更重要。
在這樣的情況下,有潛力的候選人反而能獲得青睞。而「有潛力」,不只是應屆畢業生,也包括其他想轉行數據和算法挖掘領域的技術人才。
優秀的基礎職業素養和迎接挑戰的心態
事實上,在技術負責人眼里,學習能力、自我驅動力、邏輯分析能力等基礎職業素養,在招聘時占有比較大的比重。
算法和數據挖掘代表的大數據,依然是一個新興的行業,困難和挑戰不可預期,優秀的基礎職業素養,能保證候選人有直面挑戰的良好心態。這是技術負責人一致看好的。
四.
人工智能是什么?
100offer 這樣認為,「人工智能是未來十年互聯網的基礎,就如當下的互聯網之于每個人一樣」。
如此,算法和數據又是什么?人工智能賴以維系的條件,自然也是未來互聯網基礎的基礎。這并非夸大說法。在與四位技術負責人溝通時,他們都表達了相似的說法。
兩個月前,100offer 曾在《從技術 Leader 的招聘需求看,如何轉崗為當前緊缺的大數據相關人才?》一文中探討了,大數據領域下「大數據平臺/開發工程師」的機會和選擇。本文聚焦在大數據領域人才的第二大分支「算法和數據挖掘工程師」,探討了其機會和選擇。
100offer 以兩篇文章的篇幅,正是想強調一個觀點——未來的互聯網是建立在人工智能及大數據算法之上。盡管時下不到 5% 的技術人才在從事算法和數據挖掘工作,但如果放眼未來,這一數字一定會變得更多,甚至數據挖掘和算法分析會成為互聯網技術人才的必修技能。
諸多筆墨都闡釋了一個現象:當下仍處在人才井噴的初期。與之對應的是,行業需求旺盛、供給緊缺,多元發展、選擇領域眾多,以及技術 Leader 對人才的要求相對放寬、看重潛力和學習而非當下能力......種種的一切,似乎都為每一個想要進入數據挖掘和算法分析領域的人提供了便利。
正如 150 多年前美國西部的淘金者,越早進入,機會越大。或許,現在就是一個「成為一名算法和數據挖掘工程師」不錯的時機。
歡迎加入本站公開興趣群商業智能與數據分析群
興趣范圍包括各種讓數據產生價值的辦法,實際應用案例分享與討論,分析工具,ETL工具,數據倉庫,數據挖掘工具,報表系統等全方位知識
QQ群:81035754
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/4516.html
摘要:因此,當公司上市之后,該公司認為這是一項重大的任務。公司是全球領先的智能手表品牌之一,由于市場競爭日益激烈,導致該公司的經營逐漸陷入困境。云計算技術并不適用于所有公司,但越來越多的公司意識到云計算可以幫助他們發展業務,并實現目標。以下是成功實施云計算的6家大公司。1.通用電氣通用電氣(GE)于2014年開始進行數字化轉型,但在三年之后,通用電氣選擇亞馬遜網絡服務(AWS)作為其首選的云計算提...
摘要:面試從開始準備到一直到年月份,面試現在這家公司,大概經歷了年半的時間。后邊也證明自己選擇是對的。,,,,等也是測試必備的工具技能,這些雖然不是很難,但也是常用必備的技能。 ...
摘要:負責構建分布式壓力測試框架,穩定性測試框架。但同時,這些獨立的模塊最終會形成這一個整體。分布式一致性算法,現在無非就是兩類,和,我們選擇了。對各個模塊進行詳細的測試,使用等對系統進行注入測試。設計并實現性能回歸測試平臺。 上周我們推送了?TiDB 團隊職位解讀文章,當天就有很多簡歷砸來,我們深深感受到了小伙伴們的熱情~ 趁熱打鐵,今天我司首席架構師唐劉老師將帶大家了解一下傳說中「面試通...
摘要:面試的心得體會簡歷制作我做了兩份簡歷,用兩個手機賬號,兩個簡歷名字,分別在各個招聘網站投了雙份簡歷,一個是數據分析的簡歷一個是全棧開發的簡歷,我真正接觸快年,不管是學習還是工作學到的東西,這兩年大概掌握了前端爬蟲數據分析機器學習技術, showImg(https://upload-images.jianshu.io/upload_images/13090773-b96aac7e974c...
閱讀 2331·2021-11-24 10:27
閱讀 3576·2019-08-30 15:55
閱讀 3340·2019-08-30 15:53
閱讀 2341·2019-08-29 17:27
閱讀 1427·2019-08-26 13:47
閱讀 3547·2019-08-26 10:28
閱讀 912·2019-08-23 15:59
閱讀 2849·2019-08-23 15:19