摘要:內容中的少即是多除了設計,內容上有時我們也追求少即是多。算法與數據中的少即是多我還是希望自己寫的東西有一點技術性,所以想在最后提提算法與數據中的少即是多概念。至此,我們得到一個更加干凈的小字典,但是少即是多,他的分詞效果非常好。
每天被形形色色的信息包圍著,看十幾條來自Facebook的消息,刷上百張Instagram的照片,快速跳過百來個Snapchat的故事,仔細閱讀一下Wechat的公眾號和朋友圈,睡前點開Zaker上有趣的新聞推薦讀一讀。接收到的信息越多,使用手機頻率越大,越明白“少即是多”這個話在設計,內容以及算法數據上的重要。
其實這個文章我主要想記錄一個聽到的數據降噪的故事,想看的可以跳過前兩段。
設計中的少即是多
“少即是多”最早就在設計界被人提起,實體產品中有一個出名的例子就是無印良品。他們主打無標示,少設計的家用產品,功能上全心解決生活痛點。正是他們對生活文化的理解,造就了市值7000億日元的品牌。
互聯網也充滿了“少即是多”的產品,Tinder有著像紙牌一樣的界面,每個界面上的功能都及其簡單,就像紙牌一樣一目了然。你可以把紙牌理解成一個個stories,在某些互聯網產品上進化為newsfeed,但是傳統的紙牌模式比newsfeed更有助于你拋開干擾,快速的作出決定。
另一個最近常常談到的產品就是snapchat,每當你看到視頻或圖片時都處于全屏狀態,一方面可以說他們沒有Design,一方面也可以說他們有最簡單的Design。這種做法給他們帶來了極大的廣告完成率,因為用戶很難意識到的自己在看廣告。大屏幕的表現手法以及龐大的年輕人用戶群對電影,體育,游戲相關類的廣告有著很大的轉換率。
內容中的少即是多
除了設計,內容上有時我們也追求“少即是多”。多顯得雜,比如快手,內容雖多但不值錢。少有時能體現品牌,比如米未,擁有《奇葩說》A輪融資20億。上億的節目點擊率和網絡口碑以外,還造就了240萬粉絲的馬薇薇,顏如晶等網絡名人。內容營銷,有時在精不在多。
同時看看坐擁4.5億用戶的今日頭條,盡管活躍用戶不如某些門戶網站,但是用戶的流量消耗很大。他們所強調的精準推送與無限刷新,讓你第一眼看到的內容少而精。盡管因為他們算法的不足,我已經把他們的app刪掉了,但還是不得不承認他們獲得的成功。
算法與數據中的少即是多
我還是希望自己寫的東西有一點技術性,所以想在最后提提算法與數據中的“少即是多”概念。直白的說,算法上時間復雜度少,那么能處理的數據就多,數據中的噪音少,那么你從數據中提煉出來的規則就更加準確。Quora上知名問題“你在工作中應用機器學習學到的最重要的一課是什么”當中提到重要一點就是確定你的數據是干凈并且高質量的;大數據的性感充滿危險。
其實寫這個文章我主要是想記錄Google做CJK分詞的算法中降噪的例子。中文分詞最大的難處就是在于有歧義,就像Matrix67在他的“漫話中文分詞”文章中提到的“北京/大學生/前來/應聘”有可能被理解為“北京大學/生前/來/應聘”。目前CRF算法是公認的最好算法,但實際效果也基于訓練模型和數據。
通過最大化概率來分詞是最簡單的模型,假設我們知道每一個詞在網上的出現概率,P(北京)>P(北)*P(京),P(清華大學)>P(清華)P(大學),那么我們可以通過最大化概率知道:
北京清華大學->北京/清華大學
可是簡單的最大化概率模型很難解決stopword對分詞產生的影響,比方說“的確定不下來”很容易被理解為“的/確定/不/下來”。所以Google采用了上下文關聯的統計模型,對于任意兩個詞語考慮他們一起出現的概率,比如比較P(確定|的)和P(定|的確)。
Google黑板報講了他們的算法,但是并沒有講他們如何對海量數據降噪。他們想到的方法非常簡單,那就是對原始數據分詞再分詞。
例如用戶輸入“王二小明白展堂”,這里我想表達“王二小明白展堂”。但因為并不常見,所以每個詞語的上下關聯不大,很容易被拆分為“王二小明白展堂”。這是因為在我們用來建立模型的數據當中,每一次出現“王二小”都會使得“王二”的概率增大;每一次出現“小明”,“從小明白”都會使得“小明”的概率增大;而“白展堂”也是常見的詞語。
為了減小概率字典里的噪音,我們在生成第一個概率字典后,對原始數據進行分詞并且計算新的概率字典。這時候“王二小”再也不是“王二”了,“從小明白”再也不是“從小”,“小明”和“明白”了。至此,我們得到一個更加干凈的小字典,但是“少即是多”,他的分詞效果非常好。
這個降噪的想法非常的簡單和直接,也許你不用拍腦袋都能想到,但是當工作鉆入牛角尖時,你可能會忘了它。說了這么多“少即是多”,還是要提醒一下在使用時最好還是等有了大數據后再使用。當你的數據量不夠大時,珍惜每一個數據點吧。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/125911.html
摘要:本文將模擬一個歐派,讓大家足不出戶在家里就能更加直觀立體的挑選家具。創建廣告牌寬度高度深度寬度上的節數高度上的節數深度上的節數中心點家具展銷歐派這里給我們給整個場景用抽象物體圍起來了,以免第一人稱控件開啟時會造成無碰撞體系墜落出場景。 本文將模擬一個歐派,讓大家足不出戶在家里就能更加直觀立體的挑選家具。 第一步,利用CampusBuilder搭建模擬場景。CampusBuilder的模...
摘要:最近,我需要在開發的事件管理系統中實現搜索功能。今天,我會介紹整個過程以及如何構建靈活且可擴展的搜索系統。這將是個挑戰前端的條件過濾的截圖。像剛剛的情況下搜索用戶時加上一個過濾器再返回搜索結果。 showImg(https://segmentfault.com/img/remote/1460000018654283?w=1680&h=494); 最近,我需要在開發的事件管理系統中實現搜...
摘要:設計者的品味現在流行相對主義,即認為真理是相對的。優秀設計的原則是許多學科的共同原則,一再反復地出現。好設計是永不過時的設計。好設計是解決主要問題的設計。好設計是模仿大自然的設計。好設計是成批出現的。好設計常常是大膽的設計。 9 設計者的品味 現在流行相對主義,即認為真理是相對的。即使你已經從小孩變成了成年人,這種觀點依然可能妨礙你思考品味。把品味說成個人的偏好可以有效地杜絕爭論,防止...
摘要:近日,在年云計算與大數據在智能工業中的發展及應用高峰論壇上,與會專家認為,信息技術和全球工業系統正在深入融合,給全球工業帶來深刻的變革,創新了工業企業的研發生產運營營銷和管理方式。 近日,在2016年云計算與大數據在智能工業中的發展及應用高峰論壇上,與會專家認為,信息技術和全球工業系統正在深入融合,給全球工業帶來深刻的變革,創新了工業企業的研發、生產、運營、營銷和管理方式。 步入智能化綜...
閱讀 3514·2023-04-25 20:09
閱讀 3720·2022-06-28 19:00
閱讀 3035·2022-06-28 19:00
閱讀 3058·2022-06-28 19:00
閱讀 3131·2022-06-28 19:00
閱讀 2859·2022-06-28 19:00
閱讀 3014·2022-06-28 19:00
閱讀 2610·2022-06-28 19:00