摘要:詞頻逆向文件頻率詞頻越大越重要越大,即出現詞的文件數越少,越重要概述一般結構為卷積層一組平行的,之后經過激活函數如來決定該神經元是否被激活。一般都是,把行進行處理。
做ML最重要的是啥!!跟我念三遍!!LOOK INTO THE DATA! LOOK INTO THE DATA!! LOOK INTO THE DATA!!! 可以多使用visualization工具來幫助自己理解data。
Pandas
引入:import pandas as pd
常也需import numpy as np
create df:
df = pd.DataFrame(...)
selection:
選列:df["A"] 選行:df[0:3] 多維:df.loc[:, ["A", "B"]]或df.iloc[:, 0:2] 選值:df.at[2,"A"]或者df.iloc[2,0]
處理空值:df.dropna df.fillna
apply funcs:df.apply(lambda)
SQL-like join: pd.merge(A, B, on="...")
文件:df.to_csv("...") pd.read_csv("...")
filtering的pitfall:
用于filter training data的就不可以再作為feature, e.g.
如果用age < 18來filter了training set,那么age就不可以再作為feature,否則模型就會嚴重學習到age < 18這條手動規則
Ngrams:
一段text里相臨近的n個單詞,ngram feature每次就以n為窗口計算
ngram model一般是馬爾科夫鏈算法,由前n-1個單詞預測最后一個單詞
feature engineering:
如何提出好的feature:1)憑直覺 e.g.頭發長短用于判斷性別; 2)用數據做correlation分析
ROC曲線:
橫坐標FPR, 縱坐標TPR, 每個點上都有threshold,可以根據距離(0,1)點最近的曲線上點來選擇threshold。(但一般都是0.5不用動。)
TFIDF:
TFIDF = TF(詞頻) * IDF(逆向文件頻率)
詞頻越大越重要
idf越大,即出現詞的文件數越少,越重要
CNN概述:
一般結構為
kernals(window) --> convolution layer --> pooling operation --> vectorization
卷積層:一組平行的feature map,之后經過激活函數(如sigmoid)來決定該神經元是否被激活。
池化層:downsampling,有助于減少param數量并避免overfit
常見池化方法:max,min,avg,l2等
Model deployment:
client request-->server-->(sharding service)-->fetch model from storage (e.g. HDFS, S3)-->load model
預處理
一般都要包括去重(!非常重要!否則會overfit和bias)和處理N/A值
train、test set split的pitfall:
注意不能有data leak!!!所以去重真的非常重要啊。
一般的ranking backend結構:
一般first stage做filter(這樣結果才能變少啊),second stage做rank。
所以先filter model,然后再ranking models
如果應對position bias(e.g.排第一個的結果收到的點擊最多):
predict as if they are all shown at position 0
include position feature
counterfactual evaluation
Training package:
訓練代碼一般都會打包成package通過command來跑。
一般都是batch training,把行進行batch處理。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/19933.html
摘要:谷歌云在其官方博客上公布,確認來自卡內基梅隆大學的計算機科學院院長教授將在年底接任李飛飛的谷歌云負責人職位,而李飛飛也將正式回歸斯坦福大學當教授。兩年前,李飛飛從斯坦福休假加入谷歌,成為谷歌云的負責人與首席科學家。今年7月的谷歌Next大會上,李飛飛宣布了兩年前推進的Contact Center落地、AutoML推出自然語言和翻譯服務、TPU 3.0進入谷歌云,這意味著谷歌云擁抱AI Fir...
MindsDB作為一個開源項目,它旨在將機器學習模型無縫集成到現有的數據庫系統中,為用戶提供實時的數據預測能力。這個項目的創新之處在于,它能夠以簡單、直觀的方式讓開發者和非技術人員都能夠利用AI進行數據分析和預測。 它是根據企業數據庫定制的AI平臺,使用者可以根據數據庫、矢量存儲和應用程序數據實時創建、提供和微調模型。簡介MindsDB 的核心理念是使數據庫不僅能夠存儲和檢索數據,還能基于這些數據...
摘要:在一個數據分析任務和任務混合的環境中,大數據分析任務也會消耗很多網絡帶寬如操作,網絡延遲會更加嚴重。本地更新更新更新目前,我們已經復現中的實驗結果,實現了多機并行的線性加速。 王佐,天數潤科深度學習平臺負責人,曾擔任 Intel亞太研發中心Team Leader,萬達人工智能研究院資深研究員,長期從事分布式計算系統研究,在大規模分布式機器學習系統架構、機器學習算法設計和應用方面有深厚積累。在...
閱讀 3209·2023-04-26 02:27
閱讀 2138·2021-11-22 14:44
閱讀 4082·2021-10-22 09:54
閱讀 3195·2021-10-14 09:43
閱讀 748·2021-09-23 11:53
閱讀 12675·2021-09-22 15:33
閱讀 2704·2019-08-30 15:54
閱讀 2681·2019-08-30 14:04