【技術性】AI/ML知識

Alfred 發布于2019-06-26 18:47 / 2243人閱讀

摘要：詞頻逆向文件頻率詞頻越大越重要越大，即出現詞的文件數越少，越重要概述一般結構為卷積層一組平行的，之后經過激活函數如來決定該神經元是否被激活。一般都是，把行進行處理。

做ML最重要的是啥！！跟我念三遍！！LOOK INTO THE DATA! LOOK INTO THE DATA!! LOOK INTO THE DATA!!! 可以多使用visualization工具來幫助自己理解data。

Pandas

引入：import pandas as pd

常也需import numpy as np

create df：

df = pd.DataFrame(...)

selection：

選列：df["A"]
選行：df[0:3]
多維：df.loc[:, ["A", "B"]]或df.iloc[:, 0:2]
選值：df.at[2,"A"]或者df.iloc[2,0]

處理空值：df.dropna df.fillna

apply funcs：df.apply(lambda)

SQL-like join: pd.merge(A, B, on="...")

文件：df.to_csv("...") pd.read_csv("...")

filtering的pitfall：
用于filter training data的就不可以再作為feature, e.g.
如果用age < 18來filter了training set，那么age就不可以再作為feature，否則模型就會嚴重學習到age < 18這條手動規則

Ngrams:
一段text里相臨近的n個單詞，ngram feature每次就以n為窗口計算
ngram model一般是馬爾科夫鏈算法，由前n-1個單詞預測最后一個單詞

feature engineering：
如何提出好的feature：1）憑直覺 e.g.頭發長短用于判斷性別； 2）用數據做correlation分析

ROC曲線：
橫坐標FPR, 縱坐標TPR, 每個點上都有threshold，可以根據距離(0,1)點最近的曲線上點來選擇threshold。（但一般都是0.5不用動。）

TFIDF:
TFIDF = TF（詞頻） * IDF（逆向文件頻率）
詞頻越大越重要
idf越大，即出現詞的文件數越少，越重要

CNN概述：
一般結構為

kernals(window) --> convolution layer --> pooling operation --> vectorization

卷積層：一組平行的feature map，之后經過激活函數（如sigmoid）來決定該神經元是否被激活。
池化層：downsampling，有助于減少param數量并避免overfit
常見池化方法：max，min，avg，l2等

Model deployment：
client request-->server-->(sharding service)-->fetch model from storage (e.g. HDFS, S3)-->load model

預處理
一般都要包括去重（！非常重要！否則會overfit和bias）和處理N/A值

train、test set split的pitfall：
注意不能有data leak！！！所以去重真的非常重要啊。

一般的ranking backend結構：
一般first stage做filter（這樣結果才能變少啊），second stage做rank。
所以先filter model，然后再ranking models

如果應對position bias（e.g.排第一個的結果收到的點擊最多）：
predict as if they are all shown at position 0
include position feature
counterfactual evaluation

Training package：
訓練代碼一般都會打包成package通過command來跑。
一般都是batch training，把行進行batch處理。

云服務器 GPU云服務器大數據技術基礎知識數碼知識知識知識城

文章版權歸作者所有，未經允許請勿轉載,若此文章存在違規行為，您可以聯系管理員刪除。

轉載請注明本文地址：http://specialneedsforspecialkids.com/yun/19933.html

李飛飛卸任谷歌云AI負責人，回歸斯坦福

摘要：谷歌云在其官方博客上公布，確認來自卡內基梅隆大學的計算機科學院院長教授將在年底接任李飛飛的谷歌云負責人職位，而李飛飛也將正式回歸斯坦福大學當教授。兩年前，李飛飛從斯坦福休假加入谷歌，成為谷歌云的負責人與首席科學家。今年7月的谷歌Next大會上，李飛飛宣布了兩年前推進的Contact Center落地、AutoML推出自然語言和翻譯服務、TPU 3．0進入谷歌云，這意味著谷歌云擁抱AI Fir...

tuantuan 2019-04-29 10:40 評論0 收藏0
MindsDB：一個利用企業數據構建 AI 的平臺

MindsDB作為一個開源項目，它旨在將機器學習模型無縫集成到現有的數據庫系統中，為用戶提供實時的數據預測能力。這個項目的創新之處在于，它能夠以簡單、直觀的方式讓開發者和非技術人員都能夠利用AI進行數據分析和預測。它是根據企業數據庫定制的AI平臺，使用者可以根據數據庫、矢量存儲和應用程序數據實時創建、提供和微調模型。簡介MindsDB 的核心理念是使數據庫不僅能夠存儲和檢索數據，還能基于這些數據...

UCloud小助手 2024-07-08 17:47 評論0 收藏0
實現 TensorFlow 多機并行線性加速

摘要：在一個數據分析任務和任務混合的環境中，大數據分析任務也會消耗很多網絡帶寬如操作，網絡延遲會更加嚴重。本地更新更新更新目前，我們已經復現中的實驗結果，實現了多機并行的線性加速。王佐，天數潤科深度學習平臺負責人，曾擔任 Intel亞太研發中心Team Leader，萬達人工智能研究院資深研究員，長期從事分布式計算系統研究，在大規模分布式機器學習系統架構、機器學習算法設計和應用方面有深厚積累。在...

時飛 2019-04-25 18:17 評論0 收藏0
人工智能期末筆記

摘要：舉例，神經元，感知機，神經網絡行為主義智能機器人認為人工智能源于控制論。人工智能的研究領域包括專家系統推薦系統等等。是一種實現人工智能的方法根據某些算法，通過大量數據進行訓練和學習，然后對真實世界中的事件做出決策和預測。 1. 緒論四大流派符號主義(知識圖譜)原理主要為物理符號系統(即符號操作系統)假設和有限合理性原理用數理邏輯描述智能行為, 在計算機上實現了邏輯演繹系統。 ...

CodeSheep 2019-06-26 18:48 評論0 收藏0