摘要:今晚做完了網易互娛數據挖掘實習生的筆試題,雖然大部分的題目都不太記得了。采樣分為上采樣和下采樣。上采樣是把小眾類復制多份下采樣是從大眾類中剔除一些樣本,或者說只從大眾類中選取部分樣本。
今晚做完了網易互娛數據挖掘實習生的筆試題,雖然大部分的題目都不太記得了。但是還是有一些印象比較深的坑需要填一下。比起騰訊和字條跳動難度適中,不算很大,字節的筆試掛了。其實這次感覺自己做的也不是挺好哈哈哈。
1、題型筆試分為三部分:20道單選題 + 10道不定項選擇 + 2道編程題2、題目 選擇題
1. one-vs-rest
題目是讓選擇對用one-vs-rest思想進行n分類,需要幾個分類器。
一開始還不知道原來one-vs-rest就是one-vs-all,但是后來排除了就剩下n個分類器這個答案了。
one-vs-all(one-vs-rest):利用n個二分類器完成n分類的任務。
2.sigmoid、TaNh、ReLU
題目是選擇哪個函數有可能是輸出為-0.01的神經網絡的激勵函數。
其實題目很簡單利用函數的值域就能解出來,但是利用這個機會去理一理這三個函數的區別吧。
神經網絡中的激活函數
3、bootstrap原理
題目是選擇boostrap的原理。主要是要學會區別與其他集成學習算法的原理。
bootstrap: 集成學習中的一個算法,是一種估計統計量的重采樣方法,從大小為n的原始訓練數據集D中隨機選擇n個樣本點組成一個新的訓練集,這個選擇過程獨立重復B次,然后用這B個數據集對模型統計量進行估計(如均值、方差等)。由于原始數據集的大小就是n,所以這B個新的訓練集中不可避免的會存在重復的樣本。
4、正負樣本不均衡的解決辦法
題目是用采樣方法去緩解正負樣本不均衡的解決辦法。
采樣分為上采樣(Oversampling)和下采樣(Undersampling)。
上采樣是把小眾類復制多份;下采樣是從大眾類中剔除一些樣本,或者說只從大眾類中選取部分樣本。
上采樣會把小眾樣本復制多份,一個點會在高維空間中反復出現,這會導致一個問題,那就是運氣好就能分對很多點,否則分錯很多點。為了解決這一問題,可以在每次生成新數據點時加入輕微的隨機擾動,經驗表明這種做法非常有效。
因為下采樣會丟失信息,如何減少信息的損失呢?
第一種方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采樣(放回采樣,這樣產生的訓練集才相互獨立)產生多個不同的訓練集,進而訓練多個不同的分類器,通過組合多個分類器的結果得到最終的結果。
第二種方法叫做BalanceCascade,利用增量訓練的思想(Boosting):先通過一次下采樣產生訓練集,訓練一個分類器,對于那些分類正確的大眾樣本不放回,然后對這個更小的大眾樣本下采樣產生訓練集,訓練第二個分類器,以此類推,最終組合所有分類器的結果得到最終結果。
第三種方法是利用KNN試圖挑選那些最具代表性的大眾樣本,叫做NearMiss。
5、至于剩下的題目也不太記得了,主要是一些關于p值還有零假設檢驗的合理性??磥磉€是需要補一補統計學的知識。編程題
數據挖掘考的大題是編程題,同學數據分析考的是sql題。還好看了點往年的題型最近練習的側重點是編程,雖然說sql語句以后也會考到,找個時間猛補吧。
1、排序題
題目描述不大記得了,主要是:給出一組數字,讓你從這組數中找出最長的遞增數列長度。
比如:
輸入:
10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18
輸出:
6
提示:
1、該遞增數列是 2, 3, 6, 7, 9, 101
2、該遞增數列在原數列中不一定是連續的。
我的第一時間想法就是先去重排序(去重是因為相同的數字不算遞增,所以重復的數字不影響),然后就得到了已經排序號的數列,但是這些數列是在原數列有排序的,所以只要判斷去重排序中的元素在原數列中的索引是否遞增就能找出答案。但是在實際通過樣例只有83.3%,搞不懂是不是漏了一些條件,明天去班里問問ACM大神吧。
data = [10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18] sortData = sorted(list(set(data))) count = 0 for i in range(1, len(sortData)): if data.index(sortData[i]) > data.index(sortData[i-1]): count += 1 print(count)
上課的時候問了一下學過算法的同學,說我寫的代碼不對,只是湊巧達到了一些案例的標準。
這題用的方法是靜態規劃,目的是用dp[n]:以第n個數字結尾的上升序列的長度。
data = [10, 9, 2, 5, 3, 6, 7, 4, 9, 8, 101, 18] dp = [1 for i in data] for i in range(1,len(data)): for j in range(i): if data[i] > data[j]: dp[i] = max(dp[i], dp[j]+1) dp[i] = max(dp[i], 1) print(max(dp))
第二題稍微忘了題目了,等拿到真題再完整的更新一次吧。
把每一次筆試都當作查漏補缺,加油。
文章版權歸作者所有,未經允許請勿轉載,若此文章存在違規行為,您可以聯系管理員刪除。
轉載請注明本文地址:http://specialneedsforspecialkids.com/yun/43526.html
摘要:春招結果五月份了,春招已經接近尾聲,因為到了周五晚上剛好有空,所以簡單地記錄一下自己的春招過程。我的春招從二月初一直持續到四月底,截止今天,已經斬獲唯品會電商前端研發部大數據與威脅分析事業部京東精銳暑假實習生的騰訊的是早上打過來的。 春招結果 五月份了,春招已經接近尾聲,因為到了周五晚上剛好有空,所以簡單地記錄一下自己的春招過程。我的春招從二月初一直持續到四月底,截止今天,已經斬獲唯品...
摘要:具體的時間線從月中旬,我開始關注??途W的秋招內推信息。直至十月中下旬結束秋招。之前也寫過自己在廣州找實習的經歷,那次把面試的過程都具體貼出來了。我今年就完美錯過了春招實習經歷。 前言 只有光頭才能變強 離上次發文章已經快兩個月時間了,最近一直忙著秋招的事。今天是2018年10月22日,對于互聯網行業來說,秋招就基本結束了。我這邊的流程也走完了(不再筆試/面試了),所以來寫寫我的秋招經歷...
摘要:面經因為我完全沒有面試經驗,從來沒有經歷過面試,于是想著在去這類大公司面試之前先找成都的小公司練練手,積累點面試經驗。于是三月份開始就有成都的小公司開始約我面試。 前序 從我高考成績出來那一刻開始,從我在高考志愿上填上計算機科學與技術這幾個當時在心中堪稱神圣的幾個字開始,我就已經把進入中國互聯網最高殿堂BAT作為我整個大學奮斗的目標,哪怕我就讀的是一所位于內陸的雙非一本大學我也認為我能...
摘要:網易跨境電商考拉海購在線筆試現場技術面面。如何看待校招面試招聘,對公司而言,是尋找勞動力對員工而言,是尋找未來的同事。 如何準備校招技術面試 標簽 : 面試 [TOC] 2017 年互聯網校招已近尾聲,作為一個非 CS 專業的應屆生,零 ACM 經驗、零期刊論文發表,我通過自己的努力和準備,從找實習到校招一路運氣不錯,面試全部通過,謹以此文記錄我的校招感悟。 寫在前面 寫作動機 ...
摘要:拿到秋招的同學,如確定入職需與用人單位簽署三方協議,以保證雙方的利益不受損失。當然每個崗位所要求的側重點不同,但卻百變不離其宗。方法論要想達成某個目標都有其特定的方法論,學習技術也不例外,掌握適當的學習方法才能事半功倍。 寫在前面的話 筆者從17年的2月份開始準備春招,其中遇到不少坑,也意識到自己走過的彎路。故寫了這篇文章總結一番,本文適合主動學習的,對自己要學的課程不明確的,對面試有...
閱讀 3070·2023-04-25 16:50
閱讀 904·2021-11-25 09:43
閱讀 3512·2021-09-26 10:11
閱讀 2518·2019-08-26 13:28
閱讀 2531·2019-08-26 13:23
閱讀 2419·2019-08-26 11:53
閱讀 3566·2019-08-23 18:19
閱讀 2987·2019-08-23 16:27