摘要:通過海拔坡度到水源的距離地塊位置等特征項,對地塊植被的類型進行預(yù)測個類型。競賽結(jié)果提交請選手利用建立的模型對每階段提供的預(yù)測數(shù)據(jù)集中的地塊植被類型列進行預(yù)測類,預(yù)測結(jié)果按如下格式保存成格式提交。
參加佛山互聯(lián)網(wǎng)協(xié)會建模大賽,主題為植被類型預(yù)測,數(shù)據(jù)量分3個階段,10/15/15萬左右的放出,暨大教授在里面加了噪音,但我EDA沒做得很好;因此只拿到26名;
訓練環(huán)境:WIN7,16G內(nèi)存,Rstudio,xgboost,CV交叉驗證;耗時比較久,因為用for語句;
最高成績加權(quán)F1值只有0.69,Kaggle實測成績0.72;
腳本和訓練過程見下面notebook;
鏈接描述
去聽前11名理論賽演講,其實大家用的都差不多,還有人會用并行結(jié)構(gòu);用spss做更多eda;
大賽規(guī)則:
“數(shù)創(chuàng)嶺南”職工技能賽賽題介紹與數(shù)據(jù)下載下載數(shù)據(jù)
1
賽題介紹
隨著計算能力、存儲空間、網(wǎng)絡(luò)的高速發(fā)展,人類所積累的數(shù)據(jù)量正在快速增長,而對特定數(shù)據(jù)的分類算法就顯得尤為重要。分類是一項非常有應(yīng)用價值的技術(shù)之一,它的應(yīng)用遍及了社會中的各個領(lǐng)域,尤其是對多標簽分類問題的解決方法,是機器學習中一個重要的研究領(lǐng)域。
2
數(shù)據(jù)集描述
本次大賽提供數(shù)據(jù)集反映的是不同地塊的植被類型情況。通過海拔、坡度、到水源的距離、地塊位置等特征項,對地塊植被的類型進行預(yù)測(7個類型)。數(shù)據(jù)集中共有 13個特征,由 55 列數(shù)據(jù)組成。
如下圖所示:
字段名稱 數(shù)據(jù)類型 量度單位 描述
Elevation 定量數(shù)據(jù) 米 海拔高度
Aspect 定量數(shù)據(jù) 度 方位角
Slope 定量數(shù)據(jù) 度 坡度
Horizontal_Distance_To_Hydrology 定量數(shù)據(jù) 米 與最近水文特征的水平距離
Vertical_Distance_To_Hydrology 定量數(shù)據(jù) 米 與最近水文特征的垂直距離
Horizontal_Distance_To_Roadways 定量數(shù)據(jù) 米 與最近道路的水平距離
Ground position 定性數(shù)據(jù) a-l 地塊位置
Hillshade_9am 定量數(shù)據(jù) 0至255的索引 早上9:00光的投射度(夏至)
Hillshade_Noon 定量數(shù)據(jù) 0至255的索引 正午光的投射度(夏至)
Hillshade_3pm 定量數(shù)據(jù) 0至255的索引 下午3:00光的投射度(夏至)
Horizontal_Distance_To_Fire_Points 定量數(shù)據(jù) 米 與最近燃火點的距離
Wilderness_Area (4個二元列) 定性數(shù)據(jù) 0或1(缺失/存在) 荒野地區(qū)等級
Soil_Type (40個二元列) 定性數(shù)據(jù) 0或1(缺失/存在) 土壤類型等級
Cover_Type (7種) 整數(shù) 0至7 地表覆蓋類型
3
數(shù)據(jù)集提供方式
這是一個模擬真實情況的過程,數(shù)據(jù)是分階段提供的,并且包含約1‰~2‰的噪聲值。每個階段,會提供不等數(shù)量的訓練和預(yù)測數(shù)據(jù)集,選手通過訓練數(shù)據(jù)進行建模、優(yōu)化算法,并在測試集進行預(yù)測,每個階段的預(yù)測準確率都將計入第一輪實操賽的總成績。
· 第一階段提供10萬條訓練數(shù)據(jù),預(yù)測2萬條。時間:8月20日00:00—9月5日23:59;
· 第二階段提供12~15萬條訓練數(shù)據(jù),預(yù)測3萬條。時間:9月6日00:00—9月21日23:59;
· 第三階段提供12~15萬條訓練數(shù)據(jù),預(yù)測3萬條。時間:9月22日00:00—10月8日23:59。
建議選手在考慮準確率的同時,需要考慮計算效率(運算時間),計算效率將作為第三輪答辯賽的其中一個評分指標。最終總決賽評委會根據(jù)實操賽、理論賽成績以及現(xiàn)場答辯的表現(xiàn)對選手進行綜合評分。
4
評分標準
大賽平臺將自動計算每一個階段測試數(shù)據(jù)集中預(yù)測分類的準確率。 本次采用宏平均值(Macro-averaging)作為各階段的評價指標。 宏平均(Macro-averaging),是先對每一個類統(tǒng)計指標值(F1-Score),然后再對所有類求加權(quán)(Qi=各類型樣本量占比)平均值。 在第一輪實操賽的三個階段,將依據(jù)參賽隊伍的預(yù)測準確率(宏平均值)進行排名,準確率越高,則排名越靠前。參賽選手可以不斷優(yōu)化模型,通過平臺提交結(jié)果,每天最多提交3次。
· 第一輪實操賽最終總得分規(guī)則如下:
實操賽總排名按照如下公式計算:
(第一階段預(yù)測準確率30%+第二階段預(yù)測準確率35%+第三階段預(yù)測準確率*35%)
實操賽標準分 = 100-(100*P1-50)/N1,P1為選手在實操賽的綜合排名,N1為參加實操賽的選手人數(shù)。
5
競賽結(jié)果提交
請選手利用建立的模型對每階段提供的預(yù)測數(shù)據(jù)集中的地塊植被類型(BD列)
進行預(yù)測(7類),預(yù)測結(jié)果按如下格式保存成CSV格式提交。
預(yù)測結(jié)果(1/2/3/4/5/6/7)
預(yù)測結(jié)果(1/2/3/4/5/6/7)
預(yù)測結(jié)果(1/2/3/4/5/6/7)
......
預(yù)測結(jié)果(1/2/3/4/5/6/7)
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/44966.html
摘要:最近項目用到谷歌地圖,但是看谷歌文檔,對于國人來說,還是比較吃力的,網(wǎng)上找資料也并沒有太多的資料,所以就想分享給大家。顯示了整個地球地圖的完全縮放。 最近項目用到谷歌地圖,但是看谷歌api文檔,對于國人來說,還是比較吃力的,網(wǎng)上找資料也并沒有太多的資料,所以就想分享給大家。但是因為本人太懶了,每次研究技術(shù)完事時間一久就忘了,更別提分享了,在朋友的鼓勵支持之下,重新開始寫博客,共享給大家...
摘要:我要給家里開發(fā)一個自動化的物聯(lián)網(wǎng)灌溉系統(tǒng)。大致思路有兩個一是自動控制,二是物聯(lián)網(wǎng),人可以輕松查看以及控制我們可以從我后續(xù)的手機上管窺一下具體的功能。持續(xù)更新,未完待續(xù)。 ...
摘要:中主要關(guān)注的就是,對象的主要功能就是處理網(wǎng)頁內(nèi)容。中文翻譯模型,如果你把這個詞從中抽離出來,看下面的圖片是不是就很好理解。年月制定的標準,由兩大部分組成核心和。擴展鼠標和用戶界面事件范圍遍歷,增加了對支持。 往期回顧 在上一期的《JavaScript的組成 | 核心-ECMAScript 》?里,我們有說到JavaScript 是由三大部分組成,分別是:核心ECMAScript、文檔對...
閱讀 3675·2021-11-16 11:41
閱讀 2880·2021-09-23 11:45
閱讀 687·2019-08-30 15:44
閱讀 538·2019-08-30 13:10
閱讀 1961·2019-08-30 12:49
閱讀 3526·2019-08-28 17:51
閱讀 1471·2019-08-26 12:20
閱讀 698·2019-08-23 17:56