摘要:定類變量定類就是將給數(shù)據(jù)定義一個類別。它是比定類變量層次更高的變量,因此也具有定類變量的特質(zhì),即區(qū)分類別,。它除了包括定序變量的特性外,還能確切測量同一類別各個案高低大小次序之間的距離,因而具有加與減的數(shù)學(xué)特質(zhì)。
在這個世界上有無限多的數(shù)據(jù),而每種數(shù)據(jù)都有屬于自己的屬性。那么做數(shù)據(jù)挖掘數(shù)據(jù)分析的時候,要對雜亂無章數(shù)據(jù)由一定的敏感度,學(xué)會分析數(shù)據(jù)屬于哪一種類型也是一種技能。多留意身邊的一些數(shù)據(jù),試試給他分個類型也是挺好玩的一件事。
如果從宏觀角度分析,數(shù)據(jù)類型分為定性和定量兩種。
定性:變量是品質(zhì)特征,如性別分男和女,是一種特質(zhì);
定量:變量是數(shù)值,可以量化,如身高體重等。
定量又可以分為離散型和連續(xù)型,離散型一般為計數(shù)結(jié)果,如男朋友毀約的次數(shù),連續(xù)型一般為測試結(jié)果,如女朋友身高體重的測量。
那么又是怎么去對這些數(shù)據(jù)類型進(jìn)行度量,也就是對數(shù)據(jù)類型劃分一定的層次
一般可以將數(shù)據(jù)類型的度量分為四種:定類,定序,定距,和定比,這四種類型是從低到高的遞進(jìn)關(guān)系,高級的類型可以用低級類型的分析方法來分析,而反過來卻不行,理解下面這些類型對于后面學(xué)習(xí)統(tǒng)計分析方法尤為重要。
1、定類變量
定類就是將給數(shù)據(jù)定義一個類別。這種數(shù)據(jù)類型將所研究的對象分類,也即只能決定研究對象是同類抑或不同類。例如把性別分成男女兩類;把動物分成哺乳類和爬行類等等。
注意!定類變量遵循兩個原則:
(1)類與類之間互斥,不存在即是男又是女的東西(人妖特例不算)
(2)每個對象都必須要有類別,就像每個動物都有自己的界門綱目科屬種
2、 定序變量
定序變量是將同一個類別下的對象分一個次序,即變量的值能把研究對象排列高低或大小,具有>與<的數(shù)學(xué)特質(zhì)。它是比定類變量層次更高的變量,因此也具有定類變量的特質(zhì),即區(qū)分類別(=,≠)。
例如文化程度可以分為大學(xué)、高中、初中、小學(xué)、文盲;工廠規(guī)模可以分為大、中、小;年齡可以分為老、中、青。這些變量的值,既可以區(qū)分異同,也可以區(qū)別研究對象的高低或大小。
注意!各個定序變量的值之間沒有確切的間隔距離。比如大學(xué)究竟比高中高出多少,大學(xué)與高中之間的距離和初中與小學(xué)之間的距離是否相等,通常是沒有確切的尺度來測量的。定序變量在各個案上所取的變量值只具有大于或小于的性質(zhì),只能排列出它們的順序,而不能反映出大于或小于的數(shù)量或距離。
?
3、 定距變量
定距變量是區(qū)別同一類別下個案中等級次序及其距離的變量。它除了包括定序變量的特性外,還能確切測量同一類別各個案高低、大小次序之間的距離,因而具有加與減的數(shù)學(xué)特質(zhì)。但是,定距變量沒有一個真正的零點(diǎn)。
例如,攝氏溫度這一定距變量說明,攝氏40度比30度高10度,攝氏30度比20度又高10度,它們之間高出的距離相等,而攝氏零度并不是沒有溫度。又比如調(diào)查數(shù)個地區(qū)的工人占全部勞動人口的比率時,發(fā)現(xiàn)甲、乙,丙、丁、戊五個地區(qū)的比率分別是2%、10%、35%、20%、10%。甲區(qū)與丙區(qū)相差33%,丙區(qū)與丁區(qū)相差15%。這也是一個定距變量。
注意!定距變量各類別之間的距離,只能加減而不能乘除或倍數(shù)的形式來說明它們之間的關(guān)系。
???
4.、定比變量
定比變量是區(qū)別同一類別個案中等級次序及其距離的變量。定比變量除了具有定距變量的特性外,還具有一個真正的零點(diǎn),因而它具有乘與除(×、÷)的數(shù)學(xué)特質(zhì)。例如年齡和收入這兩個變量,固然是定距變量,同時又是定比變量,因?yàn)槠淞泓c(diǎn)是絕對的,可以作乘除的運(yùn)算。
如A月收入是60元,而B是30元,我們可以算出前者是后者的兩倍。智力商數(shù)這個變量是定距變量,但不是定比變量,因?yàn)槠?分只具有相對的意義,不是絕對的或固定的,不能說某人的智商是0分就是沒有智力;同時,由于其零點(diǎn)是不固定的,即使A是140分而B是70分,我們也不能說前者的智力是后者的兩倍,只能說兩者相差70分。因?yàn)?值是不固定的,如果將其向上移高20分,則A的智商變?yōu)?20分而B變成50分,兩者的相差仍是70分,但A卻是B的2.4倍,而不是原先的兩倍了。攝氏溫度這一變量也如此。
這里沒注意了!定比變量是最高測量層次的變量。
文章版權(quán)歸作者所有,未經(jīng)允許請勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。
轉(zhuǎn)載請注明本文地址:http://specialneedsforspecialkids.com/yun/42644.html
摘要:特征編碼類型本篇,我們主要說一下分類型特征的編碼方式。下面,我們要對這個變量進(jìn)行編碼,在中有現(xiàn)成的獨(dú)熱編碼方法,代碼如下原來的變量被拆分為兩個單獨(dú)的變量,這兩個變量就是原來的分類特征值有電梯和無電梯。 作者:xiaoyu 微信公眾號:Python數(shù)據(jù)科學(xué) 知乎:python數(shù)據(jù)分析師 showImg(https://segmentfault.com/img/remote/146000...
摘要:特征編碼類型本篇,我們主要說一下分類型特征的編碼方式。下面,我們要對這個變量進(jìn)行編碼,在中有現(xiàn)成的獨(dú)熱編碼方法,代碼如下原來的變量被拆分為兩個單獨(dú)的變量,這兩個變量就是原來的分類特征值有電梯和無電梯。 作者:xiaoyu 微信公眾號:Python數(shù)據(jù)科學(xué) 知乎:python數(shù)據(jù)分析師 showImg(https://segmentfault.com/img/remote/146000...
摘要:將數(shù)據(jù)集中不含缺失值的變量稱為完全變量,數(shù)據(jù)集中含有缺失值的變量稱為不完全變量。這種程序的實(shí)施恰當(dāng)?shù)胤从沉擞捎谌笔е狄鸬牟淮_定性,使得統(tǒng)計推斷有效。 作者:xiaoyu 微信公眾號:Python數(shù)據(jù)科學(xué) 知乎:python數(shù)據(jù)分析師 showImg(https://segmentfault.com/img/remote/1460000015801387?w=1045&h=603);...
閱讀 2761·2021-09-24 10:34
閱讀 1862·2021-09-22 10:02
閱讀 2252·2021-09-09 09:33
閱讀 1458·2021-08-13 15:02
閱讀 3270·2020-12-03 17:10
閱讀 1180·2019-08-30 15:44
閱讀 2144·2019-08-30 12:58
閱讀 3229·2019-08-26 13:40