SPSS由IBM公司出品,它提供了包括描述性統(tǒng)計(jì)、推斷性統(tǒng)計(jì)、因子分析、聚類分析、回歸分析等多種統(tǒng)計(jì)分析功能,并包括文本分析、機(jī)器學(xué)習(xí)算法、數(shù)據(jù)分析模型等。SPSS的界面友好,易于操作,能夠快速?gòu)臄?shù)據(jù)中提取有用的洞察和分析,廣泛應(yīng)用于教育、心理、醫(yī)學(xué)、市場(chǎng)、人口、保險(xiǎn)等多個(gè)研究領(lǐng)域,也用于產(chǎn)品質(zhì)量控制、人事檔案管理和日常統(tǒng)計(jì)報(bào)表等。 探索性分析中比較常用的功能是,通過數(shù)據(jù)過濾的功能,如分析數(shù)據(jù)中的極值、平均值、方差等,識(shí)別數(shù)據(jù)中的異常值;或使用檢驗(yàn)的方法,判斷后續(xù)使用的統(tǒng)計(jì)分析方法是否合適等,比如數(shù)據(jù)的正態(tài)分布假設(shè)是否成立。
一、示例數(shù)據(jù)
本文中,我們將會(huì)分析一組包含性別、客單價(jià)的數(shù)據(jù)。
通過探索性分析,查看數(shù)據(jù)中是否存在一些異常值,以及檢驗(yàn)不同性別的客單價(jià)數(shù)據(jù)是否符合正態(tài)分布。
為什么要檢驗(yàn)數(shù)據(jù)是否正態(tài)分布?這是因?yàn)樵谝恍┫嚓P(guān)性分析(或其他分析)中,是以數(shù)據(jù)正態(tài)分布為前提進(jìn)行統(tǒng)計(jì)分析的,如果數(shù)據(jù)不滿足正態(tài)分布的假設(shè),分析得出的結(jié)果就會(huì)不準(zhǔn)確。

圖1:示例數(shù)據(jù)
二、應(yīng)用探索性分析
如圖2所示,我們先打開IBM SPSS Statistics的探索分析選項(xiàng)(分析-描述統(tǒng)計(jì)-探索),然后再逐步演示操作。

圖2:探索性分析
1、選擇變量
如圖3所示,探索分析設(shè)置面板中的選項(xiàng)含義如下:
1. 因變量列表,即隨自變量變化的數(shù)值,本例中選取客單價(jià)作為因變量
2. 因子列表,用于定義個(gè)案組,可選擇一個(gè)或多個(gè)因子變量,本例中選取性別
3. 個(gè)案標(biāo)注依據(jù),用于標(biāo)記個(gè)案,本例中選取賬號(hào)
通過以上的設(shè)置,我們將會(huì)獲取到不同性別客單價(jià)的探索性分析結(jié)果。

圖3:頻率分析中的圖表功能
2、應(yīng)用統(tǒng)計(jì)分析
完成變量的選擇后,單擊右側(cè)的統(tǒng)計(jì),開啟如圖4所示的統(tǒng)計(jì)面板,其中的數(shù)值應(yīng)用如下:
1. 描述,提供了平均值、中位數(shù)、方差、最大值、偏度等統(tǒng)計(jì)數(shù)值,可設(shè)置平均值的置信區(qū)間
2. M-估計(jì)量,為每個(gè)個(gè)案的數(shù)值應(yīng)用權(quán)重,有助于減少極端值、異常值對(duì)平均值和中位數(shù)的影響
3. 離群值,即極值的分析,包含最大值、最小值
4. 百分位數(shù),可將排序后的數(shù)據(jù)進(jìn)行指定百分位值分組
本例中,我們選取了描述、M-估計(jì)值與離群值的數(shù)值。

圖4:探索性統(tǒng)計(jì)分析選項(xiàng)
3、解讀統(tǒng)計(jì)分析結(jié)果
從分析結(jié)果來(lái)看,如圖5所示,當(dāng)前數(shù)據(jù)包含了50個(gè)男性客單價(jià)個(gè)案,以及49個(gè)女性客單價(jià)個(gè)案。

圖5:頻數(shù)統(tǒng)計(jì)
如圖6所示,從描述數(shù)據(jù)可以看到,男性的客單價(jià)平均值為100.8,而女性客單價(jià)平均值僅為47.6
而男性客單價(jià)平均值的95%置信區(qū)間上限中,平均值達(dá)到188,說(shuō)明存在一些極端值,進(jìn)一步查看最大值數(shù)據(jù),發(fā)現(xiàn)最大值達(dá)到2000。

圖6:描述性數(shù)值
這個(gè)最大值2000是單個(gè)個(gè)案,還是多個(gè)個(gè)案呢?另外,除了最大值外,是否存在其他極端值。為了解答以上問題,我們可以進(jìn)一步查看極值分析。
如圖7所示,可以看到,男性客單價(jià)中,賬號(hào)77與賬號(hào)85的客單價(jià)都屬于極端值。

圖7:極值分析
為了避免這些極值的影響,我們可以查看M估計(jì)量。如圖8所示,經(jīng)過M估計(jì)量的加權(quán)后,男性客單價(jià)平均值就變得比較正常了。

圖8:M估計(jì)值
綜上所示,通過IBM SPSS Statistics探索性分析的描述性統(tǒng)計(jì)數(shù)值,可獲取到數(shù)據(jù)的平均值、極值等統(tǒng)計(jì)數(shù)值,有助于檢查數(shù)據(jù)中的異常值情況。
世界上許多有影響的報(bào)刊雜志就SPSS給予了高度的評(píng)價(jià)。 |