カテゴリー
統計

Pythonによる分散分析

分散分析(Analysis Of VAriance; ANOVA)は3標本以上の差の検定です。

Pythonの統計パッケージには、scipy.statsやstatsmodelsがあります。最近はpingouinというものもあります。いずれもANOVAをサポートしています。それぞれのパッケージでの使用方法を説明します。

scipy.statsによるANOVA

from scipy import stats

x = [43, 55, 57, 72, 51, 52, 48, 46, 58, 54]
y = [53, 44, 54, 51, 68, 64, 45, 67, 49, 56]
z = [77, 55, 67, 54, 46, 75, 65, 57, 49, 61]
print(stats.f_oneway(x, y, z))

結果

F_onewayResult(statistic=1.6463168290164742, pvalue=0.21152459574247603)

statsmodelsによるANOVA

import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

x = [43, 55, 57, 72, 51, 52, 48, 46, 58, 54]
y = [53, 44, 54, 51, 68, 64, 45, 67, 49, 56]
z = [77, 55, 67, 54, 46, 75, 65, 57, 49, 61]

values = x + y + z
groups = ['x'] * len(x) + ['y'] * len(y) + ['z'] * len(z)
data = pd.DataFrame({'values': values, 'groups': groups})

lm = ols('values ~ groups', data=data).fit()
sm.stats.anova_lm(lm, typ=2) # Type 2 Anova DataFrame

結果

               sum_sq    df         F    PR(>F)
groups     271.666667   2.0  1.646317  0.211525
Residual  2227.700000  27.0       NaN       NaN

pingouinによるANOVA

import pandas as pd
import pingouin as pg

x = [43, 55, 57, 72, 51, 52, 48, 46, 58, 54]
y = [53, 44, 54, 51, 68, 64, 45, 67, 49, 56]
z = [77, 55, 67, 54, 46, 75, 65, 57, 49, 61]

values = x + y + z
groups = ['x'] * len(x) + ['y'] * len(y) + ['z'] * len(z)
data = pd.DataFrame({'values': values, 'groups': groups})

print(pg.anova(data, dv='values', between='groups'))

結果

   Source  ddof1  ddof2         F     p-unc       np2
0  groups      2     27  1.646317  0.211525  0.108694
カテゴリー
統計

Pythonによる級内相関係数の計算

検者内・検者間の信頼性を表す指標として級内相関係数(ICC; Intraclass correlation)というのがあります[1, 2]。Pythonの統計パッケージにはscipy.statsstatsmodelsがありますが、ICCは実装されていない様です。

最近の統計パッケージpingouinにはありますので紹介します。

pingouinはpipでインストールできます。

pip install pingouin

サンプルコードは以下のとおりです。

import pandas as pd
import pingouin as pg

A = [1,1,3,1,1,2,1,2,1,1]
B = [2,1,3,1,3,2,1,3,3,3]
C = [2,3,3,1,1,1,1,2,3,3]
D = [2,3,3,1,1,2,1,2,3,1]
E = [2,3,3,3,3,2,1,2,3,1]
ratings = A + B + C + D + E
raters = ['A'] * len(A) + ['B'] * len(B) + ['C'] * len(C) + \
         ['D'] * len(D) + ['E'] * len(E)
targets = list('abcdefghij') * 5
data = pd.DataFrame({'targets':targets, 'raters':raters, 'ratings':ratings})
icc = pg.intraclass_corr(data=data, targets='targets', 
                         raters='raters', ratings='ratings')
print(icc.set_index('Type'))

出力結果は以下のとおりです。

                   Description       ICC         F  df1  df2      pval  \
Type                                                                     
ICC1    Single raters absolute  0.266854  2.819923    9   40  0.011519   
ICC2      Single random raters  0.280000  3.221007    9   36  0.005798   
ICC3       Single fixed raters  0.307576  3.221007    9   36  0.005798   
ICC1k  Average raters absolute  0.645380  2.819923    9   40  0.011519   
ICC2k    Average random raters  0.660377  3.221007    9   36  0.005798   
ICC3k     Average fixed raters  0.689538  3.221007    9   36  0.005798   

              CI95%  
Type                 
ICC1   [0.03, 0.64]  
ICC2   [0.05, 0.64]  
ICC3   [0.06, 0.67]  
ICC1k   [0.13, 0.9]  
ICC2k   [0.21, 0.9]  
ICC3k  [0.23, 0.91]  

[1] Shrout, P. E., & Fleiss, J. L. (1979). Intraclass correlations: uses in assessing rater reliability. Psychological bulletin, 86(2), 420. https://pdfs.semanticscholar.org/b8d4/7b0c0b12dd77543e82e6bf6636ddd335cfea.pdf

[2] 医療系データのとり方・まとめ方、対馬栄輝・石田水里、東京図書 (2013年). https://www.amazon.co.jp/dp/4489021437