An introductory guide to statistical analysis-generalized linear models for count data using R.

Yoshiko Shimono

Journal ArticleOPEN ACCESS

An introductory guide to statistical analysis-generalized linear models for count data using R.

Shimono Y

Journal of Weed Science and Technology (2010) 55(4) 287-294

DOI: 10.3719/weed.55.287

N/ACitations

33Readers

Abstract

雑草研究において，生育条件により雑草の種子生産数が変化するかどうかなど，ある要因が測定データに与える影響の統計学的裏付けを得るため，分散分析が使われてきた。分散分析は，① データのばらつきが正規分布に従うこと，② 要因間の分散が等しいこと（等分散性）を仮定している。しかし，我々が扱うデータの中には，この2つの仮定を満たさないものも多い。本稿で扱う割合データでいえば，次のよな性質を持つうため分散分析の仮定を満たさない。 ①割合なので，データの取りる範囲は0から1であうる（正規分布の取る範囲は－∞から∞）。 ②平均値が0もは1に近づくしくほど分散が小さなくり，要因間の分散が等しくならない。近年，データのばらつきを正規分布以外の確率分布でも表現できるように拡張した，一般化線形モデル（Generalized Linear Model, 以下GLM）が普及している。本稿では，分散分析による仮説検定を拡張した手法として， GLMを用いた仮説検定をフリー統計ソフトウェア「R」（R Development Core Team 2009）の使い方を示しながら解説する。特に本稿では，割合データの解析方法を中心に解説する。本稿でいう割合とは，全試行数（発芽試験に供試した種子数や除草剤を散布した個体数など）のうちの，着目した事象が起きた数（発芽や除草剤による死滅など）の割合のことである。このようなデータのことを本稿では割合データと呼ぶ。ここで注意したいのは，単位面積あたりの発生雑草数など，測定値を調査面積で割ったデータは本稿で扱う割合データとは異なるという点である。なぜなら，単位面積あたりの発生雑草数に換算するのは，圃場内の発生雑草数を推定するためや異なる調査面積のデータを比較するためであり，解析されるのは密度の形で表された雑草の“数”だからである（このようなケースの解析例は，下野（2010）でオフセットを用いた GLMとして紹介されている）。一方，割合データでは，発芽した数と発芽しなかった数など，着目した事象が起きた数と起きなかった数がわかるため，着目した事象が起きた“確率”を解析することになる。

Cite

CITATION STYLE

APA

Shimono, Y. (2010). An introductory guide to statistical analysis-generalized linear models for count data using R. Journal of Weed Science and Technology, 55(4), 287–294. https://doi.org/10.3719/weed.55.287

An introductory guide to statistical analysis-generalized linear models for count data using R.

Abstract

Cite

Register to see more suggestions