平均の出し方
本日のタスクで平均を出すということをしていました。この際自分の中での平均の定義が曖昧だと数値が変わるという、ごくごく当たり前の経験をしたので備忘録ついでにまとめていきたいと思います。
簡単にまとめていくと例えば平均点とかをまず考えたいと思います。ますさんが5教科テストを受けた時の5教科の平均点というのが出せると思います。一方でAさんのいるクラスごとの平均点といった場合には複数の平均点があります。例えば先ほどのようにAさんの5教科の全体の平均をとり、その平均をクラスでさらに平均として取るパターン。もう一つはAさんのクラスの国語の平均点、数学の平均点というようにとるパターンです。これはそれぞれ見たいものが変わってきます。前者であれば大雑把に。Aさんのクラスでは平均的にどのくらい学力があるのかというのが得られるかもしれません。後者においては特定の教科に対してAさんのクラスがどのくらいの点数を取っているのかという平均点がとられます。もしかすると平均点の平均点を取るという前者の方についてはよろしくない可能性もありますが、求めたいものが違うとか求められるものが違うというのはなんとなく理解できると思います。分析をする際に何を求めているのか、どんな平均点とかどんな中央値を求めているのかというのがわからない。このような複数の平均点の取り方によって結果が変わることが考えられます。実際今回SQLでちょっと似たようなケースに遭遇して検算したところ、値が圧倒的に違うようなことになりました。これでは分析としてどちらが正しいということではなく、求められる知りたいものをきちんと出すというところに立つと。
よく考える必要があるなと、まぁ当たり前なんですけど思ったと。そういう備忘録的なブログになります。
最後に
用語の誤用、明らかにしたいものの明確化が本当に大切です
コメント