うんまあ時間軸推移のデータ分析のためのデータ蓄積も必要よね

近頃の流行的IT用語というもので、ビッグデータとかいう言葉があるらしい。
なんとなく言葉の意味はググれば分かるけれども、そこから何をしようとしてるのかという点を、きっと賢い人がまとめてくれているだろうと思い。
とりあえず、それっぽい感じの本を買って読んでみた。

統計学が最強の学問である

統計学が最強の学問である

んー、なんとも、ゴーマンかましたタイトルだこと。


僕が読んだところの解釈でこの本で言いたいことは・・・*1、要するに、ビッグデータという程アホみたいにデータを溜め込まなくても、統計学的に十分有意なデータ数の母集団さえ確保すれば、データ分析には十分ですよ。
大雑把にいえばそんな無駄にでっかいHDDはいらんですよ。
ということのようです。確かに、それでリソース代はだいぶ節約できるよなぁ。
しかしためこんだビッグデータから、どれだけのデータ量が必要かとか、どんな種類のデータが必要かとか、それをふるいにかけ整理するにも、それなりの人材・統計学に詳しい人材がきっと必要よね。
統計学者をもっと雇いなさい、ということですね、きっと。
後は、統計学的に分析する際に間違いやすいこととか、分析でできること・できないことのような話が書いてあったと思います、多分。条件そろえて比較実験するのに、倫理的に許されない条件は作れないよね、とか。重回帰解析するのに、変数・条件間が独立である必要がありますよ、でも独立でない場合でも「互いの条件の影響度」のような変数を新たに作って解析すればなんとかなりますよ、でも変数作りすぎると訳がわからなくなるよ、とか。


てことで、今回のなるほどうポインツ。
データマイニングで、形態素解析が有用らしい。前の職場にいたとき・・・7年位前、それを使ってYahooニュースを分析したら面白そうとか思って実験しようとしたことあったなぁ。どっかの研究室が形態素解析用のライブラリを公開してくれてて、遊んでたかも・・・結局何の結果も残してないけども。
・医療経済研究機構によると、喫煙によって余計にかかる医療費や失われる労働力は、毎年7兆円以上の損失らしい。タバコの税収や経済効果では、この半分も補填できない・・・。なるほどな、数字で見ると喫煙の損失が実感できる気がする。


・・・・・む。
なるほどうポインツ、あんまりビッグデータ関係ねーな。
ま、いいか。今の私の仕事には関係なーいし。

*1:しかも読んでから数週間経ってるし。