第3回 データマイニング+WEB 勉強会に参加してきました。

第3回 データマイニング+WEB 勉強会に参加してきました。
http://atnd.org/events/3849

前から気になっていた勉強会でしたが、参加枠が少なくなかなか参加することができませんでした。
今回は、ATNDのRSSですぐに見つけられてラッキーでした。

OpeningTalk - 創設の思い・目的・進行方針

資料
http://www.slideshare.net/hamadakoichi/opeining

遅刻して参加できず、、、ごめんなさい。

R言語によるクラスター分析 - 活用編

資料
http://www.slideshare.net/hamadakoichi/r-3754836

私の事前知識はクラスタ解析て何食えるの?でしたが、講師の方の話がとても分かりやすく、なんかわかった気になれました。
また、実際に使われている方からの貴重な意見をいろいろ聞くことができました。

会場で聞いたことメモ
・データによってウェイトをつけたいのであれば、解析の前に事前にウェイトをつけておくこと。
アルゴリズムはウォード法がお勧めらしい。理由:バランスよく分かれてくれるる巨大なクラスタと小さいクラスに分かれてもらっても困る。バランスが大切。
クラスタ分析はアルゴリズムによって結果が異なる。恣意的な結果を出せてしまう問題がある。
・データ規模では、100件ぐらいだったら階層型、それ以上だとk-means とかを使っているらしい。

市場細分化とクラスター分析

資料
http://www.slideshare.net/bob3/cfakepathtokyo-webmining3-201004

マーケティングの話。

アンケートとかの解析ってこうやって行うんだなということが始めて分かりました。
因子分析を行って、重要ではない設問は外したり、いい加減に答えられたアンケートを外すのに自由入力欄を見るなど、貴重な知識を得ることができました。

会場で聞いたことメモ
・因子分析によって設問を減らす。多すぎるとうまく分類されないときがある。
・いい加減なアンケートは自由解答欄をみればたいてい分かる。
・行動バイアス: アンケートでは高くも買うと答えているが実際は高いと買わない。ゴミをきちんと分類すると答えても、実際は分類しないなど。答えと実際の行動が違う場合がある。
・変換:年収や貯蓄額など、偏りが激しいものは対数などに変換すればきれいになる。

健診データへのクラスタリング適用例

資料
http://www.slideshare.net/guestbe53f7/kenshin

医療の分野の話。

メタボの話は耳に痛いw

一応、私は昔はやせていたんですよw
太ってきたのは仕事し始めて給料で外食するようになってからです。特に会社の近くに焼肉屋とかステーキ屋がいろいろあって、昼から焼肉とかばんばん食べてましたしw
働く前は、親からの仕送りをすべてさくらちゃんグッズにつぎ込んでいたので、袋ラーメンで暮らしていました。
ころころは超ガリガリでした。
一年で10キロとか太ったことあるからなぁ。。。

健康診断の結果がデータベース化されていないでずっと破棄されていたのにはびっくりました。
もっと有意義なデータの分析をしてほしいところですよね。。。

あと、画像解析もやってほしいなーと。
昔、椎間板ヘルニアになったとき、病院3件まわって、最初の2件ではレントゲンとったのに原因不明で、最後の3件目で典型的なヘルニアとかいわれて萎えたことがあります。見落としというレベルでないぞ。
熟練の医者が診ないと分からないものなのかー?
コンピュータで医者をサポートすることはもっとできないんでしょうか。

機械学習入門 SVMによる画像分類

資料
http://www.slideshare.net/yokkuns/3-3754435

SVMの理論は分かっていたのですが、数式で見せられるとクラクラします。
個人的にlibsvmでいいぢゃんと、数学が嫌いなので逃げているんです。。。。

感想とか

貴重な話をいろいろかけて非常に有意義でした。
特に第一線で活躍されている方のお話をじかに聞けるのは素晴らしい。

護身的に、推論や統計はずっと興味があるジャンルの一つです。
過去にも、phpによるベイジアン分析(ボールグラハム改)、辞書なし形態素解析のTinySegmenterの移植(C++/PHP(改良))、Windows標準の分かち書きエンジンをIWrodBreackerをC++から利用するルーチンなどを作成してきました。
また、12年ぐらい前には、三段論法で会話する人口無能をパソコン通信ホスト局に組み込んだり、遺伝子アルゴリズムにはまっていた時期もありました。。。こちらはソースが手元にないので公開できず。