勉強会の話なので丁寧語で。9/20にKobe.R #9があったので参加してきました。大阪で定期的に開催されているRの勉強会です。内容はRに限らず、統計処理をやる上で大事なことを扱うという感じでした。発表は誰がされたか名前を記憶していなかったりするので、とりあえず内容だけ照会します。
Statistical Disclosure Controlの紹介
Twitter ID @Wakamatzさん
個人情報を含むデータや、他の情報と組み合わせると個人情報になるデータをどのように匿名化するかという話でした。どうしても匿名化すると、実際に欲しいデータの精度とのトレードオフになるので、それをどう評価するかが重要なようです。 オォっと思った点を羅列します。
- 開示リスク(どの程度特定されやすいデータになっているか?)を評価出来るライブラリがRにある。Rすげー。
- 匿名化には適当なデータを混ぜたりクラスタリングする手法があるのかー。なるほどー。確かに適当なデータを混ぜると集計精度が落ちそう
- 評価手法は何種類かあるけど、とりあえずIL1sという評価法を紹介してもらった。実際計算してみないとなんともいえないかな。
カードで説明する統計的独立
@florets1さん
トランプのカードを例にして、独立とは何かを説明してくれました。なんとなくで済ませてたところを例を入れて分かりやすく説明してくれました。 どっかの書籍で「○○が独立な場合に△△」とか書かれてイメージはしにくいのが、ざっくりですが、「計算しやすいので△△」くらいに読み替えてよさそうというのが分かった感じです。
Powershellいいよって話(タイトル忘れた)
Windows8から、常にインストールされているPowershellを使いこなすと、スクリプトで.Net使えたりして便利って話
他
Rでパイプ使う時はpipe Rが便利とかsql使ってdbアクセスするライブラリとかforループを速く便利にする方法とか教えてもらいました。まだ実際に試してないので、試してみないといかんす。
次回参加は無理ですが、ちょこちょこ参加したいなと思いました(小並感)。