Doorkeeper

データサイエンス講習会Part4

2017-10-15(日)18:00 - 21:00 JST

LabCafe

東京都文京区本郷4-1-3 明和本郷ビル7F

詳細

【データサイエンス講習会Part4】
【内容】
・dplyrパッケージによるデータハンドリングを一通り(行・列の抽出、グループごとの集計、変数作成)。
・R言語の強みである欠損値処理。
・Part1で扱いきらなかったformattableパッケージによる可視化。
・探索的データ解析(時系列変数を含むものと含まないもの)。

【目的】
・dplyrパッケージとggplot2パッケージを使いこなせるようにする。
・欠損値処理の流れと全体像を理解する。
・探索的データ解析の流れを学ぶ。
・いろいろな種類のデータに触れる。

【日時】2017年10月15日(日)18:00-21:00
【会場】
LabCafe
東京都文京区本郷4-1-3 明和本郷ビル7F
http://lab-cafe.net/page/access
(本郷交番向かいの、ラーメン屋さんが1Fに入っているビルです。)
東京メトロ 丸ノ内線「本郷三丁目」 徒歩3分
都営大江戸線「本郷三丁目」     徒歩3分

以下イベント詳細となります。

【タイムライン】
17:45- 開場
18:00-18:05 各参加者の自己紹介と知りたい分野の口頭発表(一言)
18:05-18:35 データ変換(dplyrパッケージ)
18:35-19:15 欠損値の可視化と対応方法
19:15-19:25 休憩
19:25-19:45 Human Resource Analysis
19:45-20:25 Kobe Bryant選手のデータ解析
20:25-20:35 休憩
20:35-20:45 formattableパッケージでの可視化
20:45-20:50 McDonald’s Menu Data Analysis
20:50-21:00 Point Of Sales Data Analysis
21:00- 解散
※あくまでこのタイムラインは目安です。

【Part4詳細】
ーデータ変換技術ー(30分)
filter関数による行の抽出
select関数による列の抽出
mutate関数による列の作成
group_by関数とsummarize関数
パイプ演算子

ー欠損値の対応ー(40分)
欠損値の集計と可視化
欠損値の対応1(リストワイズ法)
欠損値の対応2(ペアワイズ法・完全情報最尤推定法)
欠損値の対応3(miceパッケージでの代入法)
欠損値の対応4(miceパッケージでの代入法)
欠損値の対応5(randomForestパッケージでの代入法)

ー探索的データ解析ー(90分)
HumanResourceAnalysisDataの探索的データ解析(25分)
Kobe Bryant選手の探索的データ解析(40分)
formattableパッケージ紹介(10分)
McDonald’s Menu Data Analysis(5分)
Point Of Sales Data Analysis(10分)

【注意点】
・基本的にPart1(できたら2も)を受講なさられた方が対象です。基本的なRプログラミングの説明は飛ばしがちにます。あと可視化についても同様です。Rを使ったことがない方は、ドットインストール(http://dotinstall.com/lessons/basic_r )がおすすめです。

【Rとは?】
 オープンソースで無償である高機能な統計ソフト。世界中のRユーザが開発したRプログラム(パッケージ)がCRAN(The Comprehensive R Archive Network)というネットワークにより提供されています。プログラミング初心者でも扱いやすく、Referenceが充実しています。

【参加方法】
Doorkeeperでご登録ください。

【参加費】
学生・ポスドク 無料(受付にて学生証・身分証をお見せください)
社会人3000円(お釣りのないようにお願いします。以前Part4を受けた方は無料。お名前と受講日を受付にてお申し付けください。Udemy(https://www.udemy.com/r-data-visualization/ )で講座をご購入いただいた方も無料です。受付にて購入画面をお見せください。)

【当日の持ち物・必要なPCのスペック・必要なソフトウェア】
※ご自身のノートPCを必ずお持ちください。
【Windowsの方】
Windows 7以上を推奨 (Xquartzのダウンロードは不要。Rだけダウンロードインストールお願いします)
1, Rを事前にダウンロードしてきてください(RStudioではありません)。
https://cran.r-project.org/
のDownload R 3.4.1 for Windows (62 megabytes, 32/64 bit)をクリックして、インストールを進めてください。(Download R for Windowsをクリック、baseの文章内のinstall R for the first timeをクリック、Download R 3.4.1 for Windows (70 megabytes, 32/64 bit)をクリックしてダウンロードののち、インストールを行ってください。

【Macの方】
Mac OSX(10.6以上推奨)
1, Rを事前にダウンロードしてきてください(RStudioではありません)。
https://cran.r-project.org/
Download R for (Mac) OS Xをクリック、R-3.4.1.pkgをクリックするとダウンロードできます。そののちにインストールしてください。
XQuartz(Macのみ)が入っていない方いましたら、ダウンロードを事前に行ってください。
https://www.xquartz.org/
ダウンロード後、ユーティリティの中にあるx11をダブルクリックしてからRをで、コードをご使用ください。
※Windows環境とMac環境両方お持ちの場合は、Windowsを推奨します。
(※当日のパソコン貸し出しは行いません。もし動作がうまくいかない場合、講義を聞くだけになります。その旨ご了承いただける方のみご参加ください。RはOSだけでなく各マシンの種類・設定によっても一部動作しない場合がありますが、それをご理解いただける方のみご参加ください)

【Linuxの方】
1, https://cran.r-project.org/
から、Download R for Linuxをクリック、その後、各々の環境に沿ってダウンロードインストールを行ってください。

【ハードウェアについて】
・無線LAN搭載
・HDD空き容量2GB以上
・メモリ4GB以上

【開発環境設定】
当日の運営を円滑に行うため、環境設定はできるだけご自身で事前に行ってください。
※RとRパッケージのダウンロード・インストールで生じたマシンのすべての不具合に関して運営側は責任を負いかねます。

※ご自身のノートPCを必ずお持ちください。
【お願い】
当日、一部でネット環境を必要とします。会場のWi-Fi回線は混みあうことが予想されますので,お持ちの方はモバイルルーターなどをご持参ください(こちらでも用意しています)。

【参加者のご感想】
・内容は高度かつ速度は速いですが、あまり時間の取れない社会人からすると、このくらいで概要を把握し、あとは時間のある時に復習する方が、効率的と思います。
・テンポも内容もとてもよかった。
・実践的なコードやデータセットの紹介が多く勉強になりました。紹介されたパッケージも可視化に役立つものと思いますので、ぜひ、使ってみたいと思います。
・丁寧に作られていてとてもわかりやすかったと存じます。最低限コピペでも先に進めるデザインはとてもよかったです。
・本やインターネットでは得られない貴重な情報だと感じています。
・駆け足でしたが、資料がとても良くできているので特に問題とは思いませんでした。駆け足のぶん、たくさんのことを学べ、よかったです。Part3と合わせて計6,000円の価値は十分にあったと思いました。

【講師紹介】
鈴木瑞人
2014年3月東京大学理学部生物学科卒業
2016年3月東京大学大学院新領域創成科学研究科 メディカル情報生命専攻 修士課程卒業
2016年4月東京大学大学院新領域創成科学研究科 メディカル情報生命専攻 博士課程入学

【お問い合わせ先】
machine.learning.r@gmail.com

【主催】
実践的機械学習勉強会

コミュニティについて

実践的機械学習勉強会

実践的機械学習勉強会

データサイエンス・機械学習を実際に自分の手で使えるようにする会です。 概要を説明するよりも、実際に自分の手を動かして学んでいく会が中心です。 学生・ポスドクは基本的に無料で参加できるのでぜひご参加ください。 東大大学院 新領域の大学院を卒業した人が運営してします。 今後扱っていくテーマは、 自然言語解析(日本語)、画像解析(CNNベースのもの)、グラフニューラルネット、機械学習のアプリ実装で...

メンバーになる