Page 2 of 10

2017年のまとめ

2017年のまとめ

無事修士課程を修了できたので、4月からデータサイエンティストとして東京の会社に入社することができました。

2017年は学生の終わりと社会人スタートと言う年でした。

と言うことで、以下まとめ。

 

大学院

主に以下の3点です。

  • 修士論文を執筆して提出
  • 研究科長表彰受賞
  • 奨学金返済全額免除

 

仕事

メタ認知

非常に良いメンターに見てもらうことが出来て自己認知能力が飛躍的に向上しました。

自分が何を考えているかと言うことが意外と分からないので、それを知るための能力を身につける一年でした。

プロジェクトマネージメント

会社では様々なプロジェクトが動いているので、どんな感じに進めていくのかを学びました。
目標を設定して、スケジュール立てて、それを達成するというシンプルな営みが結構深い世界と言うことを知り、色々学ぶことがあるのだなと思いました。

エンジニアリング

色々できるようになりました。
以下箇条書き。

  • AWS(ECS、Lambda、EC2、VPCなど)
  • GCP(BQ、GAE、)
  • 言語(Go、Python、Ruby、R、Javascript、PHP)
  • その他(Docker、neo4j)

 

イベント

Hack Day 2017(2月)

大学院の友人(むっちりチーム)と参加しました。
いつものメンバーと言う感じです。

「いらすとか」と言うサービスを作り、そこそこバズりました。

SPAJAM2017(6月、7月)

むっちりチームで参加しました。
東京C予選で最優秀賞、決勝戦に参加するために箱根に行きました。

業界の有名人と話せたり、美味しいご飯食べれたりしてとても良い経験となりました。

オープンデータアイデアソンキャラバン 日野市(11月)

『誰でも気軽に外出できる「トイレの機能情報」の充実』と言うテーマでアイディアソンを行いました。
グループのメンバーに恵まれ、なかなか良い議論ができました。

その他、東京都のオープンデータにも明るくなることが出来ました。

Yahoo! JAPAN Hack Day 10th Anniv.(12月)

むっちりチームで参加しました。

文字を読み取って、キャラクターがそれを喋る動画を自動生成するサービスを作成しました。

チームのみんなが社会人になっていることもありDockerとか使ってイケてる感じで作って見ました。

 

勉強会

同期入社のメンバーとのPRMLの読み会

企画とか運営とか色々やってましたが、今年もやって行きたい気持ちです。

ginza.rb

東京で開催されるエンジニアの勉強会に参加するのが夢でしたが、やっと参加出来ました。
今年は一回しか参加出来なかったので、来年からもっと参加したいです。

#bq_sushi

仕事でBigQueryを使うようになったので、参加しました。
googleのオフィス綺麗。

 

技術書典3に行ってきました

こんにちは。 本日、技術書典3に行って参りました。

技術書典とは

コミケの技術書バージョンだと思います。
個人や団体が、技術に関する本を作って売ってます。 参加者は出展者と会話を楽しみつつ本を買うことが出来ます。

買った本とその感想など

CLEAN CODE FOR RAILS

Rails好きとして買わざるを得ない本でした。
リーダブルコード』のRails版のような印象を受けました。
Rails中級者の人はどこかで聞いたことのあるような話が多く、これから実際にアプリを書くといった状況の人は目を通すことが推奨される内容です。

SERVERLESSを支える技術

神本。
「サーバーレスとはなんぞや」状態の人にもおすすめ出来ますし、「サーバーレスのサービス色々あるけどどれを(会社とかで)導入しようかなぁ」状態の人にもおすすめ出来ます。
個人的には各社の状況が良くまとめられており、とても実用的だなぁと思いました。
ただ一点注意があり、本の中でPython3系へ対応するサービスがないという記述がありますが、AWSのLambdaでは現在Python3系(3.6)が使えます
このように、一部サービスではサーバーレス環境での3系への対応が進んでいます。 なので、「Python3系使えないのか残念。サーバレスやめた。」とならないようにしてほしいです。

Pragmatic Opal

販売していて方がとても印象的で 「RubyでJavascript生成出来ますよ〜」 「Javascript書きたくないニャン」 などと言っており、ピクっと反応して買ってしまいました。
内容としてはOpalの解説+実践と言った内容でRubyできる人向けの内容でした。 とてもわかりやすく、Opalに興味が出ました。
後日またじっくり読みたい本です。

Crystalの本 その3

Ruby風味の言語として有名なCrystalですが、ずっと気になりつつも「いつか、学ぼう」と積ん読気味の言語でした。 そんな自分にこの本はなかなか刺さるものでして、導入から実践的なWebアプリの作成まで、そして日本語の扱いに関する注意点などCrystalに関する情報がかなりぎっしり詰まっています。   まずはこの本を読んでCrystalに馴染んで行こうかなと思います。

感想など

様々なジャンルの技術書が売られていて楽しかったです。 さらに「こんなに技術でワクワクしている人たちがいるんだ!」という嬉しさ的なものでテンション上がりました。 会場はエンジニアっぽい人がいっぱいいて、圧が強めでした。   売られている書籍(同人誌?)についてはハード系からソフト系まで幅広くカバーされており、自分が興味のあるRuby、Python、データ、プロマネなんかに関する本も何冊か発見しました。 きっと自分の興味ある本が見つかると思います。   次があればぜひ参加したいなと思います。 できればなんか本出したいっすね。

[TED動画紹介]OK Go: 素晴らしいアイデアの見つけ方

最近アイディアを考えることが多い人におすすめです。

OK Goによると、新しいアイディアについては「考え出す」というよりも「見つける」に近いとのことです。
どうやって見つけ出すのかとその過程における遊びの重要性が述べられています。

ライブも行っており、とても良い動画でした。

『続・わかりやすい パターン認識』2章のベイズ更新をRubyで書いた

こんにちは。
夏なのでRubyを書きたくなりました。

今回はこの本の第2章ベイズ更新について書いてみました。
詳細は本文に当たっていただけると良いかと思います。

コードは以下のリポジトリで公開しています。
Jupyter NotebookでRubyを使ってみました。

https://github.com/rilmayer/zoku_wakapata/blob/master/2/2.3%E3%81%AE%E3%83%99%E3%82%A4%E3%82%BA%E6%9B%B4%E6%96%B0%E3%81%AE%E5%AE%9F%E9%A8%93%E3%82%92Ruby%E3%81%A7%E8%A1%8C%E3%81%86.ipynb

Webサイトの指標をまとめてみた

こんにちは。

Webサイト改善のため、現状把握として使える指標にどんなものがあるのか簡単に調べてみました。

調査方法

Webサイトの指標を紹介しているいくつかのWebサイト(「Webサイト 指標」とかでググった)から指標をピックアップして、登場回数を数えてみました。

多くのサイトで言及されている指標ほど重要なんだと思います。

参照サイトは記事の最後にまとめてます。

結果

  • (平均)PV…8回
    目指すべき値 3〜6ページ1、6〜8ページ3
  • CVR (応募, 広告クリック, 成約, 購入など)…7回
    目指すべき値 1%1 3
  • 直帰率…6回
    目指すべき値 50%1 3
  • セッション数(1セッションあたりの平均PV)…5回
  • ユーザー数(UU)…5回
  • (平均)滞在時間…4回
    目指すべき値 5分3
  • 新規訪問者(ユーザー)数…4回
    目指すべき値 70%3
  • リピーター率…4回
  • 総ページ数…2回
  • DAU(デイリーアクティブユーザー)
  • 参照サイト数
  • 自然検索流入数

まとめ

PVCVR直帰率といった定番の指標はほとんどの解説サイトで言及されています。

まずはこの辺りの指標を用いて、Webサイトを計測し、改善につなげていくのが良さそうです。

 

参考Webサイト

  1. https://www.marketingbank.jp/special/cat05/42.php
  2. http://raise-co.com/web-marcketer/
  3. https://promonista.com/sitekaizenindex/
  4. https://mynavi-creator.jp/blog/article/kpi-and-kgi-for-web-director
  5. https://ferret-plus.com/283
  6. http://makitani.com/2007/08/waa_standards_analytics_definitions.html
  7. http://mekemoke.jp/2012/12/726.html
  8. https://uideal.net/blog/01/379/

NRIハッカソンに参加してきた

NRI HACKATHON 2016のDEMODAYに参加してきました。

メンバー写真

(右から2番目が私)

NRI HACKATHON : http://innovation.nri.co.jp/hackathon/

友人に誘われてなんとなく参加したのですが、なんとなく事務連絡係をしてしまい、なんとなく最終日のプレゼンもやってしまい、開催期間中に結構リソースを割いたハッカソンとなりました。

今回はNRI HACKATHONってどういう雰囲気なのかしら?と気になっている人向けの記事を書いてみようと思います。
(自分向けの備忘録としても機能しています。)

Continue reading

『データ分析とデータサイエンス』を読む 1.1と1.2

『データ分析とデータサイエンス』(著:柴田里程)をふと手にとって読んでいます。

さらっと目を通したところ

  • データ分析の基本的な内容をきちんと押さえている
  • データ分析の基礎用語の解説が丁寧
  • 実際の実務につながるように工夫が凝らされている

と言うことがわかりました。

ということで、勉強になると思ったので、最初から読んでいって、その勉強の内容をブログにのっけていこうと思います。

気になった人は是非買って読んでみてください。

この本の目次は以下のようになっています。

第I部 データ分析
第1章 データ
第2章 データ分布
第3章 データ分布の代表値
第4章 箱ひげ図
第5章 2変量データ

第II部 データサイエンス
第6章 データサイエンス入門
第7章 個体の雲の探索
第8章 変量間の関係
第9章 変量間の相関
第10章 確率モデル

順番に読んでいこうと思います。
第I部では、データを扱う上で心得ておくべき基本的な事柄が紹介されています。

個人的には、ここでの用語の扱い等が、最も低レイヤーにおけるデータサイエンティストたちにとっての共通言語的なものになるのではないかなと考えています。
もちろん大きな意味での共通言語は統計や数学であることには変わらないと思いますが。

「第1章 データ」の構成は以下のようになっています。

1.1 変数と変量とデータ
1.2 関係形式
1.3 データの代表値
1.4 偏差値

ということで、今回の記事は1.1と1.2の内容について紹介していきたいと思います。

以下は私の解釈も幾分かふくまれているので、正しい情報は原著を読むようお願いします。

1.1 変数と変量とデータ

→「データ」とはなんぞや

ここでは「データ」という用語を定義するために、変量や変数といった用語を明確にしています。

変量(variate):
「分析対象のデータ構成を明確にするために、ある対象について記録された一つ一つの要素」

例)
ある対象:車検証
変量:登録番号、登録年月日、種別、自家用・事業用の別など

ここで、変量の考えを使って、データを定義します。

データ(data):
「分析の対象となる変量の値の並び、あるいは、複数の変量の値の組」

一方で、変数は変量と対比させるとわかりやすくなります。

変数(variable)
「分析の対象が何らかの(数式等により)モデルで表された時に、そのモデルを構成する変化させることのできる要素。」

変量は具体的な対象について表しており、記録のたびにその値は変化します。
それに対し、変数は値を変化させてどのような影響が生まれるかを調べるための道具です。

ということで、変数と変量とデータの関係が明らかになりました。

1.2 関係形式

ここでは上記のようなデータが集まったもの(関係形式データベース)を数学的に扱う方法が紹介されています。

テーブルとレコード

ここで以下のような表を考えてみましょう(コップのデータ)。

コップ1 コップ2 コップ3 コップ4 コップ5
高さh(cm) 15 13 14 10 7
重さw(g) 300 500 200 400 600

ここで、上記のような表をテーブル(table)と呼びます。

そしてこのテーブルと、以下の集合

R = {(h1, w1), (h2, w2), (h3, w3), (h4, w4), (h5, w5)}

と同一視します。集合Rの各要素 (h1, w1) などは記録(record)と呼びます。

テーブルとRDBMS

これらのテーブルを操作するためにRDBMS(MySQLやPostgreSQLなど)が用いられる。
RDMSでは変量のことを属性(attribute)、属性の値の並びをカラム(column)と呼びます。

関係を数学的に表記

集合AとBの間の二項関係は直積集合A×B={(a, b) | a ∈ A, b ∈ B}の部分集合Rとして定義されます。
(a, b) ∈ R のとき、a ∈ A と b ∈ B はR-関係を持つといい、a~bと表します。

これを複数の集合に一般化して考えます。
集合D1, D2, ・・・, Dn の要素間のn項関係は、直積集合D1×D2×・・・×Dnの部分集合Rで定義されます。
このような集合Rを、関係グラフ(relation graph)と呼びます。

ここで、テーブルで示される関係は、本来の関係全てではなく、記録された範囲に限った話であることに注意が必要です。

関係形式データベースでは、集合D1, D2, ・・・, Dnはドメイン(domain)と呼ばれ、変量の値域や名前、単位などの情報を与えます。ドメインは順序には意味がなく、順序を変えても同等なテーブルとなります。

ドメインの属性

このようなドメインは、いくつかの属性を持つ場合があります。
例えば、「名前属性(”高さ”や”重さ”など)」、「単位属性(”kg”や”cm”など)」、「型属性」などがあります。
これらの属性によって、そのドメインの意味がより明瞭になります。
以下では特に「型属性」について説明します。

型属性には大きく分けて、実数のようにどんな値でも取りうる型である連続型(continuous)と、特定の値しかとらない離散型(discrete)の2つがあります。離散型でも、値そのものより「その値であること」に意味がある場合は、特にカテゴリ型(category)と呼びます。