面白い論文を見つけたので紹介します。
題名は「Predicting User Replying Behavior on a Large Online Dating Site」です。((Xia, P., Jiang, H., Wang, X., Chen, C. X., & Liu, B. (2014, May). Predicting User Replying Behavior on a Large Online Dating Site. In ICWSM.))
日本語訳的には「大規模オンライン・デーティングサイトでのユーザーの返信行為を予測する」と言ったところでしょうか。
「オンライン・デーティングサイト」と言う用語はあまり日本で一般的でないような気がしたので、この記事のタイトルではマッチングアプリとしました。
論文自体とても読みやすく、予測系タスクに関して普通に勉強になりました。
と言うことで以下に分けて説明していこうと思います。
- 目的
- 方法
- 結果・結論
目的
The goal of this paper is to predict whether an initial contact message from a user will be replied to by the receiver. (論文より引用)
論文では、「ユーザーを”好み”や”基準”でマッチングさせるだけでなく、”連絡した時にどのくらいやりとりが発生するかも含めてマッチングさせることも重要なので、初回メッセージ後の返信が行われるかどうか予測する」的なことを言ってます。
方法
ここがこの論文のキモなので(結論で「定式化した」的なことをいっていた)、少し丁寧めに説明します。
概要
まずざっくり今回の方法を説明すると、
今回の返信予測問題を男女間の二部グラフを用いてリンク予測問題として定式化し、特徴量として「ユーザーのプロフィール」と「デーティンググラフの特徴量」を使った機械学習タスクに落とし込んだ
と言う感じになるかと思います。
予測器としては、ナイーブベイズ、ロジスティック回帰、K近傍法、SVM、ランダムフォレストを使ったみたいです。(かなりベーシックですね。)
データセット
中国のオンライン・デーティングサイト(baihe.com)のデータを使っているようです。
データの規模感としては以下のような感じです(論文より引用)。

定式化
まず、以下のような二部グラフを考えます。

誰か(ノード)を入力として、「最初の返信(リンク)」が誰(ノード)と繋がるかを予測します。
例えば u(女性1)、v(男性1)とした時に、リンク (u, v) を与えたその後 リンク (v, u) があるかどうかを予測すると言う感じになります。
予測的には、リンク (v, u) に特徴量をくっつけてあるかないか(正負)を予測している模様です。
特徴量
大きく分けると「ユーザーのプロフィール情報」と「ネットワーク特徴量」となります。
ユーザーのプロフィール情報はメッセージの送受信者で一致しているかなども含んでおります。
ネットワーク特徴量では、ユーザのグルーピングや、近傍の類似度的なものを使っています。
この辺は細かくなってしまうのと気力きれたので、気になる方は論文を読んでいただければと思います。
結果・結論
ざっくり行きます。分類器ごとの学習結果をPrecision, recall, AUCで評価してます。
もっともよい性能を示したのは
- 男性→女性:AUC > 0.76
- 女性→男性:AUC > 0.8
でした。
その後重要な特徴量をInformation Gainとカイ二乗値で評価してます。
男性から女性の場合は送信者の年齢、収入が重要らしいです。 笑
終わりに(記事執筆者の感想など)
最近こういったデーティングサイエンス的なものに興味が出てきています。
また面白い論文があったら紹介指定こうと思います。
コメントを残す