Blog

Research

参加報告

2020.2.7

WSDM2020に参加しました！

WSDM

WSDM2020

AI Labの森脇@dmoriwakiとAI Shiftの友松@tomomatsu_yutaです。

今回、ウェブ系のトップカンファレンスであるWSDM2020（ウィズダム2020）に参加してきましたので概要を報告します。

開催地はNASAで有名なアメリカのヒューストンで、参加者400人弱で上位はアメリカ（235人）、中国（46人）、日本（14人）でした。コロナウイルスの影響で中国の方の欠席が多かったようです。採択率は15%（91/615）で、国別に投稿数を見るとアメリカと中国がともに全体の３割を占め２強という感じでした（日本は２％）。

テーマ別に見ると、neural network, recommendation system, social network, data mining, knowledge graphといったものが多く、”ディープラーニングで推薦エンジンでSoTAや！”なペーパーが目に付きました。また、SNSデータなどネットワークを使った研究も多かったように感じます。ほかにはInformation retrieval, world wide web, collaborating filteringといったウェブ系に特有のものもありました。最近の流れですが、機械学習モデルにおけるバイアスの問題に着目した講演や論文も目立ちました。

Day 1(Monday 3 February)

Industry Day

初日は、企業の研究者やデータサイエンティストが発表するインダストリーデイが開催されていました。気になったセッションについて説明します。

[Keynote] Beyond Being Accurate: Solving Real-World Recommendation Problems with Neural Modeling

報告者: Ed Chi (Principal Research Scientist, Google, USA)

アイテム推薦(item) -> パーソナライズ推薦(user, item) -> Contextualパーソナライズ推薦(user, context, item)といったこれまでの推薦システムの流れを紹介した上で、最近の研究動向として、(1)マルチタスク学習, (2)時間と報酬の導入にRLのメソッド, (3)次元の呪いとコールドスタート対策として深層検索と表現学習, (4) スレート最適化として多様化モデリング, (5) 効率の最適化としてTPUモデルを用いたLerge Sparse Model (6) エコシステムとしてResponsible MLとML fairnessが紹介されました。

[Invited Talk 1] Search ML at Airbnb

報告者: Vanja Josifovski (CTO, Homes, Airbnb, USA)

Airbnbの検索におけるレコメンドについての話でした。Airbnbの性質上、ユーザが選んでもホスト側がRejectする可能性があり、それを考慮したレコメンド手法。Query Feature, Guest Feature, Listing Featureを用いてそれぞれDNNを構成しているそうです。リアルタイム性やバンディットでの最適化を行なっており実環境での動作を想定して作られていました。

Challenges, Best Practices and Pitfalls in Evaluating Results of Online Controlled Experiments

同じく初日にA/Bテストのチュートリアルが開催されていました。A/Bテストは単純なようでクリーンに実施してうまく意思決定につなげるためには様々な工夫が必要となります。このチュートリアルでは、実際に現場でA/Bテストに携わってきた専門家によって考え方から具体的なお作法について解説されていました。資料が公開されているのでぜひ御覧ください。

なお、このチュートリアルは説明者の大半がマイクロソフト関係者でこの分野での圧倒的な存在感を再確認しました。

Web-scale Knowledge Collection Tutorial

上記チュートリアルと並列で情報抽出(IE; Information Extraction)のチュートリアルが開催されていました。こちらのチュートリアルでは情報抽出の手法が扱うデータごとに章立てされ、非構造化テキスト, 半構造化テキスト, 表形式のテキストからの抽出やマルチモーダル抽出について解説していました。
こちらも資料が公開されているので、ぜひご覧ください。

このチュートリアルでは、古典的な手法から画像を組み合わせたマルチモーダルな手法まで体系立てて細かく解説されており、日本に帰ってからも読み直したいと思いました。

Day 2(Tuesday 4 February)

２日めは、UCバークレーのBin Yu教授 [wikipedia]の基調講演から始まりました。自身の膨大な研究を背景にした機械学習モデルの解釈性や安定性を軸に丁寧な議論を展開されており、データにかかわるもの必聴の講演でした。教授の議論は非常に一般性のあるもので、データの質が問題になった例として、経済学におけるラインハート＝ロゴフ事件（ロイターの解説記事）をあげていました。

統計学者でありながら様々なコラボレーションによりニューロンから宇宙まで幅広い分野を手掛ける姿勢はバラバシ教授との共通点を感じました。印象に残ったのは、パブリケーションを焦るなという主張でした。安定性や解釈性を確保するためには十分な時間が必要です。教授の主張はパブリケーションを焦るあまりすぐに結果に飛びついてしまう風潮に対しての批判であると感じました。

Paper Session

続いて、paper sessionでは採択された論文のなかで、さらに限られたリサーチの口頭発表が行われました。弊社にもインターンに来ている東京工業大学の齋藤優太さん（@moshumoshu1205）のUnbiased Recommender Learning from Missing-Not-At-Random Implicit Feedbackの口頭発表がありました。前二人が、本人が会場にこれなかったため、ビデオや代打発表だったので、事実上トップバッターでしたが、３ホールぶち抜きの大会場（WSDMはシングルトラック）で堂々と発表されていました。

齋藤さん

レセプション＆ポスター発表

夕方からは、レセプションとポスター発表がありました。採択論文のうち多くはポスターでしか話が聞けないので貴重な機会でした。

Yahoo! Research/VerizonのAd Close Mitigation for Improved User Experience in Native Advertisementsは、ユーザーに閉じられやすいネイティブ広告に対してペナルティを与えることで、ユーザー体験を改善する新たなオークションを提案しており興味深かったです。

Day 3(Wednesday 5 February)

３日めには、テキサスオースティン教授でもあるFaceBook AI ResearchのKristen GraumanからComputer Vision for Fashion: From Individual Recommendations to World-Wide Trendsと題してCV×ファッションに関する研究動向について1. Discovering latent styles, 2. Assembling outfits, 3. Forecasting future trendsの3つのテーマについて基調講演がありました。

1では、トピックモデルを用いて教師なしのvisual style topicを推定する研究[Hsiao & Grauman, ICCV 2017]、データセットから自動でstyleを発見する研究[McAuley et al. 2015], [Kiapour et al.]、Style Summarizationに関する研究[Hsiao & Grauman, ICCV 2017]などが紹介されました。

2では、現在の服装から少ない変更でファッショナブルにしてくれるfashion++モデルの研究[Hsiao et al. ICCV 2019]などが紹介されました。

3では、8万アイテムのAmazon Datasetからトレンド予測をおこなう研究[Al Halah et al. SIGIR 2015]、都市間のファッションの影響を予測する研究[Al Halah & Grauman, 2019]などが紹介されました。

Paper Session

この日は、珍しくデータマイニング系のペーパーが多く、なかでもAddressing Marketing Bias in Product Recommendationsは機械学習モデルによる推薦が引き起こすマーケティングバイアスについての問題点を、属性によって推薦されるべきものがされないといったフェアネスの観点から指摘しており、データ分析からマーケティングバイアスの存在を指摘した上で新規手法を提案していました。新手法はフェアネスの観点だけではなく、潜在的なマーケットを掘り起こす上でも有用だという主張は説得的でした。

またWhy Do People Buy Seemingly Irrelevant Items in Voice Product Search?: On the Relation between Product Relevance and Customer Satisfaction in eCommerceはスマートスピーカーAlexaのデータから、本来買うべきものじゃないものが推薦されても買ってしまう人が一定数いることに着目し、関係ないもの（irrelevant）を推薦することについて研究していました。これはマーケティング・サイエンスにおける非計画購買の概念に通じるところがありますが、結果的にはirrelevantなものを推薦するのはそこまでよくないという結論でした。こういった、データマイニング系の論文は数は少ないものの非常に聞いてて楽しかったです。

Day 4(Thursday 6 February)

Best Paper Session

この日の前日の夕食会のときにBest Paper AwardおよびBest Paper Award Runner-Upが発表され、こちらのセッションでは受賞した2名の発表でした。

The power of pivoting for exact clique counting

こちらの研究はグラフ理論におけるクリークのカウントについて取り扱っています。大きな次元数のクリークを数えようとした場合に指数的に爆発するので困難です。この研究では新たなアルゴリズムであるPiviterを提案し、2時間以内に1億エッジを超えるソーシャルグラフのクリークをカウントすることに成功してSoTAを達成しています(以前は数日かかっていた)。またもう一つの特徴として、ローカルの頂点, エッジごとにすべてのkクリークをカウントすることができ、これまでにこのような研究はなかったようです。

HyperML: A Boosting Metric Learning Approach in Hyperbolic Space for Recommender System

こちらの研究は、HyperMLと呼ばれるMetric Learningという手法を使った推薦アルゴリズムです。Metric Learningを使うとtop-K推薦の解釈性と拡張性が上がる点、三角不等式を用いているため、同じアイテムが好きなユーザーと、同じユーザーが好きなアイテムを一緒にクラスター化することができる点の２点で有効です。ユークリッド空間と双曲線空間の間のembeddingの歪みを最小化する式を提案しています。

Day 5(Friday 7 February)

Workshops

最終日は、ワークショップが並行して開催されていました。ただ、同日にニューヨークでAAAIが始まったせいか人はまばらでした。

SUM 2020: Workshop on State-based User Modelling

State-aware User Modelingというテーマで３つの招待講演と３つの投稿論文が発表されました。WSDMの運営にも関わっているSpotify ResearchのディレクターであるMounia Lalmasからユーザー体験にかかわるこれまでの研究について紹介がありました。Spotifyのプレイリストは、その種類によって最適化するべき指標が違うそうで、たとえば睡眠用のものはユーザーが眠りにつく（クリックも何もしなくなる）ことに最適化しているようです。また、ユーザーの性質によって違った推薦をすべきで、雑多なものを好むGeneralistと特定のジャンルを好むSpecialistといった分類をしているそうです。講演を聞いていて思ったのは、Bin Yu教授と同様非常に丁寧にデータをみているなということでした。例えば、モバイル最適されていない文字がごちゃごちゃしたウェブサイトでは、ユーザーは理解するのに手間取るため滞在時間が長くなるが、決してユーザー体験がよいわけではないということなど、しっかりドメイン知識をもってないとできないストーリーの構成が非常にうまいと思いました。

本ワークショップでは森脇も慶應義塾大学の星野崇宏教授との共同研究の論文を発表しました。広告のクリエイティブ選択時に用いる文脈付きバンディットに、広告疲れという特徴量を加えることで、より飽きていない広告クリエイティブを選択させCTRを向上させたというものです。会場からは、オンライン実験に際してもともと動いていたアルゴリズムによる影響をどう考えるかといった質問がありました。

ConvERSe 2020: Workshop on Conversational Systems for E-Commerce Recommendations and Search

こちらのWorkshopではE-commerceにおける推薦と検索について取り扱っており,Invited talkやcontributed talk, パネルディスカッションなどが1日に渡って行われました。

招待講演のConversational agents for e-commerce: getting strong now ではAmazon AlexaのVUI(Voice User Interface)についての講演でした。Task-driven dialogを行うためのNatural Language Understanding, Dialog Manager, Natural Language Generationの各ユニットの説明や、動画でのデモ上映があったりしました。適用先としては商品一覧、商品検索、ユーザ同士のインタラクションなどに使われているようでした。