Table of Contents
TL;DR
書きながら走る方針
時間割
- Day1 Tutorial 2021/8/14
- Day2 Workshop / ADKDD
- Day3 Opening / Keynote / Research / Applied Data Science
- Day4 Keynote / Research / Applied Data Science
- Day5 Keynote / Research / Applied Data Science
- Day6 DeepLearning Day / Poster / Sponsor / Closing
Tutorial
参加したのは4つ(人間が参加できる限界個数)
- Counterfactual XAI
- Data Pricing / Data Asset Governance
- Causal Inference
- Online Ad Incremental Testing
各論の解説
安定のHUAWEIの提供でお送りします。
歴史
- アメリカ国防高等研究計画局で2017年に始まったプロジェクトXAI。
- KDD2019,KDD2020,KDD2021も。
Counterfactual(反事実)を作る目的
=小さな摂動を加えて、「あの時どうしていれば成功したか?」を予測する。
Counterfactual generation
どんなデータでもいいが、Lossを工夫して、generationを行う。画像の場合、GANやVAEを使うことも。
metrix
Computational / Cognitive Metrixがある。後者はアンケートを取ることもある。
Explanations in Different Areas
- NLP
- CV
- GNN
- 画像をグラフ化したものが多い。グラフ変動から問いに答える
Applications of Counterfactual
Data Pricing and Data Asset Governance in the AI Era
GDPの60%は今年中にデジタル化されるそうです。
分散型個人情報管理
- ビザンチン
- Fisher Lynch Patterson
- BAR fault Tolerance
Data Auditing
Federated Learning
- malicious FL server
- Threat models
Causal Inference from Network Data
60人ぐらい参加してた人気セッション。
- average treatment effect
- conditional average treatment effect
Peerとか局所的エフェクトばっかだけど、ネットワークの話だからか?
クラスター間の相互作用が多い
現実のネットワークはそうなってない
クラスター保存ランダム化CMATCH
Two-sided Market Randomization (Bipartite Graph)
Large network
repeated blocks
contagion effect
…
pseudo BIC
causal discovery
relational graphs -> causal
- PC Algorithm (Predict, Search)
- Collider Detection
W13A: AdKDD 2021 (full day – A)
- ベイズ時系列
- ポストアドコンバージョン
- overstock(India) Reinforcement Learning
- ZEOTAP Cox Hazard
Keynote1 – Sunita (Google)
- Text Creative Generation
- Multimodal Summarization
ebay
list of papers
W30: Machine Learning for Consumers and Markets
今回が初回なのでこなれておらず、テーマの統一感がないかもしれない。
- Marketing Gap
Applied Data Science Tracks
- Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and Multi-Period Optimization Approach
盒馬隣里というスーパーがあるのですが、そこの発表です。
Inventory Controlのために、古くなった商品を掃けたいので、Best Discount Priceを予測します。
すると、いくつかの困難が知られています。
- 学習データ不足 → ほとんどの商品は定価で売られるので学習データがありません。 → counterfactualを予測することになります。
- Factual errorがCounterfactual errorを近似できない
- 特徴量と値段に共分散がある
その解決策として、data-driven semi-parametric structured price-demand curve modelを作ります。
これは、MLModel(demand)とEconomicModel(price elasticity curve)の二段階構成になっています。
MLModelについて
- bias-variance tradeoffを考えると、variance(demand uncertainty)をmodelしたほうがいい
Economic Modelについて
- Markov Decision Processにする
- Period Binを作って、Joint Trainingする
評価方法について
オンラインテスト→手作業の値下げに対する、A/Bテストになります。
2.RELATED WORK
なぜ機械学習できないかというと値動きデータがないからです。なので、本論文の肝は機械学習ではなく学習データが不要なDP(Dynamic Programming)で解を出すところです。
4. Counterfactual Prediction
定義は、「E[Y|do(d), x]を予測すること」とする。
doオペレーターを使っているのは、未知の測定量にconfoundされないため。つまり、値下げ金額d(discount)を条件付きで固定するだけでなく、dのDAGがあるなら、d以外の変数もランダム化したり、conditionしたりしている可能性がある。
xは特徴量で、Yは売上(Σ単価・売上個数)を予測する。
4.1 Semi-Parametric Structural Model
よくわからんところ
- なんでカテゴリ変数の数mと、パラメトリックモデルのパラメーター数m+1が同じmを使っているのか?
- 関数gについては、値下げに対するセールスリフトが、カテゴリにしか依存せず、SKUに依存しないという過程を置いてると理解しているが正しいか?
- その論理なら、関数hについても、xに依存しないと考えるのが良いと思われるが、なぜパラメトリックでなくセミパラトリックにしたのだろうか?
著者の回答があるがあまり納得できない点もある。
4.2 Base Sales Forcasting
値下げがhistorical average(観測値)に等しいときの売上予測、hの話。
4.3 Price Elasticity Model
4.4 Counterfactual Demand Prediction
5.