前回の 「JustTechTalk#11 エンジニアの新しいキャリア Customer Reliability Engineer (CRE)」参加レポート に続き、メルカリさんのCREのイベントに参加してきました。ざっくりメモですが載せておきます。
Mercari Server Side Tech Talk Vol.2 〜CREナイト〜
スピーカー
- 会場案内&CREチームのご紹介 by @bravewood氏
- メルカリの商品監視を支える技術 by @icchy 氏
- 機械学習によるマーケット健全化施策を支える技術 by hnakagawa氏
- 機械学習によるマーケット健全化のためのモニタリング by @metalunk氏
サマリ
「CREチームの紹介」
メルカリの規模
- 国内6,000万超DL
- 1日の出品数は100万超
- 月の流通額100億円超
CS体制
- 仙台と福岡に拠点。400名
CRE立ち上げ
- 参照:CREチーム始めました - Mercari Engineering Blog
- やっていたこと
- 商品、コメントを監視
- 不正ユーザの検知
- オペレーションの自動化
- 全社のOKRとして「CS」がトップ。売上は2番目。
- googleのCREとは若干異なる。googleはGCPのtoBセールスエンジニアの特色が強い。
- メンバーは10名。PM+エンジニア
- 他チームに所属しているが、関わっている人を含めると20名ほど。
- 直近の取り組み
- お客様同士のキャンセル機能
- 受け取り評価の自動化
- 問い合わせ分類や商品監視ツールの機械学習導入
- キーワードベースで分類 → ML導入
「メルカリの商品監視を支える技術 」
これまで
- 怪しいキーワードを手動で登録
- 検知されたものをCSが確認
これから
- ML導入
- 医療品やアダルト、キーワード羅列など検知しやすい
- 全て自動化するのではなく、MLで効果の出そうなところから
- 判定の確度によって、CSへのアラート/自動非表示の切り替えをしている
- 運用
- 誤検知はあってはならない
- 間違って判定した場合の対応など、CSリソース的にどれくらい対応可能か細かく連携している
- 新しいモデルを導入する場合にA/Bテストを利用し、開放率は都度調整している
- 誤検知はあってはならない
- さらに
- ML導入だけでなく、CSのオペレーションの見直しも含めて実施していく
- それによって人間味が必要な対応にCSが時間を当てられるような状態を作る
「機械学習によるマーケット健全化施策を支える技術」
SREとして
- 所属はSRE : ソフトウェアエンジニア(ML Reliability - SysML) / メルカリ
- MLエンジニアが成果を出しやすい環境を構築する
- MLに関連するAPIやツールの開発とその運用
- ML分野に関連する作業の自動化
- MLエンジニアと協力し、MLに関わる問題の解決
環境
- 内製のML Platform : k8s利用
- ローカル環境とクラスタ環境の差を抽象化する
- 既存のML FWを利用して 簡単に traning/serving を利用できるように
- Tensor flow / scikit-learn / Apach Beam に対応
- OSSにするのは決定している
MLエンジニアの負荷
- 人間の行動を相手にしているため、データの傾向が変わりやすかったり、予想外の問題は発生して、対応し続ける必要がある
- システムは再学習しているが、(不正)ユーザも再学習している
- ML model作成者に負担がかかり続ける。SREとしては自動化を含んだ仕組みで解決したい。
- FBLearner Flow のようなものを作りたい
- そもそもMLを利用した機能を本格運用しようとすると、大幅な仕組み化・自動化が必要だと思っている
- 運用にコストがかかってしまっては本末転倒
- ML Reliability としてMLインフラの自動化・仕組み化を押す進める人材が全然足りない
「機械学習によるマーケット健全化のためのモニタリング」
商品監視
- 安心安全を保つために出品が禁止されているもの
- 偽ブランド
- ゲームアカウント
- 金券
- アダルト
- ...
- その他不適切だと判断されるもの
- キーワード羅列:ヒットされるために関係ないキーワードを羅列とか
再学習が効くケース
- 教師データにCS業務のFBが得られる場合
- ML自動検知 <-> CSメンバーの確認(ラベル付)
- データの傾向が変化するような違反種別
- ゲームアカウント(新しいゲーム): 教師データにないので検知できない
- キーワード羅列(流行)
取り組み
- 古いML基盤の移行
- 移植あるある
- local でしか動かない jupyter notebook
- Train code が local にしかなかったり
- 移植あるある
- 他モデルを利用した商品監視
- 商品データをインプットしても検知が困難な種別がある
- 架空取引
- オフラインでやりとりし、決済だけメルカリ
- 犯罪の温床にもなるので排除する必要がある
- グラフを用いて解決
- ノードをお客様、エッジを取引としたグラフ。
- 架空取引の商品から、グラフを広げていくとそれらはつながっていた。
- 作者: 有賀康顕,中山心太,西林孝
- 出版社/メーカー: オライリージャパン
- 発売日: 2018/01/16
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (4件) を見る
SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム
- 作者: 澤田武男,関根達夫,細川一茂,矢吹大輔,Betsy Beyer,Chris Jones,Jennifer Petoff,Niall Richard Murphy,Sky株式会社玉川竜司
- 出版社/メーカー: オライリージャパン
- 発売日: 2017/08/12
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
いちばんやさしい機械学習プロジェクトの教本 人気講師が教える仕事に AI を導入する方法 (「いちばんやさしい教本」シリーズ)
- 作者: 韮原祐介
- 出版社/メーカー: インプレス
- 発売日: 2018/03/26
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る