BppLOG

Berlin → Tokyo

「Mercari Server Side Tech Talk Vol.2 〜CREナイト〜」参加レポート

前回の 「JustTechTalk#11 エンジニアの新しいキャリア Customer Reliability Engineer (CRE)」参加レポート に続き、メルカリさんのCREのイベントに参加してきました。ざっくりメモですが載せておきます。


Mercari Server Side Tech Talk Vol.2 〜CREナイト〜

スピーカー

  1. 会場案内&CREチームのご紹介 by @bravewood
  2. メルカリの商品監視を支える技術 by @icchy
  3. 機械学習によるマーケット健全化施策を支える技術 by hnakagawa氏
  4. 機械学習によるマーケット健全化のためのモニタリング by @metalunk

サマリ

「CREチームの紹介」

メルカリの規模

  • 国内6,000万超DL
  • 1日の出品数は100万超
  • 月の流通額100億円超

CS体制

  • 仙台と福岡に拠点。400名

CRE立ち上げ

  • 参照:CREチーム始めました - Mercari Engineering Blog
  • やっていたこと
    • 商品、コメントを監視
    • 不正ユーザの検知
    • オペレーションの自動化
  • 全社のOKRとして「CS」がトップ。売上は2番目。
    • googleのCREとは若干異なる。googleはGCPのtoBセールスエンジニアの特色が強い。
  • メンバーは10名。PM+エンジニア
    • 他チームに所属しているが、関わっている人を含めると20名ほど。
  • 直近の取り組み
    • お客様同士のキャンセル機能
    • 受け取り評価の自動化
    • 問い合わせ分類や商品監視ツールの機械学習導入
      • キーワードベースで分類 → ML導入
「メルカリの商品監視を支える技術 」

これまで

  • 怪しいキーワードを手動で登録
  • 検知されたものをCSが確認

これから

  • ML導入
    • 医療品やアダルト、キーワード羅列など検知しやすい
    • 全て自動化するのではなく、MLで効果の出そうなところから
    • 判定の確度によって、CSへのアラート/自動非表示の切り替えをしている
  • 運用
    • 誤検知はあってはならない
      • 間違って判定した場合の対応など、CSリソース的にどれくらい対応可能か細かく連携している
      • 新しいモデルを導入する場合にA/Bテストを利用し、開放率は都度調整している
  • さらに
    • ML導入だけでなく、CSのオペレーションの見直しも含めて実施していく
    • それによって人間味が必要な対応にCSが時間を当てられるような状態を作る
「機械学習によるマーケット健全化施策を支える技術」

SREとして

環境

  • 内製のML Platform : k8s利用
    • ローカル環境とクラスタ環境の差を抽象化する
    • 既存のML FWを利用して 簡単に traning/serving を利用できるように
    • Tensor flow / scikit-learn / Apach Beam に対応
    • OSSにするのは決定している

MLエンジニアの負荷

  • 人間の行動を相手にしているため、データの傾向が変わりやすかったり、予想外の問題は発生して、対応し続ける必要がある
  • システムは再学習しているが、(不正)ユーザも再学習している
  • ML model作成者に負担がかかり続ける。SREとしては自動化を含んだ仕組みで解決したい。
  • そもそもMLを利用した機能を本格運用しようとすると、大幅な仕組み化・自動化が必要だと思っている
    • 運用にコストがかかってしまっては本末転倒
    • ML Reliability としてMLインフラの自動化・仕組み化を押す進める人材が全然足りない
「機械学習によるマーケット健全化のためのモニタリング」

商品監視

  • 安心安全を保つために出品が禁止されているもの
    • 偽ブランド
    • ゲームアカウント
    • 金券
    • アダルト
    • ...
    • その他不適切だと判断されるもの
      • キーワード羅列:ヒットされるために関係ないキーワードを羅列とか

再学習が効くケース

  • 教師データにCS業務のFBが得られる場合
    • ML自動検知 <-> CSメンバーの確認(ラベル付)
  • データの傾向が変化するような違反種別
    • ゲームアカウント(新しいゲーム): 教師データにないので検知できない
    • キーワード羅列(流行)

取り組み

  • 古いML基盤の移行
    • 移植あるある
      • local でしか動かない jupyter notebook
      • Train code が local にしかなかったり
  • 他モデルを利用した商品監視
    • 商品データをインプットしても検知が困難な種別がある
    • 架空取引
      • オフラインでやりとりし、決済だけメルカリ
      • 犯罪の温床にもなるので排除する必要がある
    • グラフを用いて解決
      • ノードをお客様、エッジを取引としたグラフ。
      • 架空取引の商品から、グラフを広げていくとそれらはつながっていた。

 
 

仕事ではじめる機械学習

仕事ではじめる機械学習

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

  • 作者: 澤田武男,関根達夫,細川一茂,矢吹大輔,Betsy Beyer,Chris Jones,Jennifer Petoff,Niall Richard Murphy,Sky株式会社玉川竜司
  • 出版社/メーカー: オライリージャパン
  • 発売日: 2017/08/12
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログ (1件) を見る