011

[Developers Summit 2015] 琵琶湖を中心とした世界のようなお話 #devsumi

  • このエントリーをはてなブックマークに追加

by [2015年3月02日]

011

株式会社マイクロアド
システム開発部長 佐藤由紀氏

 本記事では技術者コミュニティから生まれた総合ITコンファレンス『デブサミ2015』で行われたセッションの様子をお送りします。株式会社マイクロアドの佐藤由紀氏による『琵琶湖を中心とした世界のようなお話』というテーマで、同社の事業を軸として、今後注目されるであろうデータレイクを琵琶湖を例えてお話いただきました。講演に使用されたスライドはこちらです。

広告プラットフォーム事業のマイクロアド

 主に広告プラットフォーム事業と行っています。具体的にはオークション型のインターネット広告を配信しており、ウェブサイトの訪問者に、広告のオークションをして、一番高い値段のついた広告を表示するというものです。オークションを主催する側をSSP、オークションに参加する側をDSPと呼ぶのですが、SSPサービスでは、COMPASS、AdFunnelを、DSPサービスはBLADEを提供しています。

 ここでは広告主向けサービスであるBLADEを取り上げて、オークションに入札する際の広告の選定を説明します。オークションを主催する側のサービスから、誰がどのページにアクセスしているかという情報が来ますので、その情報をキーにして、その人がどの広告を何回閲覧したかや、その広告配信面とどの広告がどのくらい相性が良いのか等を参照して、適切な広告入札をするようにしています。スポーツ系ニュースサイトの広告配信面にはスポーツ用品の広告を、車を買いたい人には車の広告を、というようなことを、人の思い込みではなくデータドリブンで判断し入札に役立てています。また広告を誰に出したいかというターゲティング情報も参照します。
 マイクロアドでは、主に2つのターゲティング手法を提供しています。1つはリターゲティングで、これは広告主サイトにすでに訪れている方の再来訪を促す意味で広告を表示するものです。もう1つはオーディエンスターゲティングで、広告主サイトに訪問する顧客の行動履歴を分析し、同じ特徴を持った人に広告を配信するというものです。この二つのターゲティングをメインとしたBLADEは、大量のリクエストに対し、大量のデータを参照し、高速にレスポンスする特徴があります。

データレイクは琵琶湖に似ている

 データレイクとは何なのでしょうか。pentaho社の資料から抜粋したものですが、要件としてはすべてのデータをストアし、定型・非定型問わず、データ分析に活用するというものです。特徴はシングルソース、ボリュームが大きい、蒸留されていないことが挙げられます。データレイクという言葉に出会った時、頭の中に浮かんだのが琵琶湖です。琵琶湖を例に挙げながらデータレイクのイメージを説明していきます。


 琵琶湖における「460もの流入河川」、「商圏・生活圏を生み出す流出河川」、「文化をも育む琵琶湖疏水」をそれぞれ「さまざまなデータの蓄積」「サービスへの効果的なデータ活用」「新しいアイディアをも育むデータからの発見」と置き換えることで、データレイクのイメージを説明することができます。

マイクロアドのデータ活用の歴史

 データレイクにたどり着くには、まずマイクロアドがこれまでに何をやってきたかをデータ活用を軸にお話しないといけません。
 2004年、ブログのコンテンツに合わせて広告を出すことを始めました。2006年、ユーザ一人ひとりに対して適切な広告を配信するという方向性がまとまり、そのためにはデータが重要であるという意識が明確になり、2007年に、再来訪を促すリターゲティングを開発しました。2010年には、より効果的な広告配信のために、システム内部で各広告の評価を行いもっとも評価の高い広告を配信する、オークション型の広告配信の先駆けとなる仕組みを開発・導入しました。各広告を評価するには、誰がどの広告をどれだけ見たか、どのくらい興味があるかといった大量のデータ分析が必要となり、ここからデータ分析がより本格化していきました。そして2011年、BLADE、AdFunnelをリリースすることになったのです。

マイクロアドの歴史における3つのポイント

 すでに述べた歴史には3つのポイントがあります。1つは2007年、リターゲティング元年です。このときは、1日に1回の頻度で、ユーザーがいつ訪れたのかという生ログをもとに、Hadoopを使って、リターゲティング対象のユーザーを集計していました。最適配信のための分析は、サマリー済みのデータを元に、MySQL、SPSS Statusticsを使って、試作しはじめた段階です。
 2つ目は2011年、RTB元年です。リターゲティングの対象ユーザーは、これまでと違って二時間ごとに集計するようにし、技術としてはHiveを使い始めました。最適配信のための統計分析はNetezzaに投入した全てのオークションログを用いていましたが、全てのデータを細かに分析すると時間がかかり、14日程度のサイクルで情報が更新されていくという形でした。
 3つ目は現在です。リターゲティング対象ユーザーはリアルタイムで集計するようになり、オーディエンスターゲティングでは、Hadoop、Hiveを使うようになりました。最適配信は、14日程度のサイクルだったものが1日サイクルで全てのデータが更新されるようになりました。これまでの最適化システムを将来への拡張性を持たせた形に、全て作り変えることで実現しました。

現在、データはどのような過程を経ているのか

 データは発生して、処理をして、活用するという流れになっています。

 マイクロアドの場合、広告オークション、広告配信クリック、広告節サイトアクセスで発生したログを収集しています。処理については、概略ではありますが、fluentdでデータを送り、Hadoopで加工したり、Netezzaに入れて、SPSS Modelerでそれを参照してデータ分析を行い、活用できるデータを作成しています。活用については、リターゲティングやオーディエンスターゲティングの対象となるユーザー、フリークエンシー、最適配信パラメータなどの様々なデータ群を参照して、広告オークションに参加するという仕方で使っています。
 データが溜まっている場所はどこなのかというと、

 

 このようにたくさんの小さな池がポツポツと点在しているような状況になっています。このたくさんの池の特徴としては、それぞれの池は用途別に存在し、内包しているデータは生であったり、加工されているなど様々な状態になっています。それゆえ、用途に最適化されていることで利用しやすいというメリットが挙げられます。しかし、その反面、想定外の新たなデータ利用を模索しにくいというデメリットもあります。あるデータ同士の組み合わせによって良いものは出来る状況にあったとしても、別の池にある、つまり、それぞれのフォーマットが違ったり・用途が限定されていては、その可能性を見落としかねません。
 それに対し、シングルソース、蒸留されていないデータという特徴があるデータレイクは、このデメリットを解決できます。

 マイクロアドが目指すデータレイクの活用はこのようになっています。蒸留されていないデータというのがデータレイクの特徴で、確かにそうなのですが、でも、ここに加工したデータも含んであげることで、新しい組み合わせが発見でき、価値が生まれるようになるのではないかと思っています。

▼関連リンク
株式会社マイクロアド
デブサミ2015

PageTopへ