DACエンジニアブログ:アドテクゑびす界

DACのエンジニアやマーケター、アナリストが執筆するアドテクの技術系ブログです。

【DMP】IDのハッシュってなに

アドテクに関わる方であれば、よく耳にするであろう「ハッシュ」をシンプルに説明してみようと思います。 とはいえ「ハッシュ」は広いので、ここでは「IDのハッシュ」に焦点を当てます。

「ハッシュ/hash(動詞)」はそもそも「細切れにする」というような意味を持ちます。(名詞だと「細切れのもの」) ハッシュ、では名詞/動詞が紛らわしいので、ここではハッシュ化/ハッシュ値と言います。 つまり、IDをハッシュ化すると、IDのハッシュ値になります。

  aaa@example.com : ID       ↓        : ハッシュ化      bbbccc     : ハッシュ値

ハッシュ値は、次のような特徴があります。 ・元の値(ID)が割出せない ・元の値(ID)とハッシュ値は対になる(ID:ハッシュ値 ≒ 1:1) ・元の値(ID)が異なると、ハッシュ値も異なる

「暗号化」と似ていますが、暗号化された値は複合して元の値が割出せる、という違いがあります。 上記のような特徴をいかして、データが改竄されていないことを確認するために利用されます。(また手書きですみません。)

IMAG0142

アドテクにおけるIDのハッシュ値は、こんな使い方が考えられます。

IDを、ECサイトAの会員メールアドレスとします。社外には出せない情報で、厳重に管理されています。 会員に向けて、メール配信サービスを利用して、メールマガジンを配信しています。

IMAG0144

ECサイトAは、最近メールマガジンの開封率が芳しくないので 未開封会員に向けて、バナー広告でセール情報を配信したいと考えます。

ECサイトAのバナー広告の配信は、DMP事業者Bが行います。 DMP事業者Bは、クッキーで独自のユーザIDを振っています。便宜的に「クッキーID」と言います。

IMAG0145

DMP事業者Bが「未開封会員」を判別するためには、メールアドレスを知る必要があります。 ただ会員メールアドレスはECサイトAの社外には出せないため、代わりとなる値を利用します。 代わりの値は、以下が前提です。

・メールアドレスが割出せないこと ・メールアドレスと対になること ・メールアドレス同様、会員間の重複がないこと

メールアドレスをハッシュ化したハッシュ値であれば、上記を満たす値になります。 便宜的に「ハッシュID」と言います。

ECサイトAのハッシュIDと、DMP事業者BのクッキーIDを連携します。ECサイトAが、ハッシュIDで メールマガジン配信実績を連携すると、DMP事業者Bでも「未開封会員」が判別できるようになります。

IMAG0148

(もう少し詳しく知りたい方はこちら、かなり古い記事ですが) ・ 情報セキュリティ入門 - ハッシュ値 http://itpro.nikkeibp.co.jp/article/COLUMN/20060628/241960/