GoogleスプレッドシートからTreasureDataへデータを取り込む

AudienceOneの開発を担当しています。skryoです。またまたTreasureDataネタですが、今回はGoogleスプレッドシートからGoogleAppsScriptを使ってTreasureDataへデータを取り込む手順を紹介したいと思います。なぜ？ Googleスプレッドシート上でマスタデータ…

2017-03-31

fastavroとjqでAVRO形式のファイルからデータを取得しよう

ビッグデータ未分類開発ツール

AVRO形式のファイルを取り扱いたい AVROとはApacheプロジェクトのひとつとして開発されているデータ交換形式です。コンパクトなバイナリで高速なシリアライズ・デシリアライズが行えるため、サーバーログなどに利用されています。弊社内での一部システムの…

2016-10-17

Tableauを利用してMySQLとRedshiftのクロスDBジョインを実現する

Tableau データベースビッグデータ開発ツール

はじめに RedshiftやTreasureDataなどのデータマート用のDBにはID単位の解析結果が格納され、ローカルのMySQLにはIDに紐づいた名称マスタが管理されている構成の場合、データマートのクロス集計結果に対してIDに紐づいた名称を付与したいことがあります。デ…

2016-09-13

Treasure Dataで大規模なマスタデータを扱う際にはtimeカラムインデックスを活用しよう

Presto Treasure Data データベースビッグデータ

DACではTreasure Dataを利用して各種データの蓄積や集計を行っています。Treasure Dataは時系列のデータを扱うのに特にすぐれたアーキテクチャなのですが、セグメントIDとユーザーIDの組み合わせといった大量のマスタデータを利用した計算にも利用することも…

2016-06-07

ディープラーニングで「顔が似ているAKB48のメンバーを教えてくれるbot」を構築

bot DeepLearning Go gRPC Messenger TensorFlow ビッグデータプログラム言語

概要こんにちは、システム開発部の中村です。今回は、Facebook Messenger APIを利用して、画像をアップロードすると、似ているAKB48のメンバーを教えてくれるbotを実装しました。尚、ディープラーニングやTensorFlowそのものの解説というより、「エンジ…

2016-04-05

Tableau 9.2で郵便番号の特性を地図で可視化してみる

postalcode postcode Tableau visualization ビッグデータ可視化郵便番号

Tableau 9.2から郵便番号地図が表示可能に弊社ではデータ分析ツールのTableauを利用しています。オーディエンスデータの重複を分析したり、デモグラフィック属性を表示したりするなどデータの可視化に役立ちますTableauでは9.2から日本の郵便番号を用いて地…

2016-03-16

HyperLoglogでcount distinctを速くする

bigdata count distinct hyperloglog sql ビッグデータ

こんにちは。俺やで。 HyperLoglogについて書きます。おもしろいです。名前が。 ■1. HyperLoglogとは？ count distinctを速くするアルゴリズム以前、Minhashについて書きました。（Treasure Dataさんのブログにも載せていただきました。ありがとうございま…

2016-03-09

GoogleAppsScriptとTreasureData REST APIを使ってサーバレスにTwitterのデータを取得

GAS GoogleAppsScript Treasure Data Twitter ビッグデータ

またまたTreasureDataネタです。ただ、今回はクエリ系のネタではなく、GoogleAppsScriptとTreasureDataのREST APIを使ってTwitterのデータをTreasureDataに入れてみたので、その方法を紹介したいと思います。はじめにログデータだけではなく、公開されて…

2016-02-23

【入門編】TreasureDataでサイトのアクセス解析をしてみた~第2弾!~

HiveQL Treasure Data アクセス解析ビッグデータ

今回もやります、集計クエリ解説シリーズ第2弾！！前回は、Webログからセッション単位のデータを作成するだけでした。第2弾では作成したテーブルを元に、より実践的なアクセス解析、サイト分析で使えるHiveQLについて、実際に使用したクエリとともに解説し…

2016-02-08

PyStanによるはじめてのマルコフ連鎖モンテカルロ法

MCMC Python STAN ビッグデータプログラム言語機械学習

はじめにこんにちは。システム開発部の中村です。社内で行っている『データ解析のための統計モデリング入門』(所謂緑本)の輪読会に参加した所、大変わかりやすい本だったものの、Macユーザには悲しい事に実装サンプルがWinBUGSだったため、 9章の一般化線…

2015-12-24

【入門編】TreasureDataでWEBログ分析をしてみた

Advent Calendar HiveQL Qiita Treasure Data アクセス解析ビッグデータ

この記事は Treasure Data Advent Calendar 2015 - Qiita の24日目の記事です。こんにちは。今回はWEBログの集計や解析をする際によく使うHiveQLのクエリと、UDF(User Defined Functions)について実際の集計クエリを使って解説していきたいと思います。こ…

2015-12-01

【Hivemall入門】RandomForestで毒キノコ推定モデルを作る

hive hivemall randomforest Treasure Data ビッグデータランダムフォレスト機械学習

こんにちは。俺やで。今回も前回から間が空いてしましたが、ビッグデータに対応したHiveで使える機械学習ライブラリ、 Hivemallの使い方について、書かせていただければと思います。なお今回はQiitaのTreasure Data / Advent Calender 2015の12/3日分とし…

2015-11-06

Treasure Dataの新機能(Data Tank)をAudienceOneのレポート機能で利用した話

Aone AudienceOne Datatank DMP Treasure Data アドテクノロジーデータベースビッグデータ

Data Tankとは？ Treasure Dataの新機能でTreasure Dataのプラットフォーム上に構築されたデータマートです。 Tableau等のBIツールとの接続を想定されており、AWSでいうところのRedshift的なものだと考えるとわかりやすいかと。 Data TankはPostgresql9.4を…

2015-08-05

D3.jsとその活用事例について

D3.js DMP Javascript ビッグデータプログラム言語

D3.jsとは？ D3とは「Data Driven Document」の略で、データに基づいてドキュメントを操作するための JavaScript ライブラリです。ご存知の方も多いと思いますが、ちょっとだけD3.jsの基本的な使い方、そして弊社プラットフォームでの利用についてご紹介し…

2015-07-28

トレジャーデータの新機能「Data Connector」でクライアントレスなビッグデータ連携を実現する

data connector Treasure Data データベースビッグデータ

トレジャーデータは、スキーマレスな大量のデータ（ビッグデータ）をパブリッククラウド上に保管して集計や抽出をするためのサービスなのですが、他システムからの連携データをトレジャーデータのテーブルに格納するまでが一苦労でした。他システムとの外部…

2015-06-26

HivemallでMinhash！〜似てる記事を探し出そう。〜

hive hivemall Jaccard係数 minhash ビッグデータ

こんにちは。俺やで。前回の投稿に続き（間が空きましたが）、ビッグデータに対応したHiveで使える機械学習ライブラリ、「Hivemall」の使い方、第２弾となります。今回はMinhashという手法について書きたいと思います。 ※前回【超入門】Hivemallで機械…

2015-06-01

気象予報士とビッグデータ解析の意外な関係

データ解析ビッグデータ気象予報士

DACから気象予報士が誕生しましたビッグデータ解析部のMikeです。 2015年1月の気象予報士試験に合格し、めでたく4月からアドテク業界ただ一人（本当？）の気象予報士となりました。そんなわけで、今回は気象予報士とビッグデータ解析の関係についてお話し…

2015-05-12

Google BigQuery / Tableauを使ってみた

BI BigQuery Tableau データベースビッグデータ

TableauからGoogle BigQueryへ接続してみました。弊社で利用しているTreasureDataからデータ出力してBigQueryへロード、Tableauから接続まで実際に行った手順について記載します。 TreasureDataからAmazonS3へデータ出力まず、データが蓄積されているTreas…

2015-03-17

【超入門】Hivemallで機械学習〜Treasure Dataでロジスティック回帰編〜

hive hivemall ビッグデータ

こんにちは。俺やで。ビッグデータとかデータサイエンティストとかいう言葉が未だブームですね。（「データサイエンティスト」は下火か。）ビッグデータ扱えるエンジニアも、統計解析ができるアナリストも、どっちもできるスーパーマンも世の中にはたく…

2015-03-06

Treasure Dataで長期間の集計

Treasure Data ビッグデータ

プラットフォーム・ワン T氏です。プラットフォーム・ワンでは、DSPのMarketOneとSSPのYIELD ONE提供しています。 MarketOneやYIELD ONEのログを調査する場合にTreasure Dataを使うことがあります。Treasure Dataでは大量のデータに対してHiveやPrestoといっ…