何かしらのイベントがあればSNSにて話題になる時代になりました。
そこで、毎月おとずれるビッグイベント"給料日"について調べてみようと思います。
twitterから"給料"を含むツイート情報を取得してSASで加工してみます。
25日が日曜日場合、前倒しで23日に給与の振込みがある会社が多いと思います。
2016年9月25日は日曜日の為、23日に件数が多くなる?と考えました。
実は件数の推移をみるだけであれば、SASデータセットで用意する必要ありません。
調べたい単語の件数推移を検索エンジンで見ることも可能です。
今回はデータの取得からやってみたいと思います。
※データの取得方法はSAS社のブログにサンプルプログラムが解説付きでありましたので、
そちらを参考に取得を行います。
プログラムを実行した結果、9月21日の10時頃~9月28日の08時頃までの期間で、
215,285件のツイート情報を取得できました。
取得できたデータの確認をします。利用目的に応じてさまざまな対処が必要になります。
考えられる例として
・リツイートされているものの扱い。
・リプライ(特定ユーザーへ向けた返信)の扱い。
などなど、多くの考慮点があると思います。
また、データを見て初めて気づくパターンも多いです。
"給料日までもう少し!"、"給料が入ったら散財するぞ!"というような"給料日"というイベントの為、
ツイートされたのであろう情報を取得したかったのですが、
求人広告や"副業で給料以上稼ぎました!"のような定期的に流れているものも多く取得されました。
とりあえず、"給料日"を含むツイートと、それ以外で分類してグラフ化したいと思います。
日ごとの件数比率(左)と件数(右)の折れ線グラフ
時間ごとの件数比率(左)と件数(右)の折れ線グラフ
"給料日"を含むツイート(青線)に注目してみると
日ごとのグラフで23日が24日以降に比べて多いですね。
また、日ごとでは分からなかったのですが、時間ごとのグラフで見ると、
22日の夕方から23日の件数は他の人比べてグラフの形が異なりますね。
今回はデータを取得して時系列の件数推移を出すだけですが、
このデータを利用して、何に給料を使っているのかまで調べられると面白そうです。
個人的には給料日の晩御飯に関するツイートだけ取得すれば
"焼肉"、"寿司"だけではなく、気軽に行ける"ラーメン"、少し値段が張る"ピザ"なども
多くつぶやかれているのでは?と思います。
コメント