ちょっと調べたいことがあってテキストマイニングの勉強をしてみた。この領域は変動が激しいみたいで、なかなか大変だったので備忘録(本記事も早晩役に立たなくなる可能性大)。
まず本で勉強。
以前買ってさらっと読んだ本を再読。これ、2017年発行なのだがTweetRを用いている。で、Twitter社の承認を得なければならないのだがこれが大変。研究目的とかさんざん書かされて承認待ちしてたが
こんなのが来て、返事したら
こんなのも来て、めんどくさくなって断念。TweetRは更新してないとも聞くし、、、
そこで、FBで教えていただいたExploratoryを。まずはこのアプリをダウンロードする。学生、教員は無料ダウンロード可能だが、大学のメアドじゃないとだめ。Gmailはアウトだった。ExploratoryでRを使うが、あまり使ってる気がしなかった。
その後、ターミナルからMeCabダウンロードする(MacでやりましたがWindowsも説明あり)。ExploratoryからRMeCabダウンロード。
あとは、基本的にこのリンクを活用。とても勉強になりました、、、が、少し仕様が変わっているのでそこは要注意。
ツイートのインポートまでは実にかんたん。あと、検索のバリエーションはここのリストが詳しい。例えば、特定の人のつぶやきだけマイニングしたければfrom:アカウント名とすればよい。
次にデータのトークン化、トークナイズというのが必要で、このボタンが変わっていた。これは右の「ステップ」にある+ボタンをおして、カスタムRコマンドに
mecab_tokenize(text)
と入力して品詞ごとの分類を作らねばならない。で、その後のデータのフィルタリングはほぼ言われたとおりにやる。
最後はグループ化、サマライズ、行に合わせて頻度ごとにつくる。
で、このあとは上にある「チャート」で「ワードクラウド」を選べばできあがり、なので楽になっている。が、右の釘みたいなのをステップの下まで移動させねばならない。これに気づかなくてかなり時間を食った。
そんだけです。Exploratoryめっちゃ便利。
「HPVワクチン」に関するツイートの過去1年分のワードクラウド。
コメント
コメントフィードを購読すればディスカッションを追いかけることができます。