テキスト・マイニング・・・続きを読む

 テキスト・マイニングとは、データ・マイニングの一種で、単語や文章の集まりから自然言語解析を通じてキーワードを抽出、それらの関係性を抽出する分析手法だ。テキスト・マイニングは、1990年代に登場したが、専門家でないと扱えない代物だった。しかし最近は、素人でも扱えるツールが出てきた。しかも無料で。とは云っても素人が出来ることはしれている。せいぜい単語の出現回数位だが、それでも何かが見えてくるかもしれない。

 市議会で対極にある新政クラブと共産党の一般質問事項(会議録より)をテキストマイニングしてみた。
とりあえず試してみたのは、「ワードクラウド」と「2次元マップ」だ。
説明によればワードクラウドは、
 スコアが高い単語を複数選び出し、その値に応じた大きさで図示
 青色が名詞、赤色が動詞、緑色が形容詞、灰色が感動詞を表す
2次元マップは、
 文章中での出現傾向が似た単語ほど近く、似ていない単語ほど遠く配置
 距離が近い単語は色分けしてグループに、XY軸には意味はない
分析結果にある「スコア」は次のように説明されている。
 一般的な文書では、”ごく一般的な単語”が何度も出現する、このような単語は、
 たとえ出現回数が多くても、あまり重要ではなく、テキストマイニングでは、
 このような単語は重み付けを軽くし、調査対象の文書だけによく出現する
 単語は重視する

 分析対象は、2018年3月・6月・9月議会一般質問、使用したツールは、
ユーザーローカル テキストマイニングツール( https://textmining.userlocal.jp/ )
皆さんはこの結果をどう見ますか?・・・・・



 市政に関係する項目に注目して見る。
ワードクラウドでは、新政クラブにあって共産党にないものは「議会」、
共産党にあって新政クラブにないものは「サービス」「公民館」「公園」「支援」「制度」「保育」
2次元マップでは、共産党が「公園・子ども・地域」「支援・サービス・制度」が
グループ分けされているが、新政クラブでは「施設・整備」だけです。
どちらの会派を選ぶか、云うまでもありません。
関連記事

コメント

そこまでやるかの領域ね

私役所
そこまで進みましたか。

できたら新政 と 共産を伏せて、どっちと思うかと問うと面白かった。
具体的、固有名詞が多いと具体的議論、そうでないと 抽象論と言う違いは一目瞭然ですが・・・またゆっくり見させてもらいます。
できたら、かまちょ図書館の考察も期待します

取り急ぎ、呆れを通り越した称賛のコメント・・・v-8
非公開コメント

トラックバック