テキスト・マイニング研究会とは

テキスト・マイニング研究会の目的

「テキスト・マイニング研究会」(略称:TM研究会)は、テキスト・マイニングあるいはテキスト型データのマイニングに関連する各種の情報を提供するための活動組織(任意団体)です。主にWordMiner™(ワードマイナー)ユーザ向けの情報を提供いたしますが、ユーザでない方々でも、テキスト・マイニングに関心を持ち、また関連の諸情報を知りたいときに、広くご利用できるような情報の発信を目指す組織です。

テキスト・マイニングとWordMiner開発の経緯

一般に、テキスト・マイニング(text mining)あるいはテキスト型データのマイニング(textual data mining)とは、取得・蓄積された大規模なテキスト型データという鉱脈(mine)の中から、意味ある構造の探査、類似・関連性の抽出、類型化などを行い、客観的な知識発見とその組織化を図る方法論とされております。

しかし、周知のように国内では、テキスト・マイニングは、主に社会調査(意識調査、態度調査)、市場調査などの分野で高い関心を集め、加えて解析用のソフトウェアの登場などもあり、急速に普及しつあります。

国内で、調査関連の分野で関心が高まった理由はいくつか考えられます。その一つは、近年は比較的多量のサンプルを取得するという従来型の選択肢型設問を用いることが調査経費面や実施環境の悪化などで次第に困難となったことから、定量的調査に加えて、自由回答・自由記述設問、グループ・インタビューあるいはフォーカス・グループ、談話分析、日記分析などの定性情報の利用や分析に関心が移りつつあることがあります。

別の理由として、テキスト型データの電子的取得が容易となったことがあります。例えば、インターネット調査では自由回答取得が電子的に可能であること、コール・センターやコンタクト・センターでは、顧客・消費者の「生の声」がデータベース上に大量に蓄積されるなど、この種のテキスト型データの取得がきわめて容易な環境が整ってきました。

このようなことから、テキスト型データの実用的な解析手法を求める声が聞かれるようになりました。このためにはテキスト・マイニングの方法論とそれを具現化するソフトウェア開発が必要とされるのですが、日本国内では、この分野の実用研究が今ひとつ遅れていた感がありました。我々は、こうした要請に少しでも応えたいと考え、十数年前からフランスの研究者であり友人でもあるLebart氏(CNRS:フランス国立科学研究センター、研究開発部長)等のグループとの連携研究を進め、テキスト型データ解析ソフトウェアの研究開発を行ってまいりました。しかし、欧米言語のテキスト型データを扱う解析と異なり、日本語の抱える難題も克服せねばならず、単に統計解析の知識技法だけでは市場の厳しい要請に耐えるソフトの開発は難しいという現実にも遭遇しました。

また、ソフト開発には、研究者の机上のアイデアだけでなく、データ解析の現場の声を反映させた実用に即した統計的データ解析技法、日本語分析(形態素解析、分かち書き処理等)、プログラミング技法のバランスが必要とされます。WordMiner™はこれらに留意し、研究者グループ、ソフトウェア開発企業などが参加した産学協同によるコラボレーションにより誕生した“テキスト型データ解析ソフトウェア”です。

テキスト・マイニング研究会が提供するもの

もちろんソフトウェアが存在するだけで、現象解明に即座に寄与できるわけではありません。我々の主張は、ソフトウェア・パッケージという実体だけではなく、それを使いこなすためのアイディア、ノウハウなど、目にみえない広い意味でのソフトウェア・サポートが重要と考えることにあります。

このような観点から、本研究会では以下のような活動を進めてまいります。

(1) このホームページを通じて、広くテキスト・マイニング関連情報の提供を行うこと
(2) WordMinerユーザへのテクニカル・サポートを行うこと
(3) WordMiner活用セミナーの開催
(4) WordMinerユーザ向けの「Q&A」対応窓口を設けて、お問い合わせへのヘルプを行うこと
(5) その他の関連情報の提供のリンク集、例えば学術学会、出版社、統計ソフトウェアなど

これまでに開催したWordMiner活用セミナーは、いずれもたいへん好評をいただいております。今後は内容をさらに充実させ、以下のようにきめ細かい対応となるよう努める所存です。

  • ユーザ対応の初級セミナー:初心向け、WordMinerの基本操作、何ができるかを知ること
  • ユーザ対応のアドバンスド・セミナー(中級セミナー):やや高度な内容を希望される方のための具体的かつ詳しい操作と機能の紹介
  • 一班向けセミナー:テキスト・マイニングの事例紹介などを、一般向けに行うこと
  • 数理的な内容に特化したセミナー:WordMinerの特徴である多次元データ解析機能の内容についての特別コース、例えば、対応分析法、クラスター化法などの専門的な方法論の解説やWordMinerによる利用法など
  • テキスト型データ解析基本セミナー:ここでは、テキスト型データの基本処理機能である分かち書き処理、語彙、類語・同義語などの辞書編集、単語に関する初等統計処理機能など、テキスト型データの記述統計的な意味と解釈など
  • 定性調査の分析コース:自由回答質問と一般的な定量的選択肢型質問との併用がWordMinerの特徴であるが、これの利点を理解し、また自由回答質問の設計方法のガイドを行う

つまり、「テキスト型データのマイニング」に関連して必要とされる諸技法、諸機能を、多方位的に視点を変えながら(適宜内容を組み合わせながら)紹介するという試みです。もちろん、我々が投入可能なマンパワーの範囲では、ご提供できる内容に限界がありますが、インターネットによる「Q&A」対応窓口もご利用いただくなどして、なるべく皆様のご期待の添えるよう努める所存です。

テキスト・マイニング研究会が目標とすること

テキスト・マイニング研究会がこのような主旨の下に活動を展開する理由は多々あります。とくに最近の風潮として、少々いい加減な分析であっても、何事も簡単で迅速が歓迎される傾向にあるようです。このこと自体は重要なキーワードではありますが、多くの場合、分析の内容や用いた方法論が暗箱化、何が行われたのかが不透明であっても「結果がそれらしく、見た目がよい」ものであれば、それで納得というようにも見えます。しかし本当にこれでよいのかを、改めて考えるべき時期にあるのではないでしょうか。おそらく今のままでは、テキスト・マイニングという美味しそうな言葉も次第に魅力が失せ、また飽きられるようにも見えるのです。とくに何とは指摘はしませんが、かって様々な方法論、手法が高い期待をもって登場したにも関わらず、いつの間にか消滅したようにです。こうした前轍を踏まぬためには、多少はスローであっても透明で科学性に則った方法論とそれを実現するソフトウェア環境を地道に根気よく築き上げるしかありせん。

我々はその指針の原点を「データ科学」(data science)の理念に求めました。つまり、テキスト・マイニングに限らず、現象解明に必要な理念の基礎として、

  • いかにデータを取得するか、その取得機構の構築
  • 適切な解析法はどうあるべきか
  • 現象解明の支援ツールとしていかに寄与するか

が重要な要素と考えてまいりました。例えば自由回答設問の設計はもとより、コール・センターやコンタクト・センターでのデータベース構築技法等に至る広い視野に立ったデータ取得機構の設計指針が必要とされます。このようにWordMiner設計においては「データ科学」に基づく知恵と工夫を投入しました。周到な実験計画に基づくデータ取得環境の構築とその環境下での科学的データ取得法の研究が協調した中での実用的ソフトの開発が肝要であり、WordMinerはこれをかなり忠実に実現できたものと考えております。

データ解析のサポート

テキスト・マイニング研究会のスタッフは,いままでに多数のテキスト型データの解析を体験してまいりました。こうしたノウハウを活かしたデータ解析のコンサルティングのご相談に応じております。

  • 自由回答質問を含む各種調査のデータ分析
  • インターネット調査(Web調査)による自由回答・自由記述データの分析
  • その他、一般的な社会調査(いわゆるアンケート)の調査企画・設計
  • WordMinerと他の応用ソフト、統計ソフトの併用分析、二次的分析などのガイドの提供
  • テキスト・マイニングに関連する文献情報、ソフトウェア情報の提供
  • いわゆる統計的データ解析一般に関する疑問、問題、諸課題へのガイド

調査分析の基礎的なサポートから、統計的手法,多変量解析・多次元データ解析などの各種方法論を用いた高度な分析まで、広く対応できることが我々の特徴と自負いたしております。とくに、豊富な経験を活かしたWordMinerによるテキスト型データの分析や新しいマイニングの各種の方法論、分析指針のヒントをご提供することができます。

この件に関するお問い合わせは、このWebサイトの「ユーザサポート」をご利用いただくか、または、下記のテキスト・マイニング研究会までお問い合わせください。

テキスト・マイニング研究会を通じて、こうした理念に沿って、有用なテキスト・マイニング・ツールはどうあるべきかを常に考えながら、ユーザにとって有効なテキスト型データ解析のための理論・手法を探求し、また普及を図ることを目的とした活動を続けます。今後も、皆様のご支援とご理解のほど、よろしくお願いいたします。

テキスト・マイニング研究会

代表

大隅 昇
大学共同利用機関法人 情報システム研究機構 統計数理研究所、名誉教授
(旧 文部科学省 統計数理研究所)

事務局代行

〒112-0002
東京都文京区小石川1-3-21 日本生命春日町第2ビル
富士通エフ・アイ・ピー・システムズ株式会社内 テキスト・マイニング研究会
 保田 明夫
TEL:03-5802-2704 FAX:03-5802-2749
Email:[email protected]