今日から"オープンサイエンスをテーマとした日本最大のカンファレンス"「Japan Open Science Summit(JOSS)」が開催されています。
プログラムを眺めていて、セッションのタイトルや内容を形態素解析して、どのようなキーワードが頻出なのかということを調べてみたらおもしろそうだなと思ったので、試してみました。
また、大変ありがたいことにJOSSのウェブサイトでは、過去に開催された内容もアーカイブとして残していただいておりますので、ついでに第1回目である2018年のセッションの内容も同条件で形態素解析して比較してみています。
なお、形態素解析やワードクラウドの作成はPythonを使用していますが、例のごとくコーディングはChatGPTに頼っています(テーブルのHTMLの作成も)。
上位30件のキーワード
まずは、2018年と2025年のセッションのタイトルや内容をそれぞれ解析して、名詞の出現回数と出現頻度が高かった上位30件を並べてみたのがこちらです。
なお、そもそものセッション数(2018:22, 2025:30)が異なりますので、出現回数はどうしても2025年の方が多くなります。詳しいレギュレーションは文末をご参照ください。
| 順位 | 2018 | 2025 | ||||
|---|---|---|---|---|---|---|
| 名詞 | 出現回数 | 出現頻度(%) | 名詞 | 出現回数 | 出現頻度(%) | |
| 1 | データ | 99 | 7.534 | 研究 | 158 | 4.400 |
| 2 | 研究 | 59 | 4.490 | データ | 118 | 3.286 |
| 3 | オープン | 32 | 2.435 | オープン | 61 | 1.699 |
| 4 | サイエンス | 28 | 2.131 | サイエンス | 32 | 0.891 |
| 5 | 材料 | 19 | 1.446 | 分野 | 32 | 0.891 |
| 6 | 議論 | 17 | 1.294 | セッション | 30 | 0.835 |
| 7 | リポジトリ | 14 | 1.065 | 学術 | 29 | 0.808 |
| 8 | 分野 | 14 | 1.065 | 機関 | 28 | 0.780 |
| 9 | ため | 12 | 0.913 | 管理 | 27 | 0.752 |
| 10 | 共有 | 12 | 0.913 | 活用 | 26 | 0.724 |
| 11 | セッション | 11 | 0.837 | こと | 26 | 0.724 |
| 12 | 管理 | 11 | 0.837 | 構築 | 25 | 0.696 |
| 13 | システム | 10 | 0.761 | 大学 | 24 | 0.668 |
| 14 | 活用 | 10 | 0.761 | 科学 | 24 | 0.668 |
| 15 | 必要 | 10 | 0.761 | ため | 24 | 0.668 |
| 16 | 利活用 | 10 | 0.761 | 議論 | 22 | 0.613 |
| 17 | 科学 | 10 | 0.761 | 参加 | 22 | 0.613 |
| 18 | 国際 | 9 | 0.685 | メタ | 21 | 0.585 |
| 19 | 情報 | 9 | 0.685 | 日本 | 20 | 0.557 |
| 20 | 公開 | 9 | 0.685 | 利用 | 19 | 0.529 |
| 21 | 開発 | 9 | 0.685 | AI | 18 | 0.501 |
| 22 | 技術 | 9 | 0.685 | 情報 | 17 | 0.473 |
| 23 | 事例 | 8 | 0.609 | 成果 | 17 | 0.473 |
| 24 | セキュリティ | 8 | 0.609 | 事例 | 17 | 0.473 |
| 25 | 紹介 | 8 | 0.609 | 市民 | 17 | 0.473 |
| 26 | 企業 | 8 | 0.609 | 紹介 | 16 | 0.446 |
| 27 | data | 8 | 0.609 | 政策 | 16 | 0.446 |
| 28 | 機関 | 7 | 0.533 | アクセス | 15 | 0.418 |
| 29 | 活動 | 7 | 0.533 | 技術 | 15 | 0.418 |
| 30 | データベース | 7 | 0.533 | 課題 | 15 | 0.418 |
| 31 | 実験 | 7 | 0.533 | NaN | 0 | NaN |
やっぱりというか当然というか、「研究」「データ」「オープン」「サイエンス」というキーワードがどちらも高くなっています。
それ以外のキーワードについては、ちょっとこれだけだとなんともという感じですので、次に私が気になるキーワードをピックアップして比較してみます。
その他気になるキーワードの比較
| キーワード | 2018年 | 2025年 | ||
|---|---|---|---|---|
| 出現回数 | 出現頻度 | 出現回数 | 出現頻度 | |
| AI | 0 | 0.000 | 18 | 0.501 |
| DMP | 6 | 0.457 | 0 | 0.000 |
| ORCID | 2 | 0.152 | 1 | 0.028 |
| PID | 3 | 0.228 | 13 | 0.362 |
| RDM | 3 | 0.228 | 9 | 0.251 |
| マネジメント | 1 | 0.076 | 4 | 0.111 |
| リポジトリ | 14 | 1.065 | 10 | 0.278 |
| 共有 | 12 | 0.913 | 14 | 0.390 |
| 利活用 | 10 | 0.761 | 7 | 0.195 |
| 活用 | 10 | 0.761 | 26 | 0.724 |
| 管理 | 11 | 0.837 | 27 | 0.752 |
| 論文 | 5 | 0.381 | 12 | 0.334 |
母数が異なるので比較が難しいですが、やはり「AI」は増えたなーということや、「DMP」って今年はテーマに上がっていないのかぁということや、「リポジトリ」の出現頻度は落ちているなぁということは言えるのかなと思います。
ちなみに「図書館」は形態素解析で「図書」に分解されてしまっているようなので、上記の表にはいれてません。
ワードクラウドによる比較
最後にもう少し直感的にわかるようにワードクラウドを作成してみました。
そのまま作成すると、「研究」「データ」「オープン」「サイエンス」がドーンと出てしまってほぼ同じになるので、それらのキーワードは除いています。
2018

2025

一般的なキーワードが多いので、正直これを見てもなんともというところですが、なんとなく傾向の違いのようなものは感じられなくもないような気もします。
というわけで特にこれをもって何かを分析するというわけではないのですが、たまにやらないとやり方を忘れてしまうので、やってみました。あと、前にも何かで書いた気がしますが、単純にデータで見えるようになるのが楽しいです。
AIの活用の話でいうと、2つのCSVから同じ項目を拾うというExcelだとちょっと面倒、Accessだと楽だけどAccessを開くのが面倒という部分を一発でやってくれてHTMLも出力してくれるというのが発見でした(それこそPythonなら楽なのか…)。

お相手は、やわらか図書館学でした。
本解析のレギュレーション
以下の内容のテキストを形態素解析にかけています。形態素解析では、名詞以外とストップワードを省いて集計しています。
- JOSSの2018年と2025年のセッション詳細から、セッション名とセッション概要、あれば発表タイトルを抽出
- 日本語と英語が併記の場合は、日本語のみを抽出。英語のみの場合は英語を抽出
- 発表者名、所属名は含めない
テキストサイズ
2018年:16KB
2025年:45KB