やわらか図書館学

主に大学図書館のデザイン・広報に関するブログです。

Japan Open Science Summit(JOSS)のセッション内容を形態素解析してみる

今日から"オープンサイエンスをテーマとした日本最大のカンファレンス"「Japan Open Science Summit(JOSS)」が開催されています。

プログラムを眺めていて、セッションのタイトルや内容を形態素解析して、どのようなキーワードが頻出なのかということを調べてみたらおもしろそうだなと思ったので、試してみました。

また、大変ありがたいことにJOSSのウェブサイトでは、過去に開催された内容もアーカイブとして残していただいておりますので、ついでに第1回目である2018年のセッションの内容も同条件で形態素解析して比較してみています。

なお、形態素解析やワードクラウドの作成はPythonを使用していますが、例のごとくコーディングはChatGPTに頼っています(テーブルのHTMLの作成も)。

上位30件のキーワード

まずは、2018年と2025年のセッションのタイトルや内容をそれぞれ解析して、名詞の出現回数と出現頻度が高かった上位30件を並べてみたのがこちらです。

なお、そもそものセッション数(2018:22, 2025:30)が異なりますので、出現回数はどうしても2025年の方が多くなります。詳しいレギュレーションは文末をご参照ください。

順位 2018 2025
名詞 出現回数 出現頻度(%) 名詞 出現回数 出現頻度(%)
1 データ 99 7.534 研究 158 4.400
2 研究 59 4.490 データ 118 3.286
3 オープン 32 2.435 オープン 61 1.699
4 サイエンス 28 2.131 サイエンス 32 0.891
5 材料 19 1.446 分野 32 0.891
6 議論 17 1.294 セッション 30 0.835
7 リポジトリ 14 1.065 学術 29 0.808
8 分野 14 1.065 機関 28 0.780
9 ため 12 0.913 管理 27 0.752
10 共有 12 0.913 活用 26 0.724
11 セッション 11 0.837 こと 26 0.724
12 管理 11 0.837 構築 25 0.696
13 システム 10 0.761 大学 24 0.668
14 活用 10 0.761 科学 24 0.668
15 必要 10 0.761 ため 24 0.668
16 利活用 10 0.761 議論 22 0.613
17 科学 10 0.761 参加 22 0.613
18 国際 9 0.685 メタ 21 0.585
19 情報 9 0.685 日本 20 0.557
20 公開 9 0.685 利用 19 0.529
21 開発 9 0.685 AI 18 0.501
22 技術 9 0.685 情報 17 0.473
23 事例 8 0.609 成果 17 0.473
24 セキュリティ 8 0.609 事例 17 0.473
25 紹介 8 0.609 市民 17 0.473
26 企業 8 0.609 紹介 16 0.446
27 data 8 0.609 政策 16 0.446
28 機関 7 0.533 アクセス 15 0.418
29 活動 7 0.533 技術 15 0.418
30 データベース 7 0.533 課題 15 0.418
31 実験 7 0.533 NaN 0 NaN

やっぱりというか当然というか、「研究」「データ」「オープン」「サイエンス」というキーワードがどちらも高くなっています。

それ以外のキーワードについては、ちょっとこれだけだとなんともという感じですので、次に私が気になるキーワードをピックアップして比較してみます。

その他気になるキーワードの比較

キーワード 2018年 2025年
出現回数 出現頻度 出現回数 出現頻度
AI 0 0.000 18 0.501
DMP 6 0.457 0 0.000
ORCID 2 0.152 1 0.028
PID 3 0.228 13 0.362
RDM 3 0.228 9 0.251
マネジメント 1 0.076 4 0.111
リポジトリ 14 1.065 10 0.278
共有 12 0.913 14 0.390
利活用 10 0.761 7 0.195
活用 10 0.761 26 0.724
管理 11 0.837 27 0.752
論文 5 0.381 12 0.334

母数が異なるので比較が難しいですが、やはり「AI」は増えたなーということや、「DMP」って今年はテーマに上がっていないのかぁということや、「リポジトリ」の出現頻度は落ちているなぁということは言えるのかなと思います。

ちなみに「図書館」は形態素解析で「図書」に分解されてしまっているようなので、上記の表にはいれてません。

ワードクラウドによる比較

最後にもう少し直感的にわかるようにワードクラウドを作成してみました。

そのまま作成すると、「研究」「データ」「オープン」「サイエンス」がドーンと出てしまってほぼ同じになるので、それらのキーワードは除いています。

2018

2025

一般的なキーワードが多いので、正直これを見てもなんともというところですが、なんとなく傾向の違いのようなものは感じられなくもないような気もします。

 

というわけで特にこれをもって何かを分析するというわけではないのですが、たまにやらないとやり方を忘れてしまうので、やってみました。あと、前にも何かで書いた気がしますが、単純にデータで見えるようになるのが楽しいです。

AIの活用の話でいうと、2つのCSVから同じ項目を拾うというExcelだとちょっと面倒、Accessだと楽だけどAccessを開くのが面倒という部分を一発でやってくれてHTMLも出力してくれるというのが発見でした(それこそPythonなら楽なのか…)。

お相手は、やわらか図書館学でした。

本解析のレギュレーション

以下の内容のテキストを形態素解析にかけています。形態素解析では、名詞以外とストップワードを省いて集計しています。

  • JOSSの2018年と2025年のセッション詳細から、セッション名とセッション概要、あれば発表タイトルを抽出
  • 日本語と英語が併記の場合は、日本語のみを抽出。英語のみの場合は英語を抽出
  • 発表者名、所属名は含めない
テキストサイズ

2018年:16KB

2025年:45KB

参考

joss.rcos.nii.ac.jp

joss.rcos.nii.ac.jp