【研究成果報告】もしChat GPTが大阪商工会議所「メンタルヘルス・マネジメント(R)検定試験」を受けたら?

日本産業衛生学会産業保健AI研究会と共同で、Chat GPTが大阪商工会議所「メンタルヘルス・マネジメント(R)検定試験」を受けたらどうなるかについての研究論文が日本産業衛生学会の機関誌「産業衛生学雑誌」に掲載されました。本研究の実施にあたっては、大阪商工会議所の全面的なご協力をいただいております。ここに御礼申し上げます。

論文情報
渡辺 和広, 筒井 保博, 筒井 隆夫, 山内 武紀, 内田 満夫, 八谷 百合子, 金 一成, 飯田 真子, 今村 幸太郎, 櫻谷 あすか, 川上 憲人, メンタルヘルス・マネジメント(R)検定試験に対するChatGPT (GPT-4) のパフォーマンス:要因計画法を用いた検討, 産業衛生学雑誌 2024; 66(6): 303-313. DOI https://doi.org/10.1539/sangyoeisei.2024-017-B


研究の概要
Chat GPTの利用が広がっています。Chat GPTは職場のメンタルヘルス対応においても、よき助言者になってくれるかもしれません。本研究では,Chat GPTが職場のメンタルヘルスに関する知識をどの程度有しているかを検討しました。

職場のメンタルヘルスに関する専門知識のレベルは、大阪商工会議所が主催するメンタルヘルス・マネジメント(R)検定試験で測定しました。メンタルヘルス・マネジメント(R)検定試験にはⅠ種~Ⅲ種までの種類があり、その特徴は以下の通りです。

種別 対象者 目的
Ⅰ種(マスターコース)  人事労務管理スタッフ、経営幹部 社内のメンタルヘルス対策の推進
Ⅱ種(ラインケアコース) 管理監督者(管理職) 部門内、上司としての部下のメンタルヘルス対策の推進
Ⅲ種(セルフケアコース)  一般社員  従業員自らのメンタルヘルス対策の推進

試験の合格基準は,Ⅱ種・Ⅲ種試験については「100点中70点以上」,Ⅰ種試験については「選択問題100点・論述問題 50点のうち,得点の合計が105点以上.ただし,論述問題の得点が25点以上」となっています。

メンタルヘルス・マネジメント(R)検定試験(Ⅰ種~Ⅲ種)の選択問題を,試験のコース別に過去4回分(200問),計600問用意しました.また,Ⅰ種試験においてのみ課される論述問題も過去4回分用意しました。モデルはgpt-4(gpt-4-0613)を採用し,実装にはOpen AI APIを使用した。なお問題をそのままプロンプトとして使用する単純プロンプト条件と,これまでに大規模言語モデルのパフォーマンスを向上させることが確認されている方法でプロンプトを作成した調整プロンプト条件の2条件を使って差があるかも確認しています。

結果として、単純プロンプト条件における平均得点はⅢ種で74.5点,Ⅱ種で71.5で合格水準に達しました。しかしⅠ種における平均得点は選択問題で64.0点、論述問題(50点満点)で22.5点であり、合格水準に達しませんでした。Ⅲ種およびⅡ種の GPT-4の平均得点は、メンタルヘルス・マネジメント(R)検定試験の受験者の平均得点とほぼ同等でした。Ⅰ種における選択問題と論述問題との合計点の平均得点は、受験者全体の平均得点より5点ほど低い結果でした。調整プロンプト条件においては、単純プロンプト条件よりもわずかに正答率が高かったが、大きな差ではありませんでした。

GPT-4はメンタルヘルス・マネジメント(R)検定試験のⅡ種・Ⅲ種試験において合格基準を上回る得点を示し、これは受験者全体の平均とほぼ同様でした。GPT-4は職場のメンタルヘルスに対する一般従業員あるいは管理監督者と同程度の知識を有していると考えられます。しかし高度で専門的知識を求められるⅠ種試験においては合格基準を下回り、受験者全体の平均得点よりも低い得点しか獲得できませんでした。GPT-4の職場のメンタルヘルスに関する知識は、人事労務管理スタッフ、経営幹部に求められる水準より低いと考えられます。

GPT-4を職場のメンタルヘルスについて活用する場合には、GPT-4がメンタルヘルス・マネジメント(R)検定試験を受ける一般従業員あるいは管理監督者と同程度の知識を有している(ただし決して高度ではない)ことを認識すべきでしょう。またGPT-4は、人事労務管理スタッフ、経営幹部に求められる水準より低いレベルの知識しか有していないことも認識すべきです。今後生成AIの全般的進歩、あるいは職場のメンタルヘルスに関する情報を学習させた特化型の生成AIを開発することで、職場のメンタルヘルスに関する高度な知識を持つ生成AIが開発されることが期待されます。