「知識ゼロから学ぶAIテスト」セミナー参加レポート

2023年9月26日に帝国ホテルで開催された「Stuart Reid博士来日イベント　特別セミナー／知識ゼロから学ぶAIテスト」に参加してきました。

完璧ではないAIを”どうテストするか？”
Building Trust in AI through Risk: An Emerging Test Specialism｜Stuart Reid博士講演
コーヒーブレイク
AIのAIによるAIのためのテスト｜西康晴博士講演
- メタモルフィックテスト
- 大規模言語モデル（LLM）
AIテスト及びシフトライト戦略｜高橋寿一博士講演
まとめ

完璧ではないAIを”どうテストするか？”

“AIをどう使うか？”に注目が集まっていますが、完璧ではないAIを”どうテストするか？“についてはほとんど議論がされていません。 AIプロダクトのテストについて、AIテストの第一人者であるStuart Reid博士と西康晴先生をお招きして特別セミナーを開催します。
セミナー概要

今から1年ほど前、2022年の秋までは、生成AIなどで話題になるものはあっても、認知度もそれほど高くなく、現在ほど普及はしていませんでした。

ところが2022年11月、OpenAIがChatGPTを発表すると、またたく間に注目を集め、IT業界だけでなく、いわゆる世間一般、教育業界、子供たちにまで認知されるようになりました。

AIは今まさに、急速な拡大期を迎えているといえます。

このAIというもの、「すごい！」と感嘆の声を挙げたくなることも多いのですが、反面、「完璧でない」と感じることが多いのもまた事実です。

ChatGPTを使ったことのある方なら経験があるかもしれませんが、しれっと「間違った答えをさも真実のように」伝えることがあります。

ここが、”AIが完璧ではない“ところです。

完璧ではないAIですが、せっかくの便利なモノなので利用しない手はありません。しかし、利用してみたところでやっぱり完璧でないので「AIの品質」が課題になる。
どのように利用していくのか、はたして利用していけるのか…。

そんなことに頭を悩ませる品質界隈の方々にプレゼントされたのが、本日の特別セミナー「知識ゼロから学ぶAIテスト」です。

まさに「AIの品質」にスポットを当て、エキスパート3名の講演を聞くことができました。

Building Trust in AI through Risk: An Emerging Test Specialism｜Stuart Reid博士講演

まずはStuart Reid博士が登壇されました。

タイトルを直訳すると、

リスクを通じてAIの信頼を築く：新たなテスト専門分野

となります。

AIテクノロジーの95％は機械学習システム（Machine Lerning System）とのことで、MLSを中心に講演が進みます。

冒頭から一気にひきつけられる内容でした。

（要約）

2022年には92％の企業がAIに投資をし、AIから大きな利益を得られるようになってきています。

市場に大きなインパクトを与え、AIの時代が到来したことを告げています。

しかし、AIには「信頼できない」という問題が依然としてあります。

世界で約半数の人は「AIの利益はリスクを上回る」と答えていますが、AIを「信頼しない」「データをAIと共有したくない」と考える人も38％もいます。（日本やイギリスは「信頼しない」の割合が高い）

一方でイギリスのほぼすべての人がSNSを使用しています。

しかし驚くべきことに、実に45％の人はSNSがAIを使用していることを知らないで使用しています。

AIのメリットを享受していることを知らずに「信頼しない」と答えているということです。

信頼がなければAIは発展していくことができません。

では、信頼を得るためにはどうすればよいのか。

テストをすることです。

テスト業界には大きなチャンスが訪れています。

ここからMLSのリスクと重要性に関するお話になるのですが、講演に先駆けて特別寄稿されているこちらの記事にも詳しく解説されていますので、ぜひご参照ください。

【日本語】AIのリスクベーステスト/Risk-Based Testing for AI

中でも、「入力データのリスク」では、

「ineffective data governance（非効果的なデータガバナンス）」について、「39％がデータプライバシーは生成AIのリスクであると考えているにも関わらず、このリスクを軽減しようとしているのは20%のみ。

約半分はテストをしていない。テストをせずに公開して利益を得ることを選択している可能性がある」

「開発リスク」では、

「lack of explainability (e.g. selected algorithm is difficult to explain)

（説明不足（例：選択したアルゴリズムの説明が難しい））」について、「39％が、生成AIには説明の欠如というリスクがあると考えているにも関わらず、このリスクを軽減しようとしているのはわずか18％」

「開発フレームワークのセキュリティテストについて、53％はリスクがあると考えているのに、軽減を図っているのはわずか38％」

など、MLSのテスト実施割合の低さ、品質の問題点について数値を用いて大変わかりやすく解説していただき、あらためて問題意識を持つことができました。

AI（MLS）独自のテストについてもReid博士の寄稿文に詳しく解説されております。
【日本語】AIのリスクベーステスト/Risk-Based Testing for AI (日本語翻訳版)

コーヒーブレイク

オフライン開催のセミナーならではのコーヒーブレイクでは、帝国ホテルのサンドイッチとコーヒーで一息。

参加者同士の名刺交換、登壇者と参加者の雑談風景が見られるのも、オフライン開催ならではです。

オンラインに慣れてしまっているこのごろですが、やはりこのような風景はいいですね。

会場を眺めていると、いろいろな雑談や笑い声が聞こえてきて、温かみを感じました。

AIのAIによるAIのためのテスト｜西康晴博士講演

続いては西康晴博士の講演「AIのAIによるAIのためのテスト」です。

時々会場を笑いに包みながら、様々な事例とともにAIテストの具体例を解説してくださいました。

シベリアンハスキーと狼を見分けるAIを作成した。

どのようにシベリアンハスキーと狼を見分けているかというと、顔や鼻、耳を見ているわけではなく、バックグラウンドに雪があるかどうかだけで判断している。

このようなAIを信頼できるか？というお話は大変興味深いものでした。

また、AIのテストにおいては、

・これまでのテスト技術が使えない
・自動化が必須
・性能や不具合の因果関係の説明や理解は極めて難しいため、XAI（Explainable AI）（AIの中身を説明できた気になる技術）が大事になる

というお話もあり、あらためてAIをテストすることの難しさを感じました。

メタモルフィックテスト

AIテストの代表的な一つが「メタモルフィックテスト」であるとし、詳しく解説くださいました。

・メタモルフィックテストとはAIの間違いを探すことが主
・判定ミスを起こさせることで、どこで判別しているかがわかる
・テストケース自体をAIで生成するという研究が盛んにおこなわれている ⇒「泳いでいるコアラの画像を入力するとモルモットと判別する」というテストケースを生成する、など

西博士もおっしゃっていましたが、このあたりのテストは発見も多く「面白い」とのこと。

スライドを見ながら講演を聞いているだけでも、大変興味深く面白かったです。

大規模言語モデル（LLM）

続いて大規模言語モデル（LLM：Large Language Models／ChatGPTなど）のバグを見つけるお話がありました。

LLMは人間のように会話しますが、一切知性を持っていない。

「次の単語予測マシーン」にすぎないから、単語を崩すゲームをやらせると間違える。

西博士のお話にあった例を、さっそく帰社後にChatGPT（GPT-3.5）で試してみました。

　1.　4桁×4桁の掛け算をやらせるとまず間違える

不正解。

正解は、1958×5089=9,964,262　です。

続いて単語テスト。

2.　Sで始まりSで終わる単語を教えて

不正解

いい線いってましたが、5番を間違えていました。

もう一つ試してみます。

3.　Pで始まりPで終わる単語を教えて

不正解

これも惜しかったですね。

間違えているにもかかわらず、回答の後に注意事項まで述べてくれるChat-GPTに感謝して実験を終わりたいと思います。

さて、レポートに戻りますが、西博士の講演は、

AIを恐れる必要はありません。
AIを使いこなせる会社が勝ちます。
進む方向はもうわかっています。
どちらに進むかは、みなさんが決めることです。

と締めくくられました。

AIテスト及びシフトライト戦略｜高橋寿一博士講演

続いて高橋寿一博士の講演「AIテスト及びシフトライト戦略」です。

AIというのは避けて通れなくなっているが、AIのテストというのは大変だと感じている。
テストの仕方も複雑になっている。
2～3年前まではShift-Leftを唱えてきたが、今はなぜShift-Rightなのか。

というお話しから始まりました。

参考　いまさら「シフトレフト」について考えてみた

Shift-Rightについては、

・あまり定義はない
・Shift-Leftでやりたいが、できないため仕方なくShift-Right手法をとっている

ソフトウェアの巨大化、複雑化に伴い、Shift-Rightを考えていく必要がある時期に来ている。

実際にビルドをして客先に出る直前、もしくは客先に出てからテストをしなければならないということが、今後増えてくるのではないか。

とのことで、品質に携わる方々の仕事は増えていく、Shift-Leftもやらなければならないし、Shift-Rightも増えていくのではないかと予測されていました。

AIのテストについては、