12/04/2014

[&] Measuring the User Experience - Bill Albert



ユーザーエクスペリエンスの測定:ビル・アルバート氏のお話しを聞いてきました!
日頃から UX評価のためにアンケートで理解するのは難しい、
適切なアンケート設問を作るのは難しいと感じていましたが、
ビルさんのお話しから、目から鱗的な数々のテクニックを知ることができました!
ビル・アルバート氏は大学でUX測定の授業を10年も続けているそう。

■UXメトリクスの実践

今日は組織という視点から、UX視点で価値を見いだすか、
またその課題についてもお話ししてききます。

UXの作業の流れは、質問を定義することから始まります。
データを収集し、分析し、提示することになります。

●リサーチクエスチョンを定義する

リサーチクエスチョンの定義の方法ですが、
デザインにして知りたいのか?
あるデザインが別のデザインよりも良いのか?
使い勝手が良いことを調べるのか? 決める必要があります。

次はその質問をなぜ知りたいのか?
なぜ会社がそれを知りたいと言っているのか、理解する必要があります。

次にその情報を知って、何をするのか?
情報からどのような行動をするのかを知る必要があります。

予想される結果はどのような結果が得られるか予想します。
場合によっては、
古いデザインの方が新しいデザインより良いことがわかったりもします。

これらの質問がどれほど重要かを見極める必要があり、
予算、時間、どれだけスタッフをさくべきか、優先順位が決まります。

●UXリサーチ・フレームワーク
定性的なものだけでなく、態度に関わるものも定義します。

基本的に質問をいくつか示しました。
ユーザーがどのようなことをしているか?行動にかかわる質問
ユーザーがどのような考えなのか? これは態度に関わる質問です。

定性的、定量的質問があります。
なぜそれがおこっているのか?
定性的なリサーチが有効です。
何が問題なのか、どれだけ問題が大きいのかは定量的なリサーチが必要です。

●UXリサーチクエスチョン

ここに示したのはリサーチクエスチョンのいくつかの質問です。

-----------------------------------------------------------------------------------------
アプリケーションが競合とくらべてどうか?  定性的× 定量的○
デザイン上、最も使いづらい点は何? 定性的○ 定量的○
デザインはこれまでに改善されてきたか? 定性的× 定量的○
ユーザーがウェブサイトを使うのに悪戦苦闘しているのはなぜ? 定性的○ 定量的×
他のユーザーグループのエクスペリエンスはどんなかんじ? 定性的○ 定量的○
デザイン上、ユーザーが好む色は? 定性的× 定量的○
デザインは直感的か? 定性的○ 定量的○
-----------------------------------------------------------------------------------------
コンテンツは適切か? 言動○ 振る舞い×
ユーザーはナビゲーションの仕方が分かるか? 言動× 振る舞い○
使っている言葉はおかしくないか?  言動× 振る舞い○
ユーザーはアプリケーションを=の見栄えを気に入るか? 言動○ 振る舞い×
ワークフローは直感的か? 言動× 振る舞い○
3つのウェブサイトの中で最もプロ的に見えるのは? 言動○ 振る舞い×
ウェブサイトの中で一番混乱しているのはどこ? 言動× 振る舞い○
-----------------------------------------------------------------------------------------

なぜ苦労しているのか? ユーザビリティテストなどがひつようで、
これは定量的なリサーチでは得られません。
リサーチクエスチョンを態度なのか、行動に関わるものなのか、分けることができます。
思いなのか?態度なのか?
ナビエーションの仕方が良いのか?これは行動ベースの調査が必要になります。

●計画を立てる:適切な手法を選ぶ

ごく一部のテクニックですが、フォーカスグループは
どのように何を言っているのか、定性的なリサーチです。
逆に Web 分析のようなリサーチは非常に行動と定量に関わるもので、
クリックがどのようにされているかを調査します。

モデレートする、しないがありますが、
この種のツール、User Zoom などパワフルなツールがあります。
http://www.userzoom.com/

●モデレーションありなし?
アンケート調査を数千人にするのと、ユーザーの横に座って観察するのと
いろいろなタイプがあります。

モデレートするタイプはなぜ問題が起きているのか分かります。
データ収集に時間がかかる、コントロールできるという利点があります。
一方モデレートしないばあいは、
なぜ?ということは分かりにくく、自由形式でも良く得られません。
大量のデータを素早く得られますが、コントロールはしずらいです。

課題として直面するのは、初期のプロトタイプの調査の場合、守秘義務があって、
誰がどのデザインを見ても良いのか、コントロールする必要があり、
その場合、そても時間がかかる場合があります。

ここに紹介したのがモデレートしないツールです。
それぞれ機能が違っていて、これらのツールは毎日のように進化しています。
いろいろなもの調べる手助けになるツールです。

trymy ui, OpenHallway, Testled, userlytics
ForeSee, zoomerang, webnographer,
SurveyMonkey, qualtrics, surveygizmo,
Whatusersdo, Loop11, UserTesting.com, ULITE, userzoom
optimalsort, Treejac, WebSort.net

モデレートしないツールをどのように選んだら良いのか?
定量的に向いているもの、定性的に向いているものに分かれ、
それぞれいくつかの機能に分かれます。

定量的なもの:
フルサービス、設計から助けてくれるもの、
セルフサービス、
IA を調べるのに有効なカードソーティングタイプのもの、
調査、
マウスクリックを調査するもの

定性的なもの:
レポート、エキスパートレビューつきのものも。
人気なのが UserTesting.com というサイト、ビデオ機能があり、安価に早く
50人から100人単位で調査結果を集めることができます。

●サンプルサイズ
いったい何人の回答を集めれば充分なのか?
調査の目標にもよります。
どれだけ重要な商品なのか?
救命道具の場合は、生死に関わるので、多くのテストがひつようです。

さらに、どれぐらいの誤差であれば、容認するか?
ノイズが多すぎると、誤った結果が導かれる可能性があります。
ユーザーがどの程度多様な人を含んでいるのか?
それによってサンプル数の大きさが変わります。

私自身の基本ルール:
明らかに異なるユーザータイプ毎に 100人テスト、初心者100人、エキスパート100人など。
エラーの限界を +-5%
一般的には 500人以上の調査をしても、そのコストに対する効果は無い。

●被験者を見つける
専門のリクルータにお願いしています。
集めて欲しい人の条件を指定してお願いしています。

その他の方法としては、パネル会社と呼ばれる、調査に参加する人を抱えている会社にお願いするとか、
社内の顧客リストからお願いするか
友人や家族にお願いする方法もありますが、おすすめではないです。
Amazon Mechanical Turk や、
LinkedIn でリクルートするというのもあります。

謝礼を計る方がいい。全体の予算ではわずかなことなので。
オンラインの調査であれば、
インセンティブは 10ドルで 15分、20ドルで30分 といったところが目安です。
30分の調査はめったになくてたいていは 10分から15分です。

●適切な手法を選ぶ
もちろん調査のプランニングのときには、どのメトリックスを使うのか?
それは調査の目的によって違います。
決済処理ができるのか?を調べるのであれば、タスクの成功率などを調べることが重要です。

●タスクの成功率を測定するヒント
データを収集する上でのヒントは、
ごく一部のコツをお話しします。

タスクには明確な終了状態が必要。(目的が達成されたか、終わりがはっきりわかるよう)
タスクの答えは推測できないものにする。(あらかじめ知っていた知識では答えられないような質問)
不正解はよく検討した上でえらぶ。(ひっかけ回答にひっかからないように。選択肢で正答がわからないよう)
他に納得のいく答えが無いことを確認する。(調査者が見落としているような、実は正解だった... ようなのも避ける)

リマインダーようなもの、何分間で、操作が無い場合は、ポップアップがでるとか?
あまり素早くやりすぎる(考えないで回答している)と、警告を出すとか、
集中していないで、時間が経ちすぎた場合にも警告を出すとか。

思考発話法は使わないようにします。
利用を早めたり、遅くなったりするので、
後から話しを聞く、回顧法を使います。
途中棄権してもいいようにしておきます。

●自己申告メトリクスのヒント
とにかく調査をつぎつぎと進めていって、
考えずに記入することを阻止する方法が必要です。

防止策は、スピードトラックです。全ての質問を「良い」と答えてしまう人がいれば、
それを続けられないよう、問題を読んでいますか?「はい/いいえ」みたいな質問を
間にはさむようにしています。

●アイトラッキングのヒント
どのようなメトリックを使って、どのように視覚化するのか考えておいて、
どのような対象物かによっても結果が左右されます。
表示する時間もコントロールするひつようがあります。
全てのユーザーが同じ時間だけ見ているようにコントロールしなければなりません。

●エンゲージメント測定のヒント
エンゲージメントは何か?実用性か?単に興味か?今後も使ってもらいたいということを
エンゲージメントと呼ぶのか?

振る舞いと自己申告の両方を使って測定する。
エンゲージメントはつかみ所の無い概念なので、複数メトリクスを組み合わせるのが重要です。
態度や、生理的なこと、皮膚伝導率で興奮度を調べることができます。

比較のときに明確に分かるので、
デザインを比較して評価するような場合に有効です。

●レコメンデーションまとめ
モデレート無しの調査の場合、
短くするのことが重要。5分から30分。
被験者のスクリーニングを注意深く行う
パイロット的に試してみて、質問のタイミングや内容が実際に使えるものであるかを試す。

いくつかのパネル会社にお願いして、スクリーニングをおこないます。
存在しないブランドを聞いたことがありますか?という質問をすると「はい」と答える人は、
謝礼目当てなので、調査から排除することができます。

●タスク成功率分析
成功/失敗 の 2値を用いるのが一般的
成功のデータ、タスク毎、ユーザーグループごとに比較チェックします。
データにどれだけ信頼度があるのか?をチェックする。専用のツールもあります。(あまりにも片寄っていないか?)

●タスク成功率分析
しきい値を決めておく、80% 成功すればよしとするなど。
タスクの種類をみる。最初から成功できた?途中で失敗したけど結果的には成功?完全に失敗?
成功の種類を見ることもできます。
目標までの課程で、どのような課程なのか?迷ったのか、スムーズに行ったのか?など。

●タスク完了時間分析
タスク完了時間
タスクに成功したものだけを分析します。
成功したものだけを選び、視覚化して示す、散布図を利用します。

外れた値、突出した最大値はノイズなので除きます。
モデレートしない場合よくおこり、これを導出する数式もあります。

非常にありえない値、突出した最小値はノイズなので除きます。
はじめに最短の可能時間を算出しておいて、それ以下のものは足切りします。

平均値ではなく、中央値が何なのかレポートします。

●タスク完了時間分析
タスク毎、すべてのタスクにわたって時間データを分析する。
デザインおよびユーザーグループを横断して比較する
統計的テストを行い、重要性を決める

●タスク完了時間データ分析
特定の時間内に完了したユーザーの割合を測定

●自己申告 - タスク後分析

個人的に気に入っているのは
Top-2 box, buttom 2-box というもので、
上から二つ、下から二つを選んだ人をカウントするものです。

自由記述式の場合も、ポジティブな割合、ネガティブな割合で
数値化することができます。
時間を経て変化していくのかどうかでもわかります。

●セッション後分析
全部の調査が終わった後に、全体を振り返るような質問をするのも有効
SUS (System Usability Scale)は誰でも使えます。
例は50の調査のスコアをまとめたもの。

●問題別分析
問題がおきた深刻度と、タイプ、問題の回数を調査することができます。
どの点でどれだけ問題が起きているのか調べることができます。

●(クローズド)カードソーティングデータ
IA のケース、
異なるカテゴリがいくつもある場合、どれが直感的なのか、調査することができる。
ユーザーの同意度を調べたり、
成功のスピードや直接性をみる。

●比較分析
平均的なユーザーとエキスパートを見て、
学習可能性を検証することができます。

●アイトラッキング分析
眺めた回数、時間、他のところを見たあとに、再度見た回数、
初めて気がつくまでにかかった時間を計ることができます。

●A/B テスト
ますます使われるようになっています。
統計的アプローチです。
分析にあたっては、カイ二乗検定を使っています。

●グラフでよくある10の間違い
意味の無い線グラフや、派手な三次元グラフなど。

- 1軸のラベルや単位が無い
- 実際よりもデータの誤差を少なく見せようとする
- 信頼間隔を示せるのに示していない
- 棒グラフのY軸が最小値(通常0)から始まっていない
- 棒グラフを使うべきところで線グラフを使っている
- 必要が無いのに3Dグラフを使っている
- 詰め込み過ぎ
- 円グラフのラベルが不適切
- 色だけで情報を示している
- 積み上げ棒グラフを使う場面が分からない

●マネジメント層へのメトリクス提示
- 提示しすぎない - ポイントを絞る
- データがストーリーを語ってくれる
- 細かい話しはあまりしない
- グラフが多くを語りすぎないようにする
 - グラフは便利に使える必要がある

Q. タスクの成功率を測定するヒント、目標があった場合、答えが推測できるもの?とは何か?

A. 例えば、フォームを記入して送信するという完了系であれば、成功/失敗、エラーがメトリクスになるが、
選択肢が推測できないもの出ない場合は、

Q. インハウス、エンタープライズアプリのテストの場合は?

A. 主に社内向けのアプリケーションの場合、効率を見る事、
時間的、エラー、どれだけ使われるのか?それらを見る。
効率は、初心者とエキスパートとの違いが重要。
学習可能性、エキスパートになるために、どれぐらい使う必要があるのか?学習曲線は?
マネジメントにその効果をうまく説明する必要がある?

Q. SD法と、リッカート法の違いは?

A. SD法と、リッカート尺度の違いは、
尺度を5つもうけて、アンカーとなる言葉を示しますが、
SD法は難しい場合があり、反対語が本当に反対語があり、混乱を招く場合があり、
リッカート法の方が有益だと感じている。