Measuring The User Experience

雜項

  • 東西不好用,或讓人誤用,可能產生糾紛。
  • 度量重點:可觀察、量化。著重效能、效率、滿意度等。
  • 測量出來的東西只能看到現象、無法直接得知原因,但可藉著這些蒐集來的資料加以分析,讓猜測更接近事實。
  • 要有東西來證明判斷。用統計數據就是為了避免過份主觀的意識,應好好了解統計數值的含意、做出正確(而不是「符合自己猜想」)的判讀。
  • 即使是新產品也可以測量,雖然沒有辦法與「之前的產品」比較,但可以保留資料給「之後的產品」比較用。
  • 描述統計指描述樣本特性,但不對較大的群體推論;推論統計則可對較大群體推論

樣本

  • 樣本代表性
  • 即使樣本不夠多,也不見得就不能用。真正要關心的是研究目標跟可容忍的誤差
  • [補充] 根據 UPA 2004 Website Usability Questionnaires 的測試,QUIS、CSUQ、SUS、MS Reaction Card 幾種評量「問卷」中,SUS 比較不怕小樣本帶來的誤差,在 8 個樣本以上就有 75% 的準確性、12 個就可逼近母體。不過無論是哪種測試,只做 6 個人都遠遠不夠、準確率不到 50%。
  • 是否分類分析?樣本數應該要有一定的量,不然每類只有一兩個人好像誤差會很大。
  • 抽樣策略?隨機、規律、分層、隨便 XD

測試

規劃測試

  1. 目的(測新功能?立下基準?)
  2. 使用者的目標
    • 是否被迫一定要用?是否只用一兩次?是想完成任務就好、還是效率也十分重要?
    • 績效:「完成每次任務需要付出的努力」,點擊數、花的時間、錯誤數等等
    • 滿意度:是否滿意?
    • 績效跟滿意度不必然正相關,影響的細節很多,他可能花了點時間才完成、但反正完成就好了。
  3. 其他細節(測多少人才夠、有多少時間跟預算)
  • 確認因變數、自變數
  • 若任務本質無關順序,則應設法平衡任務順序所造成的影響。例如給予受訪者的任務不照同個順序跑、且避開前後任務的關聯影響。(例如 A 做 1234 、B 做 4231 等等)

Formative,迭代測試、不斷測不斷改

  • 找出關鍵、導致產品成功率低的問題
  • 評估「修改後是否真的改進了」
  • 評估好處、缺點等(感覺)
  • 找出最常發生的錯誤

Summative

  • 總結式,在產品完成後做,建立基準數據、求取下次產品上的進步。
  • 評估產品/功能與目標結合得多好
  • 或者用來比較多種產品間的優劣

十種可用性研究場景,與相對適合的方式

可用性研究場景 任務成功 任務耗時 錯誤數 效率 易學性 權衡重要性 自評 生理測量 組合比較 線上測試 卡片分類
完成一個任務 V V V V V
比較產品 V V V V
同一產品頻繁使用 V V V V V
導覽、IA 的測試 V V V V
知覺測試 V V V
找出問題 V V
重要產品可用性最佳化 V V V
提昇使用體驗 V V
評估細微修正影響 V
比較多種方案 V V V V V
  1. 完成一個任務
    • 先確實定義完成
    • 可以採用「同一任務完成率」作為一個指標
    • 或者任務失敗造成的流失率,統計後可以拿來比較問題權重
    • 如果需要多次使用這項產品,測效率(單位時間內的任務完成率)
    • 自評式:詢問再次使用的可能性、用戶期望等
  2. 比較產品
    • 跟上一版比較,或跟對手比較
    • 效率(完成時間、PageView — 越多可能越不好、完成任務步驟)
    • 如果有多種產品可比較,那評估滿意度也不錯
  3. 同一產品頻繁使用
    • 因為經常使用,所以每次使用要盡可能不費力(測步驟數、瀏覽頁數)
    • 測完成任務的耗時,越短越好,也要比較生手跟熟手的耗時比
    • 自評式:知覺(是否看到某功能)、是否有用
  4. 導覽、IA 的測試
    • 任務成功與否(二分法是非題)
    • 迷失度(實際使用步驟 除以 最少使用步驟)
    • Card Sorting (測看看使用者排起來跟自己規劃的有多大差別)
  5. 知覺測試
    • 眼動儀等生理測量機制(但「只是掃過」測得出來嗎?)
    • 「選擇剛剛有看過的元素」,借此得知使用者是否真的有看到、還是只是不經心掃過
    • A/B Test
  6. 找出問題
    • 力求使用情境上的真實性
      1. 在使用者使用工具的場域
      2. 使用者自行決定順序
      3. 自然
    • 總結出各種問題的分類(例如40%為命名相關的錯誤.. 等)
    • 看同一個問題的發生頻率
  7. 重要產品可用性最佳化
    • 「用不好,會死人」的那類(緊急逃生、急救用品… etc.)
    • 用戶績效必須超過預定目標,不過就重新設計產品
    • 盡可能做大樣本量化測試,降低數據誤差
    • 計算出錯數(明確界定錯誤的定義)
    • 效率
    • 任務成功(或,有限時間內任務成功率)
    • 不要用自評式,因為這類都是關鍵必要任務、通通直接做才算數。
  8. 提昇使用體驗
    • 「用了一天以後感覺如何」比「過程中錯了多少」重要(因為要評估整體體驗)
    • 可用自評式問卷(喜歡嗎?滿意嗎?會買嗎?),用戶期望部分由低到高是「低於期望、符合期望、超越期望」
  9. 評估修正影響,特別是「小改」的時候
    • 由於改動幅度小,所以測試量要盡量大
    • AB Test,直接從行為中搜集到的實際數據來比較
  10. 比較多種方案
    • 在專案早期使用
    • 可以設計成:
      • 單純的組間比較,每組只測一種方案。這種的測試人數要夠多
      • 都只測一種主要設計,測完後提供另一種設計讓使用者比較,看喜歡哪個
    • 任務成功率等,可以參考「多產品比較」的作法。

資料

Nominal data

  • 無序、分組性的資料
  • 彼此之間難比較
  • 關鍵在怎麼編碼,例如「成功 =1」、「失敗 =0」
  • 常用統計:頻率、列聯表、卡方檢定

Ordinal Data

  • 僅代表順序的資料。
  • 「第十名確實比第二十名好,但並不是好兩倍。」此時算這些統計值無意義。
  • 可以做「30% 的人覺得很棒,40% 的人覺得棒」這種描述。
  • 常用統計:頻率、列聯表、卡方檢定、Wilcoxon 無母數符號等級檢定、Spearman 相關性檢定

Interval Data

  • 等距、可比較的資料。如 SUS Value
  • 沒有絕對的零,只有定義上所設定的零。(例如溫度可以有零度,但也有零下 n 度。溫度間的比較是相對關係、與零在哪裡無關。攝氏跟華氏的零度也不相同。)
  • Scale 那類的數值都算,要確定的是中間值是否確實有意義。例如5分制的東西給 3 分是否確實代表「不好不壞」
  • 常用統計:所有的描述統計、t 檢定、變異數分析、關聯性分析、回歸分析

Ratio Data

  • 有絕對零點的值,例如自然數(身高、人口個數、耗時)的零(不會有「我的身高是負兩公分」這種東西)
  • 因此可以拿來做比例的比較。
  • 常用統計:所有的描述統計(含幾何平均數)、t 檢定、變異數分析、關聯性分析、回歸分析

數據

  • 關心集中趨勢,如平均數、中數、眾數
    • 在可能包含極端值時,用中數可能較眾數更好
    • 數據是有限值的集合時,可能使用眾數,但不常用
  • 變異性:樣本資料離散程度,會注意全距、變異數、標準差
    • 全距:可以拿來看極端值
    • 變異數:越大越離散,無「單位」
    • 標準差:單位跟原始數據相同,變異數的平方根
  • 報告中的數據,精準度不超過原始數據的下一位。(如原始數據最小單位為秒,那報告出去的最小單位是 0.1 秒即可。太細沒用)

Excel 與 檢定

  • Excel 只要丟一群值給他就可以直接做描述統計數據出來
  • Excel 的 confidence (信任區間)函數,傳入的標準差是「估計的母體標準差」,跟用敘述統計跑出來、針對樣本本身的「樣本標準差」意義不同,所以用函數來算會跟敘述統計跑出來的不一樣。樣本增加時兩者間的差距會縮小。
  • 變異數 2 個時用 t 檢定、 3 個以上用 ANOVA
    • 小樣本 (<30) 用 t 檢定,超過用 z 檢定
  • 複習:等著被拒絕的就設成假設 XD 通常是「假設兩群無顯著差異」,也就是估計平均值啥的那類都是一樣的值。
  • 獨立兩群樣本比較:只要丟兩群測試原始資料給 Excel 就搞定
  • p < alpha 是有顯著差異 / 拒絕假設,看情況決定單雙尾。UX test 似乎雙尾居多
  • ANOVA 單因分析時, p < alpha 代表「這些樣本群整體來說有顯著差異」,但不見得兩兩間就有顯著差異,要看其中兩兩間的差異要另外做 t 檢定。
  • Excel 卡方:
    1. 設定觀測平均值群
    2. 設定平均值期望群(通常都設一樣,代表「假設無差異 」)
    3. Chitest 小於 alpha 代表有顯著差異,拒絕假設

圖表應用

原則

  1. 注意要標數值的單位
  2. 不需要過份精確,整數最好。圖表重視的是視覺展現相對關係
  3. 不單以色彩來代表狀態
  4. 英文 Label 都水平顯示,中文 label 無此問題,只要不用歪著頭看即可,直書無妨
  5. 要把 alpha 或信任指數寫出來
  6. 不要讓一張圖表承載太多資訊
  7. 慎用花俏效果,如 3D

Bar chart

  • 縱軸刻度不要高於最大值(Excel 自動繪製圖表常有這個問題,數值超過 100% 那類)

Line chart

  • 數據之間有(趨勢)關係時使用,沒有的應該用 Bar chart
  • 明確顯示數據點,加圖示

Scatter plots

  • 加趨勢線
  • 突顯 xy 軸間的配對關係

Pie chart

  • 百分比,加總的和必為 100%
  • 盡量不多於 6 個區塊

Stacked Bar

  • 意義上等同於很多個 pie chart
  • 盡量不多於 3 個區塊
Creative Commons License
本站文字除特別聲明者外,係採創用 CC 姓名標示-非商業性-相同方式分享 2.5 台灣授權條款授權,利用前請見說明