Measuring The User Experience
雜項
- 東西不好用,或讓人誤用,可能產生糾紛。
- 度量重點:可觀察、量化。著重效能、效率、滿意度等。
- 測量出來的東西只能看到現象、無法直接得知原因,但可藉著這些蒐集來的資料加以分析,讓猜測更接近事實。
- 要有東西來證明判斷。用統計數據就是為了避免過份主觀的意識,應好好了解統計數值的含意、做出正確(而不是「符合自己猜想」)的判讀。
- 即使是新產品也可以測量,雖然沒有辦法與「之前的產品」比較,但可以保留資料給「之後的產品」比較用。
- 描述統計指描述樣本特性,但不對較大的群體推論;推論統計則可對較大群體推論
樣本
- 樣本代表性
- 即使樣本不夠多,也不見得就不能用。真正要關心的是研究目標跟可容忍的誤差。
- [補充] 根據 UPA 2004 Website Usability Questionnaires 的測試,QUIS、CSUQ、SUS、MS Reaction Card 幾種評量「問卷」中,SUS 比較不怕小樣本帶來的誤差,在 8 個樣本以上就有 75% 的準確性、12 個就可逼近母體。不過無論是哪種測試,只做 6 個人都遠遠不夠、準確率不到 50%。
- 是否分類分析?樣本數應該要有一定的量,不然每類只有一兩個人好像誤差會很大。
- 抽樣策略?隨機、規律、分層、隨便 XD
測試
規劃測試
- 目的(測新功能?立下基準?)
- 使用者的目標
- 是否被迫一定要用?是否只用一兩次?是想完成任務就好、還是效率也十分重要?
- 績效:「完成每次任務需要付出的努力」,點擊數、花的時間、錯誤數等等
- 滿意度:是否滿意?
- 績效跟滿意度不必然正相關,影響的細節很多,他可能花了點時間才完成、但反正完成就好了。
- 其他細節(測多少人才夠、有多少時間跟預算)
- 確認因變數、自變數
- 若任務本質無關順序,則應設法平衡任務順序所造成的影響。例如給予受訪者的任務不照同個順序跑、且避開前後任務的關聯影響。(例如 A 做 1234 、B 做 4231 等等)
Formative,迭代測試、不斷測不斷改
- 找出關鍵、導致產品成功率低的問題
- 評估「修改後是否真的改進了」
- 評估好處、缺點等(感覺)
- 找出最常發生的錯誤
Summative
- 總結式,在產品完成後做,建立基準數據、求取下次產品上的進步。
- 評估產品/功能與目標結合得多好
- 或者用來比較多種產品間的優劣
十種可用性研究場景,與相對適合的方式
可用性研究場景 | 任務成功 | 任務耗時 | 錯誤數 | 效率 | 易學性 | 權衡重要性 | 自評 | 生理測量 | 組合比較 | 線上測試 | 卡片分類 |
---|---|---|---|---|---|---|---|---|---|---|---|
完成一個任務 | V | V | V | V | V | ||||||
比較產品 | V | V | V | V | |||||||
同一產品頻繁使用 | V | V | V | V | V | ||||||
導覽、IA 的測試 | V | V | V | V | |||||||
知覺測試 | V | V | V | ||||||||
找出問題 | V | V | |||||||||
重要產品可用性最佳化 | V | V | V | ||||||||
提昇使用體驗 | V | V | |||||||||
評估細微修正影響 | V | ||||||||||
比較多種方案 | V | V | V | V | V |
- 完成一個任務
- 先確實定義完成
- 可以採用「同一任務完成率」作為一個指標
- 或者任務失敗造成的流失率,統計後可以拿來比較問題權重
- 如果需要多次使用這項產品,測效率(單位時間內的任務完成率)
- 自評式:詢問再次使用的可能性、用戶期望等
- 比較產品
- 跟上一版比較,或跟對手比較
- 效率(完成時間、PageView — 越多可能越不好、完成任務步驟)
- 如果有多種產品可比較,那評估滿意度也不錯
- 同一產品頻繁使用
- 因為經常使用,所以每次使用要盡可能不費力(測步驟數、瀏覽頁數)
- 測完成任務的耗時,越短越好,也要比較生手跟熟手的耗時比
- 自評式:知覺(是否看到某功能)、是否有用
- 導覽、IA 的測試
- 任務成功與否(二分法是非題)
- 迷失度(實際使用步驟 除以 最少使用步驟)
- Card Sorting (測看看使用者排起來跟自己規劃的有多大差別)
- 知覺測試
- 眼動儀等生理測量機制(但「只是掃過」測得出來嗎?)
- 「選擇剛剛有看過的元素」,借此得知使用者是否真的有看到、還是只是不經心掃過
- A/B Test
- 找出問題
- 力求使用情境上的真實性
- 在使用者使用工具的場域
- 使用者自行決定順序
- 自然
- 總結出各種問題的分類(例如40%為命名相關的錯誤.. 等)
- 看同一個問題的發生頻率
- 力求使用情境上的真實性
- 重要產品可用性最佳化
- 「用不好,會死人」的那類(緊急逃生、急救用品… etc.)
- 用戶績效必須超過預定目標,不過就重新設計產品
- 盡可能做大樣本量化測試,降低數據誤差
- 計算出錯數(明確界定錯誤的定義)
- 效率
- 任務成功(或,有限時間內任務成功率)
- 不要用自評式,因為這類都是關鍵必要任務、通通直接做才算數。
- 提昇使用體驗
- 「用了一天以後感覺如何」比「過程中錯了多少」重要(因為要評估整體體驗)
- 可用自評式問卷(喜歡嗎?滿意嗎?會買嗎?),用戶期望部分由低到高是「低於期望、符合期望、超越期望」
- 評估修正影響,特別是「小改」的時候
- 由於改動幅度小,所以測試量要盡量大
- AB Test,直接從行為中搜集到的實際數據來比較
- 比較多種方案
- 在專案早期使用
- 可以設計成:
- 單純的組間比較,每組只測一種方案。這種的測試人數要夠多
- 都只測一種主要設計,測完後提供另一種設計讓使用者比較,看喜歡哪個
- 任務成功率等,可以參考「多產品比較」的作法。
資料
Nominal data
- 無序、分組性的資料
- 彼此之間難比較
- 關鍵在怎麼編碼,例如「成功 =1」、「失敗 =0」
- 常用統計:頻率、列聯表、卡方檢定
Ordinal Data
- 僅代表順序的資料。
- 「第十名確實比第二十名好,但並不是好兩倍。」此時算這些統計值無意義。
- 可以做「30% 的人覺得很棒,40% 的人覺得棒」這種描述。
- 常用統計:頻率、列聯表、卡方檢定、Wilcoxon 無母數符號等級檢定、Spearman 相關性檢定
Interval Data
- 等距、可比較的資料。如 SUS Value
- 沒有絕對的零,只有定義上所設定的零。(例如溫度可以有零度,但也有零下 n 度。溫度間的比較是相對關係、與零在哪裡無關。攝氏跟華氏的零度也不相同。)
- Scale 那類的數值都算,要確定的是中間值是否確實有意義。例如5分制的東西給 3 分是否確實代表「不好不壞」
- 常用統計:所有的描述統計、t 檢定、變異數分析、關聯性分析、回歸分析
Ratio Data
- 有絕對零點的值,例如自然數(身高、人口個數、耗時)的零(不會有「我的身高是負兩公分」這種東西)
- 因此可以拿來做比例的比較。
- 常用統計:所有的描述統計(含幾何平均數)、t 檢定、變異數分析、關聯性分析、回歸分析
數據
- 關心集中趨勢,如平均數、中數、眾數
- 在可能包含極端值時,用中數可能較眾數更好
- 數據是有限值的集合時,可能使用眾數,但不常用
- 變異性:樣本資料離散程度,會注意全距、變異數、標準差
- 全距:可以拿來看極端值
- 變異數:越大越離散,無「單位」
- 標準差:單位跟原始數據相同,變異數的平方根
- 報告中的數據,精準度不超過原始數據的下一位。(如原始數據最小單位為秒,那報告出去的最小單位是 0.1 秒即可。太細沒用)
Excel 與 檢定
- Excel 只要丟一群值給他就可以直接做描述統計數據出來
- Excel 的 confidence (信任區間)函數,傳入的標準差是「估計的母體標準差」,跟用敘述統計跑出來、針對樣本本身的「樣本標準差」意義不同,所以用函數來算會跟敘述統計跑出來的不一樣。樣本增加時兩者間的差距會縮小。
- 變異數 2 個時用 t 檢定、 3 個以上用 ANOVA
- 小樣本 (<30) 用 t 檢定,超過用 z 檢定
- 複習:等著被拒絕的就設成假設 XD 通常是「假設兩群無顯著差異」,也就是估計平均值啥的那類都是一樣的值。
- 獨立兩群樣本比較:只要丟兩群測試原始資料給 Excel 就搞定
- p < alpha 是有顯著差異 / 拒絕假設,看情況決定單雙尾。UX test 似乎雙尾居多
- ANOVA 單因分析時, p < alpha 代表「這些樣本群整體來說有顯著差異」,但不見得兩兩間就有顯著差異,要看其中兩兩間的差異要另外做 t 檢定。
- Excel 卡方:
- 設定觀測平均值群
- 設定平均值期望群(通常都設一樣,代表「假設無差異 」)
- Chitest 小於 alpha 代表有顯著差異,拒絕假設
圖表應用
原則
- 注意要標數值的單位
- 不需要過份精確,整數最好。圖表重視的是視覺展現相對關係
- 不單以色彩來代表狀態
- 英文 Label 都水平顯示,中文 label 無此問題,只要不用歪著頭看即可,直書無妨
- 要把 alpha 或信任指數寫出來
- 不要讓一張圖表承載太多資訊
- 慎用花俏效果,如 3D
Bar chart
- 縱軸刻度不要高於最大值(Excel 自動繪製圖表常有這個問題,數值超過 100% 那類)
Line chart
- 數據之間有(趨勢)關係時使用,沒有的應該用 Bar chart
- 明確顯示數據點,加圖示
Scatter plots
- 加趨勢線
- 突顯 xy 軸間的配對關係
Pie chart
- 百分比,加總的和必為 100%
- 盡量不多於 6 個區塊
Stacked Bar
- 意義上等同於很多個 pie chart
- 盡量不多於 3 個區塊
page revision: 12, last edited: 29 Apr 2012 15:39