Teil II: Praxis, Kap.7 Usability Testing
Abgelegt unter Diplomarbeit, Kap7 Testing
Usability Testing mit realen Usern ist die grundlegendste Technik der Usability Evaluation und nur schwer durch andere Methoden ersetzbar. Es bietet Einsicht in die Art und Weise wie Menschen mit Computern arbeiten und welche Probleme mit den zu testenden Weboberflächen auftreten.
Während sich bei der Durchführung eines Usability Tests vielfältige Variationen ergeben können, haben alle Arten von Tests einige Gemeinsamkeiten, die in den Teilen 7.2. und 7.3. näher erläutert werden sollen:
Der erste Punkt bezieht sich auf die Testpersonen. Es sollten Personen aus der angestrebten Zielgruppe sein.
Der zweite Punkt zeigt den Unterschied zu anderen Forschungsrichtungen, bei denen das Auftreten eines bestimmten Phänomens untersucht werden soll. Die angesprochenen spezifischen Ziele können z.B. die Fragen enthalten, wie intuitiv die Navigation ist oder ob das Interface sowohl erfahrene als auch unerfahrene Nutzer anspricht.
Drittens sollten die gestellten Aufgaben solche Aufgaben sein, die eine Person zu Hause oder im Büro tatsächlich tun würde. Bei großen Systemen oder Webseiten ergibt sich allerdings das Problem, dass nur bestimmte Bestandteile getestet werden können. Deshalb sollten sich die gestellten Aufgaben an den Zielen des Projekts orientieren.
Die letzten zwei Punkte beziehen sich auf die Durchführenden der Usability-Tests. Deren Aufgaben ist es objektiv festzuhalten was gesagt und getan wird. Daraus werden dann Handlungsempfehlungen zur Problembehebung ausgearbeitet.
Abgelegt unter Diplomarbeit, Kap7 Testing
Auf die Frage, wer die Teilnehmer eines Usability Tests sein sollten, gibt es zwei mögliche Antworten. Jakob Nielsen vertritt die Meinung, dass die Testteilnehmer so repräsentativ wie möglich für die intendierte Zielgruppe sein sollten. So ist eine Zielgruppe zu definieren, die bei umfangreichen Tests auch in Untergruppen eingeteilt werden kann.
Steve Krug dagegen vertritt dagegen eine entgegengesetzte Meinung:
“The best-kept secret of usability testing is the extent to which it doesn’t matter who you test.”
Steve Krug
Seines Erachtens wird viel zu viel Zeit damit verbracht, Testpersonen zu rekrutieren, die die Zielgruppe möglichst genau repräsentieren sollen. Für den Test der meisten Webseiten reicht es aus, Personen zu rekrutieren, die ein Internet-Grundwissen aufweisen können. Wichtigster Grund hierfür ist, dass es keine gute Idee ist, nur für eine bestimmte Gruppe von Benutzern die Seiten zu optimieren. Da die Erfahrungen der Nutzer ständig steigen, entwickeln sich viele Benutzer von Anfängern zu erfahrenen Usern. Dies hat zur Folge, dass die Anforderungen an die Seite sich ständig ändern.
Letztendlich ist es eine Kosten- und Aufwandsfrage, ob die anvisierte Zielgruppe getestet wird oder nicht. Ist eine Feststellung der Demografiedaten problemlos oder besteht durch eine frühere Erhebung ein genaues Bild der Nutzer, so sollte auch mit der Zielgruppe getestet werden. Ist dagegen eine Erhebung schwierig oder zu langwierig, so sollte auf eine genaue Auswahl verzichtet werden.
Die nächste Frage bzgl. der Auswahl der Testpersonen ist, wie viele Personen getestet werden sollten. Dabei ist zu bemerken, dass es sich beim Usability Testing nicht um eine qualitative Methode oder gar eine empirische Umfrage handelt. Das Hauptziel ist, wie oben betont, die schwerwiegendsten Probleme eines Interfaces zu identifizieren.
Verschiedene Quellen (wie Krug (2000) und Dumas (2000)) zitieren eine Studie von Nielsen und Landauer, in der herausgefunden wurde, dass mehr als die Hälfte der Probleme einer Webseite mit drei Testpersonen gefunden werden. Mit nicht mehr als fünf Testpersonen erhält man die besten Ergebnisse.
Dabei gehen Nielsen und Landauer von folgender Formel aus:
N(1-(1-L)n)
N stellt die Gesamtsumme der Probleme dar, n ist die Anzahl der User und L ist die proportionale Anzahl der Probleme, die mit Hilfe einer Person gefunden werden. Der typische Wert für L ist 31%, der als Querschnittswert aus vielen durchgeführten Studien ermittelt worden ist. Mit L gleich 31% ergibt sich folgende Kurve:
Abbildung 40: Die Problemfindungskurve von Nielsen und Landauer.
Quelle: Nielsen, Landauer (2000)
Die erste wichtige Annahme ist, dass null User auch null Probleme finden. D.h. jeder Usability Test ist besser als gar keiner. Sobald man mit der ersten Testperson in Kontakt kommt und Daten sammelt, hat man schon ca. ein Drittel der möglichen Probleme ausfindig gemacht.
Die zweite Person wird die meisten Probleme der ersten Person erkennen. Durch die Unterschiedlichkeit der Personen läßt die zweite Testperson neue Erkenntnisse ermitteln, allerdings nicht so viele neue wie die erste.
Der dritte User wird wieder die meisten Probleme finden, die die zwei vor ihm getesteten fanden, er wird aber auch neue erkennen.
Umso mehr User man testet, umso weniger neue Erkenntnisse wird man finden können. Man wird die gleichen Probleme immer und immer wieder sehen und somit eine Bestätigung der schwerwiegendsten Fehler bekommen.
Nach fünf Testpersonen sollten 85 % der Probleme gefunden sein. 15 Personen decken schließlich alle möglichen Usability-Probleme auf. Trotzdem empfiehlt Nielsen nicht mit 15 Personen zu testen, sondern nur mit fünf und mit Hilfe dieser Ergebnisse den Redesign durchzuführen.
Insgesamt sieht Nielsen den Prozess des Redesigns und der Usability Tests als iterativen Prozess.
Nach einem Test wird das Redesign angeregt, danach wird mit der Neuentwicklung ein zweiter und ein dritter Test mit jeweils 5 Usern durchgeführt. Somit können neu auftauchende sowie die letzten 15 % der nicht gefundenen Probleme erkannt werden.
Ausnahmen von dieser 5-Testpersonen-Regel sollten nur gemacht werden, wenn die Benutzergruppe sehr heterogen ist. So sollte bspw. bei einem Spielzeugshop sowohl mit Kindern als auch mit den Eltern Tests durchgeführt werden. Allerdings sind die Beobachtungen bei zwei solch unterschiedlichen Gruppen sehr ähnlich.
Die Gründe liegen hier in der fundamentalen Art und Weise wie Menschen mit dem Web interagieren.
Nachdem das Problem der “richtigen” Testpersonen angesprochen wurde, soll nun die genaue Planung bzw. der Ablauf von Usability Tests erläutert werden.
Abgelegt unter Diplomarbeit, Kap7 Testing
Naturgemäß unterscheiden sich verschiedene Untersuchungen hinsichtlich Zweck, Dauer, finanziellem Aufwand, Methode etc. Der Ablauf ist daher von Test zu Test verschieden, allerdings lassen sich Usability Tests grundsätzlich in drei Phasen einteilen:
1. Die Planungsphase legt die Rahmenbedingungen des Tests fest.
2. Die Durchführungsphase besteht aus der eigentlichen Durchführung des Tests.
3. Die Auswertungsphase besteht aus dem Schreiben eines Ergebnisreports.
Nun sollen diese drei Phasen näher beschrieben werden, da im Kapitel 8 ein Usability Test durchgeführt werden soll, der sich an diesem Phasenplan orientiert.
Abgelegt unter Diplomarbeit, Kap7 Testing
Zu Beginn der Planungsphase sollte sich auf ein Testplan geeinigt werden. Ein solcher Testplan muss immer ohne fachliche Vorkenntnisse nachvollziehbar sein. Vor allem für Dritte, die nicht bei der Durchführung involviert waren. Dies macht die Resultate transparent, nachvollziehbar und validierbar.
Der Amerikaner Mark Pearrow teilt seinen comprehensive Testing Plan wiederum in zwölf Schritte ein, die im Folgenden beschrieben werden sollen.
Schritt 1: Einleitung (purpose)
In der Einleitung soll der Grund und das Ziel der Website niedergeschrieben werden. Weitere wichtige Fragen sind: Warum ist die Seite online? Wie sieht die Vision der Website langfristig aus? Warum soll diese Seite getestet werden?
Diese Informationen sind extrem wichtig, da sonst keine Aussage über die Messung der Effektivität gemacht werden kann.
Dieser Abschnitt steuert die restlichen Kapitel des Plans. Gute Vorarbeit ist hier nötig, um nicht in einen willkürlichen Testablauf zu verfallen.
Schritt 2: Problem-Punkte (problem statements)
Im zweiten Schritt wird das eigentlich zu testende Problem definiert und in einem kurzen prägnanten Abschnitt niedergeschrieben. Der Inhalt von Schritt 1 ist sehr abstrakt und auf einer allgemeinen Basis angelegt. Nun sollen dagegen konkrete Probleme angesprochen werden, um den Zweck der Webseite zu festigen.
Schritt 3: Zielgruppen Definition (User profiles)
Hier soll festgelegt werden, wer die Zielgruppe ist bzw. welche Benutzerschicht der Zielgruppe für diesen Test herangezogen und untersucht wird. Dabei ist besonders auf die Repräsentativität der Zielgruppe zu achten. Zielt die Website bspw. auf 18 bis 35 Jährige weibliche Benutzer ab, sollte auch diese Gruppe getestet werden.
In diesem Stadium erscheint eine korrekte Auswahl der Testpersonen als kritisch. Deshalb wird nach dem kompletten Test dieses Kapitel um die demoskopischen Daten der am Test Beteiligten erweitert. Somit wird dieser Abschnitt validiert oder automatisch relativiert.
Schritt 4: Die Methode (Methodology)
Die angewendete Methode ist ausschlaggebend für die Messergebnisse und Daten. In diesem Abschnitt soll beschrieben werden, was im Test durchgeführt wird, wobei auf eine genaue Aufgabenbeschreibung noch verzichtet wird. Vor allem nicht involvierte Personen soll beschrieben werden, auf welche Art und Weise getestet wird.
Im nachfolgenden Kapitel 7.4. soll auf die gängigsten Methoden eingegangen werden.
Schritt 5: Test Umgebung und Ausrüstung (Environment & equipment requirements)
Hier soll eine Darstellung der Testumgebung inklusive einer Auflistung sämtlicher benutzter Hilfsmittel erfolgen. Ebenso sollen besondere Umstände wie z.B. ein tageslichtarmer Raum und störende Geräusche aufgezeigt werden.
Schritt 6: Das Team (Testing crew)
Die ausführenden Beteiligten des Testteams werden mit ihren Rollen aufgeführt. Dies zeigt den Umfang des Testes und die benötigten Ressourcen. Rollen können z.B. sein : Moderator, Videofilmer, Zeitnehmer.
Schritt 7: Definition der Messung (Evaluation Measures)
Hier soll festgehalten werden, nach welchen Kriterien gemessen werden soll. Denkbar sind eine Zeitmessung, die Anzahl der Klicks, ein Verfolgen der Links oder eine allgemeine Aussage, ob die Aufgabe gelöst wurde oder nicht.
Schritt 8: Aufgabenliste (Task List)
In diesem Abschnitt werden die gestellten Aufgaben im Klartext, also so, wie sie den Testpersonen vorgetragen werden, erstellt. Es wird festgehalten warum gerade diese Aufgaben gestellt werden. Ebenso werden die Bedingungen zum Erfolg der Aufgabe definiert.
Auf die Erstellung geeigneter Aufgaben soll nun näher eingegangen werden, da sie sozusagen das Herzstück eines Testes darstellen.
Usability Testing ist ein Auswahlprozess. Dies bedeutet, dass nicht alle möglichen Aufgaben, die ein User auf der Seite vollziehen kann, getestet werden können.
Aufgaben können deshalb aus verschiedenen Gründen ausgewählt werden. Dumas unterscheidet hier drei wichtige Arten von Aufgaben. Erstens können Aufgaben gewählt werden, die mögliche Usability Probleme aufdecken sollen. Je mehr Probleme gefunden werden, desto erfolgreicher ist der Test verlaufen. Daraus entsteht das Hauptziel des Usability Testing: Eine Prozedur zu kreieren, die die schwerwiegendsten Probleme aufdeckt.
Zweitens können Aufgaben gestellt werden, die vermutete Probleme herausstellen können. Designer und Entwickler haben meist ein Gespür oder eine Vorahnung, an welchen Stellen mögliche Probleme auftauchen können.
Die dritte Art von Aufgaben sind solche, die die User tatsächlich auf der Seite erledigen würden, wenn es sich nicht um eine Testsituation handelt. Generell sollten alle Aufgaben so konzipiert sein.
Auch Jakob Nielsen sieht als grundlegende Regel an, dass die Testaufgaben möglichst nahe an dem tatsächlichen Verhalten der User konzipiert werden. Andererseits sollten sich die gewählten Aufgaben aber auch den Zielen der Seite anpassen.
Nachdem die Aufgabenstellungen ausgearbeitet wurden, stellt sich die Frage der Reihenfolge. Dabei sind zwei Dinge zu beachten. Die Aufgaben sollten in der Reihenfolge ablaufen, in der die User sie tatsächlich abwickeln würden. Zum Beispiel würden die Benutzer eines Webshops zuerst nach dem gewünschten Artikel suchen, bevor sie eine Bestellung abschicken.
Letztendlich bleibt die Frage wie die Aufgaben den Testpersonen präsentiert werden sollen. Eine etablierte Form ist die Erstellung von Task Szenarien. Dies sind Situationen, in denen die Aufgaben eingebettet sind und zu einer kurzen Geschichte zusammenschmelzen. Somit kann ein Teil der Künstlichkeit der gestellten Aufgaben verringert werden.
Dabei ist ein gutes Szenario kurz gehalten, in der Sprache der Zielgruppe verfasst und eindeutig formuliert, so dass keine Unklarheiten aufkommen. Außerdem müssen genug Informationen gegeben werden, um die Aufgabe lösen zu können. Es soll allerdings nicht gesagt werden, wie die Aufgaben zu vollenden sind, sondern die Person soll angehalten sein, sich so zu verhalten, als wäre sie in ihrer natürlichen Umgebung. Somit sollte die Aufgaben nicht zu langweilig werden.
Dies waren die ersten acht Schritte nach Pearrows comprehensive Testing Plan. Die letzten vier Schritte werden in 7.3.3. Auswertungsphase angesprochen, da diese Arbeiten der Nachbereitung zuzusprechen sind.
Wie eben gezeigt wurde, ist eine gründliche Vorbereitung äußerst wichtig. Auf was bei der Durchführung der Tests zu achten ist, soll im nächsten Abschnitt gezeigt werden.
Abgelegt unter Diplomarbeit, Kap7 Testing
Nachdem der Test ausführlich vorbereitet worden ist, geht es an die Umsetzung des Testplans. Vor dem Beginn der Tests und dem Empfang der Teilnehmer wird der Testaufbau kontrolliert. Dazu gehört die Kontrolle sämtlicher Ausrüstung. Um einen reibungslosen Verlauf zu garantieren, empfiehlt Dumas die Verwendung von Checklisten.
Bei der Einführung wird der Testperson präzise der Testablauf erklärt, die Dauer, sowie der Grund dieses Tests erläutert. Unerfahrenen Moderatoren wird empfohlen ein Skript vorzubereiten, welches den Testpersonen vorzulesen oder zu erläutern ist. Dieses Skript sollte die wesentlichsten Verhaltensregeln und Anforderungen für die Probanten erklären.
So ist es wichtig, den Testpersonen mitzuteilen, dass nicht sie getestet werden, sondern die Webseite. Folgende Statements sind ebenfalls erwähnenswert:
Wie die Testperson sollte auch der Moderator sich seiner Rolle bewusst sein. Der Moderator interagiert mit den Probanten und sollte deshalb besondere Qualitäten vorweisen. Er sollte empathisch und aufmerksam sein und beruhigend wirken, da die Testperson sich in einer Stresssituation befindet.
Außerdem sollte der Moderator gut beobachten können. Dazu zählt ein Auge auf die Körpersprache und den Gesichtsausdruck der Testperson zu haben. Somit ist es möglich, Gefühle wie Verwirrung, Frustration, Befriedigung oder Überraschung zu erkennen. Oftmals ist nonverbale Kommunikation enthüllender als gesprochene Reaktionen.
Somit erklärt es sich, dass der Moderator sich während des Tests zurückhalten sollte und keine persönlichen Meinungen oder Reaktionen von sich gibt.
Abhängig von der Art der Untersuchungsmethode ist auch die Interaktion mit der Testperson eingeschränkt. Bei der Thinking Aloud Methode bspw. sollte auf Fragen mit einer Gegenfrage reagiert werden. “Was denken Sie denn, versteckt sich hinter diesem Button?” wäre eine typische Gegenfrage. Eine Ausnahme sollte gemacht werden, wenn die Testperson zunehmend unzufrieden wird und an einer Stelle feststeckt. Denn die Person sollte sich nach dem Test nicht schlechter fühlen als vor diesem.
Nach dem Test sollte noch einige Zeit für die Abschlussbesprechung (Debriefing) eingeplant werden. Während dieses Gesprächs sollte die Testperson um weitere Anregungen gebeten werden, für die während des Tests keine Zeit gewesen ist. Ebenfalls kann der Moderator Fragen zu bestimmten Ereignissen während des Tests stellen. Somit können auch komplexe Vorgänge rekonstruiert werden.
Andererseits sollte den Testpersonen Zeit für eigene Fragen eingeräumt werden. Nicht wenige wird es interessieren wie die anderen Testpersonen mit den Aufgaben zurecht gekommen sind.
Diese Abschlußbesprechung stellt somit das Ende dieser Phase dar.
Abgelegt unter Diplomarbeit, Kap7 Testing
Die ersten acht Schritte nach Pearrows comprehensive Testing Plan gehörten zur Vorbereitungsphase. Nun soll dieser Testplan vervollständigt werden.
Schritt 9: Ergebnisse (Results)
Dieser Abschnitt entsteht nach Abschluß der Tests. Alle Ergebnisse werden anschaulich in Tabellenform präsentiert. Allerdings findet hier noch keine Einschätzung, Lösung oder gar Beratung statt.
Schritt 10: Diskussion (Discussion)
Sämtliche Ergebnisse, die nicht in Schritt 9 erwähnt wurden, sollen hier erläutert werden. Meist geschieht dies in Form von Zitaten.
Schritt 11: Empfohlene Änderungen (Recommendations for change)
In einer neutralen Liste werden die Änderungen aufgezählt, die Aufgrund der Resultate als notwendig erscheinen. Dabei findet keine Problembewältigung statt, sondern nur ein Hinweis auf kritische Stellen.
Die letztendliche Problemlösung ist eine neue Aufgabe, die nicht im Usability Test gelöst wird.
Schritt 12: Anhänge (Paperwork and attachments)
Alle verwendeten Checklisten, Hinweise, Aufgabenstellungen und Fragebögen werden dem Bericht hinzugefügt. Dies soll zu einem problemlosen Nachvollziehen des Tests helfen.
Jakob Nielsen empfiehlt nach der Durchführung des Tests die Erarbeitung eines Reports in Textform. Dieser soll für den Auftraggeber angefertigt werden. In diesem Bericht sollen sowohl die Usability-Probleme, die während des Tests durch die Testpersonen gefunden wurden, aufgeschrieben werden als auch diejenigen Probleme, die bei der Vorbereitung auf den Test durch den Moderator gefunden wurden.
Beide Arten von Daten sind wichtig, sollten aber getrennt voneinander behandelt werden.
Wie ein solcher Endreport aussehen soll beschreiben bspw. Goto und Cotler (2002) in “Webdesign that works”. Demnach sollte man folgendem Aufbau folgen:
• Executive Summary: enthält eine kurze Zusammenfassung der wichtigsten Erkenntnisse, Empfehlungen und Anmerkungen sowie eine Übersicht was funktioniert und was nicht.
• Methodology: Eine Beschreibung der angewendeten Methode.
• Results: Eine klare umfassende Aufzählung aller Test- und Fragebogenergebnisse.
• Findings and recommendations: Empfehlungen von Verbesserungen mit Begründung.
• Appendices: Anhänge wie Rohdaten, Checklisten und Fragebögen.
Dies sollte einen typischen Ablauf eines Usability Tests darstellen. Hierbei wurde nur kurz auf die angewendete Methode eingegangen. Nun sollen die wichtigsten Methoden der Usability Evaluation kurz erläutert werden.
Abgelegt unter Diplomarbeit, Kap7 Testing
Mittlerweile gibt es eine Vielzahl von Methoden, mit denen die Usability von Softwareprodukten bzw. Webseiten bewertet werden kann. Stanton und Young befragten professionelle Ergonomen und identifizierten in ihrer Studie über 60 verschiedene Methoden. Bei dieser Fülle von Verfahren stellen sich dem Anwender, der eine Usability Studie durchführen möchte, einige grundlegende Fragen. Welche Methode ist für meine Zwecke angebracht? Worin bestehen die Vor- und Nachteile der einzelnen Methoden?
In den vorangegangenen Ausführungen innerhalb dieses Kapitels war stets die Rede von Usability Testing. Darunter war das Testen eines Systems mit Hilfe von Testpersonen zu verstehen. Der Vollständigkeit wegen sollen nun die Usability-Evaluationsmethoden in zwei Gruppen eingeteilt werden. Gray und Salzmann unterscheiden analytische und empirische Methoden.
Bei den analytischen Methoden, im folgenden Usability Inspection genannt, inspizieren Evaluatoren Systeme daraufhin, ob sie mit vorgegebenen Richtlinien und Prinzipien übereinstimmen. Dazu gehören bspw. die heuristische Evaluation und der Cognitive Walkthrough.
Empirische Methoden dagegen bewerten die Systeme anhand von Daten, die durch Tests mit Usern ermittelt worden sind. Darunter fallen verschiedene Formen des User Testing, etwa Fragebogenverfahren, Interviews oder aufgabenbezogenes lautes Denken.
Nun sollen die wichtigsten Usability-Evaluationsmethoden erläutert werden.
Abgelegt unter Diplomarbeit, Kap7 Testing
Der finanzielle Aufwand ist immer noch der wichtigste Grund weshalb Unternehmen keine Usertests mit ihren Produkten durchführen. Als Alternative bzw. Ergänzung zu klassischen Usability Tests wurden die Methoden der Usability Inspection entwickelt.
“Usability inspection is the generic name for a set of methods based on having evaluators inspect or examine usability-related aspects of a user interface.”
Jakob Nielsen
Gutachter haben die Aufgabe, Usability-relevante Aspekte eines Produktes zu überprüfen. Es sollen Charakteristiken eines Produktes, die die Effizienz oder Effektivität der Interaktion Produkt-Nutzer bzw. die Zufriedenheit des Nutzers beeinträchtigen könnten. Also gerade die Aspekte, die die Usability ausmachen.
Diese angesprochenen Gutachter können dabei versierte Endanwender, Softwareentwickler oder Usability Ingenieure sein. Die Evaluation des Interfaces baut somit auf die Fähigkeiten des Inspectors, mögliche Probleme der Endanwender vorherzusagen.
Nach dieser kurzen Einführung sollen die beiden bekanntesten Vertreter dieser Technik vorgestellt werden: Heuristische Evaluation und Cognitive Walkthrough.
Abgelegt unter Diplomarbeit, Kap7 Testing