🇺🇸 Click here to change to english translation 🇬🇧

Hopload Blog.

Dreieckstests - Eine Perspektive

Cover Image for Dreieckstests - Eine Perspektive
Bernd Strehl
Bernd Strehl

Blinde Dreieckstest wurden in der Hobbybrauerwelt wahrscheinlich von Brülosophy popularisiert. Nachdem ich einen eigenen durchgeführt und ausgewertet habe, sowie selbst daran teilgenommen habe, möchte ich meine Gedanken dazu in einem kleinen Aufsatz wiedergeben und auch die Grenzen und Bedeutung solcher Tests aufzeigen.

Was sind Dreieckstests?

Im wesentlichen sind Dreiecks Tests, im englischen "Triangle Tests", ein statistisches Hilfsmittel, um statistisch valide Unterschiede zwischen zwei Proben, in diesem Fall Bier, messen zu können. Dazu bekommt der Verkoster drei Proben, zwei davon sind gleich, "A", und die dritte ist unterschiedlich, "B". Konkrekt auf Bier übersetzt heißt das in einem Experiment bei dem die Variable z.B. die Mälzerei ist, dass der Verkoster zwei Biere, gebraut mit Weyermann Pilsner Malz, und ein Bier, gebraut mit Ireks Pilsner Malz, bekommt. Der Probandt muss nun (sensorisch) die Probe auswählen, die anders als die beiden anderen ist. Also kurz: Kann man einen Unterschied schmecken?

Die Statistik

Wann ist ein Dreieckstest statistich signifikant? Also, wann kann man generell sagen, dass ein sensorischer Unterschied zwischen den beiden Proben/Bieren vorliegt? Dazu müssen wir erst einmal den p-Wert festlegen. Dieser besagt wie hoch die Wahrscheinlichkeit ist, dass das Ergebnis zufällig zustande gekommen ist, und nicht durch den tatsächlich (nicht) vorhandenen Unterschied zwischen den beiden Bieren. Dieser liegt standardmäßig bei 5%. Das heißt zu 5% kann es vorkommen, dass das Ergebnis als "statistisch signifikant" gilt, aber dieses Ergebnis nur dadurch zustande gekommen ist, weil die Tester zufällig häufig genug richtig getippt haben. (Ganz genau genommen gibt der Wert die Wahrscheinlichkeit an, dass wenn man unter der gegebenen Verteilung der Ergebnisse das Experiment wiederholt, während die Nullhypothese wahr ist, ein Ergebnis wie das vorliegende eintrifft.)
Wenn wir den Zufallswert kleiner machen wollen, müssen mehr Tester das richtige Bier erkennen, wenn wir den Wert erhöhen, brauchen wir weniger Tester, die das Bier korrekt erkennen.
Bei gegebenem p-Wert kann man die Anzahl von Teilnehmern, die richtig liegen müssen, mit Hilfe der Binomial-Verteilung ermitteln. Bei 25 Teilnehmern, müssen 13 das richtige Bier erkennen. Bei 50 Teilnehmern sind es 23.

Kommen wir nun dazu, was das in der Praxis bedeutet und was wir aus Dreieckstests lernen können (oder eben nicht).

Erwägung 1: Die Anzahl der Teilnehmer

Bei kleinen Gruppen von Teilnehmern brauchen wir bei gleichbleibendem p-Wert (5%) vergleichsweise einen hohen Anteil von korrekt identifizierten Bieren, um statistische Signifikanz zu erreichen. Das ist ein statistisches Artefakt welches sich aus der Vermeidung des Zufalls ergibt.

Anz. Teilnehmer   mind. richtig     Anteil
10                7                 70%
25                13                52%
50                23                46%
100               42                42%
500               185               37%
5000              1723              34%
n->unendlich      n/3               33,34%

Wenn wir uns den Anteil der Teilnehmer, die richtig liegen müssen, bei steigender Gesamtzahl der Teilnehmer ansehen, sieht man relativ schnell, dass der Wert am Anfang extrem hoch ist und sich dann 1/3 + 1 annähert. Das ist auch logisch, da wir genau ein Drittel zufällig "richtig" ausgewählte Biere erwarten, wenn alle drei Biere gleich sind.
Das bedeutet wiederum für relativ kleine Stichproben (z.B. 25 Teilnehmer), dass überdurchschnittlich viele zusätzliche richtige Ergebnisse vorliegen müssen (im Vergleich zu 1/3). Selbst bei 50 Teilnehmern liegt der Unterschied bei 6 Teilnehmern, die zusätzlich richtig liegen müssen.

Erwägung 2: Die Testgruppe

In den meisten "Hobbybrauer-Tests" wird eine semi-zufällige Gruppe getestet. Irgendwelche Biertrinker, die man in der lokalen Craft Bier Bar finden konnte und andere Hobbybrauer. Angenommen 12/25 Leuten waren in dem Test erfolgreich, was zur Folge hat, dass der Test nicht statistisch signifikant war. Nehmen wir nun ein paar (z.B. 5) der Leute, die richtig lagen und sich sehr sicher waren, und lassen diese den Test jeweils 5 mal machen und würden damit 20/25 erreichen. Damit wäre der Test dann statistisch signifikant. Wenn das reproduzierbar in der Gruppe ist, ist es valide. \ Das Argument von "sensorisch schwachen und starken Personen" wurde bei Brülosophy schon einige Male angesprochen. Ich halte es für sehr valide, denn ich hatte einige Personen, die sich sehr sicher waren und richtig lagen und die meisten die falsch lagen, waren sich unsicher.
Es kann also im Einzelfall auf die ausgewählte Gruppe ankommen und auf die Testverhältnisse (siehe unten).

Erwägung 3: Nicht signifikant bedeuet nicht nicht unterschiedlich

Der größte Fehlschluss der aus einem nicht signifkanten Dreieckstest gezogen wird, ist, dass die Biere dann nicht (sensorisch) unterschiedlich sind. Der Test sagt lediglich aus, dass in einer Gruppe von mehr oder weniger zufälligen Personen kein statistisch signifikanter Anteil in der Lage war einen Unterschied in einem Blindtest zu finden. Das bedeutet nicht, dass nicht eine andere Person tatsächlich in der Lage wäre wiederholbar einen Unterschied zu schmecken. Oder, dass ein Tester die Biere nicht vielleicht doch auseinander halten könnte wenn er diese nicht in einer Test-Atmosphäre aus 3 Plastikbechern trinken würde.
Bei meinem Test zum Wiener Lager is mir das extrem aufgefallen. Es war wirklich schwer den Dreieckstest aus kleinen Gläsern mit verbundenen Augen wiederholt zu bestehen, es war aber trotzdem ein deutlicher Unterschied zwischen den Bieren schmeckbar, wenn ich die Biere nebeneinander, aus großen Gläsern, getrunken habe.

Erwägung 4: Die Testverhältnisse

Die meisten "Hobbybrauer-Tests" werden möglicherweise nicht in optimalen Bedingungen durchgeführt, was es deutlich schwerer machen kann, den Unterschied zu schmecken. Dazu zählen:

  • Die Tester haben schon einige Biere vorher getrunken, vielleicht auch ein kräftiges IPA.
  • Es stehen kein Wasser und Snacks zur Neutralisierung zur Verfügung.
  • Das Bier wird in kleineren Gläsern ausgeschenkt (oder undurchsichtigen Plastikbechern), die eine andere Sensorik haben.
  • Das Ausschenken in kleinere Gläser verändert den Geruch und Geschmack des Biers. Das habe ich insbesondere beim Zapfen festgestellt.
  • Die Umgebung ist laut.

Erwägung 5: Die Summe von kleinen Änderungen

Inbesondere dann, wenn man "nicht statistisch signifikant" als "macht keinen Unterschied" versteht und so mehrere Variablen, die alleine statistisch nicht signifikant waren beim Brauen kombiniert, kann es gerade dann zu signifikanten Unterschieden kommen. Warme Gärtemperatur beim Lager war nicht statistisch signifikant, 30 Minuten statt 90 Minuten kochen war nicht statistisch signifikant, kompletter Trub oder wenig Trub in der Gärung war nicht statistisch signifikant, Maischetemperatur war nicht statistisch signifikant, etc. Wenn man dies nun alles kombiniert, wird das Bier wahrscheinlich eher unterschiedlich, als wenn man nur eine Variable ändert.

Fazit

Ein Dreieckstest ist sehr viel schwerer als man es sich vorstellt, wenn man noch nie einen durchgeführt hat. Die Ergebnisse verleiten sehr schnell dazu zu sagen: "Es wurde gezeigt, dass es keinen Unterschied gab, also nehme ich jetzt diese und jene Abkürzung beim Brauen." Meiner Meinung nach summieren sich solche Abkürzungen schnell. Die meisten Dinge machen einen Unterschied. Selbst wenn man das Bier ein zweites mal exakt gleich brauen will, ist das schon nicht unbedingt einfach. Gerade durch meine Lieblingsbiere von fränkischen Brauereien habe ich gelernt, dass es oft auf jedes Detail ankommt, um ein perfektes Bier zu brauen, und nicht nur irgendeins.
Das wichtigste ist es, diese Variablen selber zu testen, und für sich selbst zu entscheiden, ob die Ergebnise einem zusagen.