Antwort auf die Frage

Historisch gesehen haben sich Produktteams ausschließlich auf Wachstumsmetriken und die Einführung neuer Funktionen konzentriert. Mit der Sättigung digitaler Produkte und der Ansammlung technischer Schulden wurde jedoch die Aufgabe der fundierten Entfernung von Funktionen (feature deprecation) von entscheidender Bedeutung. Das Problem liegt darin, dass Benutzer, die die zu entfernende Funktion aktiv genutzt haben, systematisch von der restlichen Zielgruppe hinsichtlich Engagement und Loyalität abweichen, was eine Verzerrung der Selbstselektion (selection bias) erzeugt. Die schrittweise Deaktivierung nach Kohorten verzerrt die Zeitreihen durch Saisonalität und natürliche Abwanderung.

Um den wahren ursächlichen Effekt zu isolieren, ist es notwendig, Difference-in-Differences (DiD) mit Kohortenanalyse oder CausalImpact basierend auf Bayesian Structural Time Series anzuwenden, wobei unberührte Kohorten als synthetische Kontrolle verwendet werden. Ein entscheidender Schritt ist der Aufbau eines Modells für propensity score matching (PSM) innerhalb jeder Kohorte: Für Benutzer, die die Funktion verloren haben (treatment), werden Paare aus Benutzern ausgewählt, die die Funktion nie verwendet haben (control), aber ein ähnliches Aktivitätsprofil, Tenure und Conversion-Geschichte besitzen. Bei Vorhandensein einer klaren Schwelle der Nutzungsintensität der Funktion (z. B. >5 Nutzungen pro Monat) ist Regression Discontinuity Design (RDD) effektiv, da es den Vergleich von Benutzern direkt auf beiden Seiten der Deaktivierungsschwelle ermöglicht.

Es ist wichtig, zusätzlich survivorship bias zu kontrollieren: Wenn die Funktion aufgrund niedriger Nutzung entfernt wird, sollte die Analyse nur aktive Benutzer zum Zeitpunkt der Entscheidungsfindung einbeziehen und diejenigen ausschließen, die bereits vor Beginn der Untersuchung abgewandert sind. Zur Bewertung des langfristigen Effekts wird staggered DiD mit dynamischen Effekten (event study) eingesetzt, um zu verfolgen, wie sich das dritte und siebte Tagesretention in Bezug auf den Zeitpunkt der Deaktivierung verändert, und die Parallel Trends Assumption durch Plausibilitätsprüfungen in vorhergehenden Perioden zu überprüfen.

Lebenssituation

In einem großen EdTech-Produkt wurde die Entscheidung getroffen, den veralteten Textchat mit Mentoren zugunsten von Videoberatungen zu entfernen, da weniger als 3% der Zielgruppe den Chat nutzten, seine Unterstützung jedoch 20% der Teamressourcen in Anspruch nahm. Der Release war schrittweise geplant: Zuerst die Deaktivierung für neue Benutzer, dann für Kohorten mit niedriger Aktivität und schließlich für Power-User. Das Unternehmen befürchtete, dass die Entfernung eine Welle der Negativität und die Abwanderung hochgeschätzter Benutzer auslösen würde, die den Chat historisch intensiv zur Klärung von Aufgaben genutzt hatten.

Die erste Option war die Durchführung einer einfachen Vergleichsanalyse der Retention vor und nach der Deaktivierung für jede Kohorte. Dieser Ansatz zeichnet sich durch schnelle Umsetzbarkeit und Anschaulichkeit für Stakeholder aus, leidet jedoch erheblich unter der Unfähigkeit, den Effekt der Entfernung von der natürlichen Abnutzung der Kohorte (cohort aging) und saisonalen Schwankungen der Aktivität der Studenten im Sommer, als der letzte Deaktivierungsschritt geplant war, zu trennen. Die zweite Option war ein klassischer A/B-Test mit einem Feature-Flag, das den Chat für 50% der Benutzer verbirgt, jedoch aufgrund technischer Komplikationen bei der Unterstützung zweier UI-Versionen und ethischer Überlegungen ausgeschlossen wurde: Es konnte nicht versprochen werden, den Chat für einige Benutzer zu unterstützen und anderen bei Bugs die Unterstützung zu verweigern.

Die dritte, ausgewählte Option war die Analyse mit der Methode Difference-in-Differences mit synthetischer Kontrolle. Für jede Kohorte, die den Zugang zum Chat verlor, fanden Analysten über Propensity Score Matching ein Paar aus Benutzern der vorhergehenden Kohorte, die den Chat niemals geöffnet hatten, jedoch ein identisches Muster beim Ansehen von Lektionen, die Geschichte der Hausaufgabeneinreichungen und die Geographie hatten. Dies ermöglichte den Vergleich der Retentionstrukturen der treatment-Gruppe (die den Chat verloren hat) und der control-Gruppe (die ihn nie genutzt hat) und isolierte den reinen Effekt des Verlustes der Funktion von allgemeinen Trends.

Das endgültige Ergebnis zeigte, dass bei Power-Usern (Top 10% nach Häufigkeit der Chatnutzung) die Entfernung tatsächlich die 30-tägige Retention um 8% verringerte, dies jedoch durch einen Anstieg der Conversion in Videoberatungen um 15% und eine Verbesserung der Leistungskennzahlen der Anwendung (die Sturzrate sank um 12% aufgrund der Entfernung von Legacy-Code) kompensiert wurde. Für das mittlere Segment war der Effekt statistisch insignifikant, was dem Unternehmen ermöglichte, die vollständige Deaktivierung der Funktion mit dem Fokus auf die Migration von Power-Usern in den neuen Kommunikationskanal durch personalisierte Angebote zu rechtfertigen.

Was Kandidaten oft übersehen

Wie unterscheidet man den Effekt der Entfernung einer Funktion vom „Erleichterung“-Effekt des Interfaces (simplification effect), wenn die Reduktion der kognitiven Belastung den negativen Effekt des Funktionsverlusts maskieren kann?

Die Antwort liegt in der Dekomposition der Metriken: Es ist notwendig, nicht nur die Retention zu verfolgen, sondern auch task completion time, error rate und feature discovery rate für die verbleibende Funktionalität. Wenn nach der Entfernung des Chats die Metrik time-to-homework-submission sinkt (Benutzer reichen Arbeiten schneller ein) bei stabiler Retention, deutet dies auf einen positiven Simplification-Effekt hin, der den Verlust des Kommunikationskanals ausgleicht. Für die quantitative Bewertung wird eine Mediationsanalyse durchgeführt: Es wird der direkte kausale Zusammenhang „Entfernung → Retention“ und der indirekte über „Entfernung → Vereinfachung des UI → Retention“ bewertet, wodurch der reine negative Effekt von der strukturellen Verbesserung der UX getrennt werden kann.

Wie berechnet man korrekt die statistische Power für einen Test auf „Nichtunterlegenheit“ (non-inferiority testing) bei der Entfernung einer Funktion, wenn das Ziel darin besteht, nachzuweisen, dass der Schaden nicht über einen zulässigen Schwellenwert hinausgeht?

Kandidaten wenden oft die klassische Powerberechnung für Superiority-Tests an, was zu unbegründeten Schlussfolgerungen über die „Sicherheit“ der Entfernung führt. Bei Non-Inferiority-Tests wird die Nullhypothese als „Effekt schlechter als der Schwellenwert“ formuliert, und die Power hängt von der Margin of Indifference (δ) ab, die vom Unternehmen im Voraus festgelegt werden muss (z. B. -2% bei der Retention). Die Formel zur Berechnung der Power erfordert die Angabe des erwarteten wahren Effekts (in der Regel 0 oder gering positiv) und der Varianz, wobei eine Annäherung an δ exponentiell größere Stichproben erfordert. Es ist notwendig, spezialisierte Power-Rechner für paired proportions mit Korrektur für Clusterbildung nach Kohorten zu verwenden, da die Benutzer innerhalb einer Kohorte nach dem Zeitpunkt der Deaktivierung korrelieren.

Wie berücksichtigt man Netzeffekte (spillover effects), wenn die Entfernung einer Funktion bei einem Benutzer das Verhalten anderer durch den Verlust von Kommunikationsverbindungen beeinflusst?

In sozialen Produkten oder B2B SaaS beeinflusst die Entfernung einer Funktion bei einem Akteur (z. B. die Deaktivierung einer alten API beim Administrator) das Erlebnis der Endbenutzer (Mitarbeiter) und erzeugt Interferenzen zwischen Treatment und Control. Um diesen Effekt zu isolieren, werden clusterbasierte Randomisierung oder Analysen mittels exposure mapping angewendet: Statt eines individuellen Treatment-Status wird der Anteil der Benutzer im sozialen Graphen (Team, Familie), die die Funktion verloren haben, verwendet. Wenn die Korrelation zwischen dem individuellen Fakt der Deaktivierung und dem Anteil der Abgewanderten im Cluster hoch ist (>0.8), liefert die klassische OLS verzerrte Schätzungen. Die Lösung besteht darin, IV-Regression (instrumental variables) zu verwenden, wobei das Instrument der Fakt der Zugehörigkeit zur Deaktivierungskohorte ist, während der tatsächliche Verlust der Funktion die endogene Variable ist oder Methoden des kausalen Inferenz zur Interferenz anwendet, wie z. B. Fisher's randomization test mit Korrektur für die Clustergröße.