Survey Equivalence: A Procedure for Measuring Classifier Accuracy Against Human Labels
- 1. University of Michigan–Ann Arbor
- 2. Peking University
- 3. University of Notre Dame
Description
In many classification tasks, the ground truth is either noisy or subjective. Examples include: which of two alternative paper titles is better? is this comment toxic? what is the political leaning of this news article? We refer to such tasks as survey settings because the ground truth is defined through a survey of one or more human raters. In survey settings, conventional measurements of classifier accuracy such as precision, recall, and cross-entropy confound the quality of the classifier with the level of agreement among human raters. Thus, they have no meaningful interpretation on their own. We describe a procedure that, given a dataset with predictions from a classifier and K ratings per item, rescales any accuracy measure into one that has an intuitive interpretation. The key insight is to score the classifier not against the best proxy for the ground truth, such as a majority vote of the raters, but against a single human rater at a time. That score can be compared to other predictors' scores, in particular predictors created by combining labels from several other human raters. The survey equivalence of any classifier is the minimum number of raters needed to produce the same expected score as that found for the classifier.
Translated Descriptions
Translated Description (Arabic)
في العديد من مهام التصنيف، تكون الحقيقة الأساسية إما صاخبة أو ذاتية. تشمل الأمثلة: أي من عنوانين ورقيين بديلين أفضل ؟ هل هذا التعليق سام ؟ ما هو الميل السياسي لهذا المقال الإخباري ؟ نشير إلى هذه المهام باسم إعدادات الاستطلاع لأن الحقيقة الأساسية يتم تعريفها من خلال استطلاع رأي واحد أو أكثر من المقيّمين البشريين. في إعدادات المسح، تؤدي القياسات التقليدية لدقة المصنف مثل الدقة والاستدعاء والإنتروبيا المتقاطعة إلى الخلط بين جودة المصنف ومستوى الاتفاق بين المقيّمين البشريين. وبالتالي، ليس لديهم تفسير هادف بمفردهم. نحن نصف الإجراء الذي، بالنظر إلى مجموعة بيانات مع تنبؤات من المصنف وتصنيفات K لكل عنصر، يعيد قياس أي مقياس دقة إلى واحد له تفسير بديهي. الفكرة الرئيسية هي تسجيل المصنف ليس ضد أفضل وكيل للحقيقة على الأرض، مثل تصويت الأغلبية من المقيّمين، ولكن ضد مقيّم بشري واحد في كل مرة. يمكن مقارنة هذه النتيجة بدرجات المتنبئين الآخرين، ولا سيما المتنبئات التي تم إنشاؤها من خلال الجمع بين التصنيفات من العديد من المقيّمين البشريين الآخرين. معادلة المسح لأي مصنف هي الحد الأدنى لعدد المقيّمين اللازمين لإنتاج نفس الدرجة المتوقعة التي تم العثور عليها للمصنف.Translated Description (French)
Dans de nombreuses tâches de classification, la vérité fondamentale est soit bruyante, soit subjective. Les exemples incluent : lequel des deux titres de papier alternatifs est le meilleur ? ce commentaire est-il toxique ? quelle est l'orientation politique de cet article de presse ? Nous faisons référence à des tâches telles que les paramètres d'enquête, car la vérité sur le terrain est définie par une enquête auprès d'un ou de plusieurs évaluateurs humains. Dans les contextes d'enquête, les mesures conventionnelles de la précision du classificateur telles que la précision, le rappel et l'entropie croisée confondent la qualité du classificateur avec le niveau de concordance entre les évaluateurs humains. Ainsi, ils n'ont pas d'interprétation significative par eux-mêmes. Nous décrivons une procédure qui, compte tenu d'un ensemble de données avec des prédictions d'un classificateur et des cotes K par élément, redéfinit toute mesure de précision en une mesure ayant une interprétation intuitive. L'idée clé est de noter le classificateur non pas en fonction du meilleur indicateur de la vérité de base, tel qu'un vote majoritaire des évaluateurs, mais en fonction d'un seul évaluateur humain à la fois. Ce score peut être comparé aux scores d'autres prédicteurs, en particulier les prédicteurs créés en combinant les étiquettes de plusieurs autres évaluateurs humains. L'équivalence d'enquête de tout classificateur est le nombre minimum d'évaluateurs nécessaires pour produire le même score attendu que celui trouvé pour le classificateur.Translated Description (Spanish)
En muchas tareas de clasificación, la verdad fundamental es ruidosa o subjetiva. Los ejemplos incluyen: ¿cuál de los dos títulos de papel alternativos es mejor? ¿es tóxico este comentario? ¿cuál es la inclinación política de este artículo de noticias? Nos referimos a tales tareas como ajustes de encuesta porque la verdad fundamental se define a través de una encuesta de uno o más evaluadores humanos. En la configuración de la encuesta, las mediciones convencionales de la precisión del clasificador, como la precisión, la recuperación y la entropía cruzada, confunden la calidad del clasificador con el nivel de acuerdo entre los evaluadores humanos. Por lo tanto, no tienen una interpretación significativa por sí mismos. Describimos un procedimiento que, dado un conjunto de datos con predicciones de un clasificador y calificaciones K por elemento, reescala cualquier medida de precisión en una que tenga una interpretación intuitiva. La idea clave es calificar al clasificador no contra el mejor representante de la verdad fundamental, como el voto mayoritario de los evaluadores, sino contra un solo evaluador humano a la vez. Esa puntuación se puede comparar con las puntuaciones de otros predictores, en particular los predictores creados mediante la combinación de etiquetas de varios otros evaluadores humanos. La equivalencia de la encuesta de cualquier clasificador es el número mínimo de evaluadores necesarios para producir la misma puntuación esperada que la encontrada para el clasificador.Additional details
Additional titles
- Translated title (Arabic)
- معادلة المسح: إجراء لقياس دقة المصنف مقابل الملصقات البشرية
- Translated title (French)
- Équivalence de l'enquête : une procédure pour mesurer la précision du classificateur par rapport aux étiquettes humaines
- Translated title (Spanish)
- Equivalencia de la encuesta: un procedimiento para medir la precisión del clasificador frente a las etiquetas humanas
Identifiers
- Other
- https://openalex.org/W3166650478
- DOI
- 10.48550/arxiv.2106.01254
            
              References
            
          
        - https://openalex.org/W1995875735
- https://openalex.org/W1996468215
- https://openalex.org/W2054141820
- https://openalex.org/W2102348129
- https://openalex.org/W2217796615
- https://openalex.org/W2540646130
- https://openalex.org/W2588172982
- https://openalex.org/W2798706400
- https://openalex.org/W2963697299
- https://openalex.org/W2964215131
- https://openalex.org/W3001359517
- https://openalex.org/W3124505561
- https://openalex.org/W3163078977
- https://openalex.org/W621249151