机器学习(ML)有可能通过诳骗迢遥数据进行瞻望知悉来改换医疗决策。相关词,当这些模子在不可充分代表总共东说念主口群体的数据集上进行查考时泷川雅美qvod,就会出现一个严重挑战。瞻望疾病患者支柱商酌的模子不错在主要包含男性患者的数据集上进行查考。这可能会导致对女性患者的瞻望不准确。这种偏见可能会导致无益的淡薄,相当是对代表性不及的群体。
一种处置决策是退换或均衡查考数据集,以确保总共子组皆得到对等示意。相关词,这种数据均衡要领增多了复杂性,也可能裁减模子的举座性能。此外,这种要领可能需要打听查考组属目,最终可能会删除数据集的大部分。
麻省理工学院的商酌东说念主员接收了不同的要领。他们开辟了一种新技艺,不错识别和删除查考数据逼近对模子在代表性不及的群体中进展欠安影响最大的特定点。
这种技艺莫得假定每个数据点对模子的性能皆有同等的孝顺,而是意识到某些点对模子有偏见的瞻望产生了不成比例的影响。
商酌东说念主员的数据模子去偏(D3M)率先使用了一种称为最差组畸形的看法,该看法揣摸模子在某些亚群上的进展存多差。然后,该模子通过使用他们称之为数据建模的框架来普及性能,该框架将瞻望雷同为列车数据的浅近函数。这使他们草率量化单个数据点如何影响最差的团队绩效。
黄色小电影使用这种要领,商酌东说念主员不错识别出最有问题的数据点。相关词,这种模子并莫得删除大部分数据,而是选拔性地只删除最无益的数据。
在代表性不及的数据缺失或未符号的情况下,D3M的要领仍然不错通过分析数据本人来发现荫藏的偏见,使其成为普及公说念性的有劲器具,即使数据有限或未符号。
麻省理工学院电气工程与商酌机科学(EECS)商酌生、在arXiv上发表的一篇论文的共同主要作家Kimia Hamidieh说:“好多其他试图处置这个问题的算法皆假定每个数据点皆和其他数据点通常蹙迫。在这篇论文中,咱们解说了这一假定是不正确的。咱们的数据逼近有一些特定的点导致了这种偏见,咱们不错找到这些数据点,删除它们,并获取更好的性能。”
Hamidieh与来自麻省理工学院的Saachi Jain、Kristian Georgiev、Andrew Ilyas以及资深作家Marzyeh Ghassemi和Aleksander Madrt共同撰写了这篇论文。这项商酌将在神经信息处理系统会议上发表。
商酌东说念主员的新技艺开辟在他们之前的职责基础上,他们开辟了一种名为TRAK的要领,该要领不错为特定的模子输出笃定最有影响力的查考示例。
麻省理工学院的团队宣称,D3M要领普及了最差的组准确率,同期比传统的数据均衡要领减少了约20000个查考样本。
Hamidieh说:“这是任何东说念主在查考机器学习模子时皆不错使用的器具。他们不错检察这些数据点,望望它们是否与他们试图磨真金不怕火模子的智商相一致。”
商酌东说念主员商酌考据这种要领,并通过翌日的东说念主体商酌进一步发展它。他们的场地之一是使该要领易于使用,便于医疗保健专科东说念主员使用,从而不错在执行环境中部署。
凭据该论文的合著者Ilyas的说法,“当你有器具不错批判性地检察数据并找出哪些数据点会导致偏见或其他不良活动时,它就为你构建更公说念、更可靠的模子迈出了第一步。”
这项商酌的成果可能有助于处置东说念主工智能和机器学习模子的一个永久问题:它们的有用性取决于它们所查考的数据。要是不错通过可膨胀的算法识别和删除裁减东说念主工智能模子举座性能的数据点,相当是关于大型数据集泷川雅美qvod,这可能会改换游戏规则,普及多样应用武艺的模子准确性和可靠性。