Investigação dos Efeitos do Desbalanceamento de Classes na Aprendizagem da Regulação de Planos de Saúde
Aprendizagem de máquina, mineração de dados, balanceamento de classes, planos de saúde, regulação de planos de saúde.
A operação de planos privados de assistência à saúde no Brasil representa uma importante via de prestação de serviços à população. O Brasil é o maior mercado de saúde privada na América do Sul, sendo que em 2012 os custos com saúde representaram cerca de 8% do PIB. Nesse mercado, muitas empresas operadoras de planos de saúde (OPS) encontram-se em situação de desequilíbrio financeiro, caracterizada pelo fato de as despesas somadas representarem um valor maior que as receitas. Fraudes e abusos na utilização de serviços em saúde são dois fatores que influenciam diretamente esse desequilíbrio, uma vez que correspondem a despesas que poderiam ser eliminadas sem prejuízo à qualidade dos serviços prestados. Um dos mecanismos empregados pelas OPS para evitar despesas indevidas decorrentes de fraudes e abusos é a Regulação, que consiste em uma análise prévia antes da liberação para realização, dos serviços que são solicitados pelos prestadores de saúde. A análise manual das solicitações que é realizada durante a regulação de planos de saúde é um exemplo de fator que tem motivado as OPS a desenvolverem sistemas capazes de identificar fraudes e abusos de forma automática ou semi-automática, muitas vezes por meio de técnicas de Mineração de Dados e Aprendizagem de Máquina. Neste cenário, a utilização dessas técnicas é impactada pelo problema do desbalanceamento de classes, oriundo do fato de haver muito mais solicitações de serviços autorizadas do que não autorizadas pelo processo de regulação. A proposta deste trabalho é investigar os efeitos desse problema na aplicação de técnicas de aprendizagem de máquina no contexto da regulação de planos de saúde. Mais precisamente, é investigar por meio de um experimento o quanto de performance de predição é perdida devido ao desbalanceamento de classes e o quanto dessa performance perdida pode ser recuperada utilizando-se métodos de tratamento específicos aplicados aos dados. Este experimento emprega bases de dados em que as distribuições de classes foram modificadas artificialmente, algoritmos de classificação de diferentes paradigmas e diferentes métodos de tratamento de dados. Entre os resultados mais importantes, notou-se que o desbalanceamento de classes afeta sim a performance de aprendizagem da regulação, mas de forma diferente para cada algoritmo estudado. Observou-se também que os métodos de tratamento são capazes de reduzir a perda de performance, mas também que essa redução depende do algoritmo de classificação e da distribuição de classes empregados em conjunto.