Neuro-Fuzzy Modeling Techniques in Economics

Neuro-Fuzzy Modeling Techniques in Economics

Виявлення шахрайства в автострахуванні: проблема незбалансованої вибірки

Fraud detection in car insurance: the problem of unbalanced sampling

DOI:

10.33111/nfmte.2020.138

Анотація: Вирішуючи завдання класифікації методами машинного навчання, фахівці з аналізу даних часто стикаються з проблемою незбалансованих даних. Наявність дисбалансу класів характерна для даних фінансового сектору, зокрема для задач з виявлення шахрайства в автострахуванні. Навчання моделей на незбалансованих даних може призвести до неправильної класифікації та великої кількості помилкових визначень через схильність класифікатора відносити випадки до класу більшості.
Дана робота присвячена дослідженню способів вирішення проблеми дисбалансу класів у задачі класифікації страхових випадків. Для вирішення поставленого завдання було використано базу даних у сфері автострахування, в якій міститься інформація щодо наявності чи відсутності шахрайства за позовами клієнтів. Клас шахрайських випадків, який цікавить нас найбільше, представлений у базі втричі меншою кількістю записів за правомірні позови. Задля уникнення проблем моделювання на незбалансованих даних були застосовані методи передискретизації, зокрема випадковий оверсемплінг та SMOTE. Оцінка результатів, отриманих на різних вибірках, показує, що методи балансування дозволяють суттєво покращити якість класифікації.
У ході дослідження на отриманих наборах даних були побудовані класифікатори на основі логістичної регресії, методу опорних векторів, алгоритму k-найближчих сусідів, Байєсівського класифікатора, дерева рішень, випадкового лісу та нейронної мережі персептронного типу. Порівняльний аналіз показників якості побудованих класифікаторів допоміг визначити найкращі методи для виявлення шахрайських претензій. Для обох наборів даних такими методами були визнані логістична регресія та нейронна мережа, які мають високий рівень виявлення шахрайських випадків у поєднанні з належною загальною прогностичною силою моделі.
Abstract: Solving classification problems using machine learning methods, data scientists often face the problem of data imbalances. Class imbalance is common in financial sector, in particular for the task of fraud detection in car insurance. Training models on unbalanced data can lead to misclassifications and large numbers of false positives due to the tendency of the model to classify observed cases as the majority class.
This paper deals with the study of ways to solve the problem of class imbalance in the task of insurance claims classifying. To solve this problem, a database in the field of auto insurance was used, which provide information about the presence or absence of fraudulent customer claims. The class of fraudulent cases that interests us the most is represented in the database by three times fewer records than for legitimate claims. Oversampling techniques including random oversampling and SMOTE were applied to avoid modeling problems on unbalanced data. Evaluation of the results obtained on different samples indicates that balancing methods can significantly improve the quality of the classification.
Logistic regression, support vector machine, k-nearest neighbors classifier, Bayesian classifier, decision tree, random forest and perceptron type neural network were built on the obtained datasets. A comparative analysis of the models’ qualities allowed to determine the best methods for detecting fraudulent claims. For both datasets, logistic regression and neural network were recognized as such methods, having a high level of fraud detection combined with a good predictive power of the model.
Ключові слова: машинне навчання, нейронна мережа, логістична регресія, дерево рішень, класифікація, незбалансовані дані, оверсемплінг, випадковий оверсемплінг, SMOTE
Key words: machine learning, neural network, logistic regression, decision tree, classification, unbalanced data, oversampling, random oversampling, SMOTE
УДК: 519.2:368
UDC: 519.2:368

JEL: C52 C55 G22

To cite paper
In APA style
Kononova, K., & Havrylenko, A. (2020). Fraud detection in car insurance: the problem of unbalanced sampling. Neuro-Fuzzy Modeling Techniques in Economics, 9, 138-155. http://doi.org/10.33111/nfmte.2020.138
In MON style
Кононова К., Гавриленко А. Виявлення шахрайства в автострахуванні: проблема незбалансованої вибірки. Нейро-нечіткі технології моделювання в економіці. 2020. № 9. С. 138-155. http://doi.org/10.33111/nfmte.2020.138 (дата звернення: 03.07.2025).
With transliteration
Kononova, K., Havrylenko, A. (2020) Vyiavlennia shakhraistva v avtostrakhuvanni: problema nezbalansovanoi vybirky [Fraud detection in car insurance: the problem of unbalanced sampling]. Neuro-Fuzzy Modeling Techniques in Economics, no. 9. pp. 138-155. http://doi.org/10.33111/nfmte.2020.138 [in Ukrainian] (accessed 03 Jul 2025).
# 9 / 2020 # 9 / 2020
Download Paper
345
Views
125
Downloads
0
Cited by

  1. Agarwal, R. (2019, July 21). The 5 Sampling Algorithms every Data Scientist need to know. Towards Data Science. https://towardsdatascience.com/the-5-sampling-algorithms-every-data-scientist-need-to-know-43c7bc11d17c
  2. Alencar, R. (2017). Resampling strategies for imbalanced datasets [Data set]. Kaggle. Retrieved April 5, 2020, from https://www.kaggle.com/rafjaa/resampling-strategies-for-imbalanced-datasets#t3
  3. Bіloborodova, T., & Skarga-Bandurova, I. (2017). Pidkhody do klasyfikatsii nezbalansovanykh i zsunutykh naboriv danykh [Approaches for Classification of Imbalanced and Skewed Datasets]. Visnyk Skhidnoukrainskoho natsionalnoho universytetu imeni Volodymyra Dalia (Bulletin of Volodymyr Dahl East Ukrainian National University), 8(238), 17-24. [in Ukrainian]
  4. Brownlee, J. (2020, January 17). SMOTE for Imbalanced Classification with Python. Machine Learning Mastery. https://machinelearningmastery.com/smote-oversampling-for-imbalanced-classification/
  5. Chawla, N.V. (2009). Data mining for imbalanced datasets: An overview. In O. Maimon, & L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook (pp. 875-886). Springer. https://doi.org/10.1007/978-0-387-09823-4_45
  6. Demidova, L. A., & Klyueva, I. А. (2017). Alhoritm podbora znacheniy parametrov bSMOTE-algoritma v zadache SVM-klassifikatsii na osnove nesbalansirovannykh naborov dannykh [Search algorithm of the parameters values of the bSMOTE-algorithm in the problem of the SVM classification based on the imbalanced datasets]. Vestnyk Riazanskoho hosudarstvennoho radyotekhnycheskoho unyversyteta (Vestnik of Ryazan State Radio Engineering University), 61, 67-77. http://vestnik.rsreu.ru/images/archive/2017/3-61/3.1__.pdf [in Russian]
  7. FORINSURER. (2020, May 7). Statystyka strakhovoho rynku Ukrainy [Statistics of the insurance market of Ukraine]. https://forinsurer.com/stat [in Ukrainian]
  8. Hassan, A.K.I., & Abraham, A. (2016). Modeling Insurance Fraud Detection Using Imbalanced Data Classification. In N. Pillay, A. Engelbrecht, A. Abraham, M. du Plessis, V. Snášel, & A. Muda (Еds.), Advances in Intelligent Systems and Computing: Vol. 419. Advances in Nature and Biologically Inspired Computing (pp. 117-127). Springer. https://doi.org/10.1007/978-3-319-27400-3_11
  9. Kavrin, D. А., & Subbotin, S. A. (2018). Metody kolichestvennogo resheniya problemy nesbalansyrovannosti klassov [The methods for quantitative solving the class imbalance problem]. Radioelektronika, informatyka, upravlinnia (Radio Electronics, Computer Science, Control), 1, 83-90. https://doi.org/10.15588/1607-3274-2018-1-10 [in Russian]
  10. Lahera, G. (2019, January 22). Unbalanced Datasets & What To Do About Them. Strands Tech Corner. https://medium.com/strands-tech-corner/unbalanced-datasets-what-to-do-144e0552d9cd
  11. National Bank of Ukraine. (2020). Register of Reporting Indicators for Non-Bank Financial Institutions [Data set]. Retrieved May 7, 2020, from https://bank.gov.ua/ua/statistic/nbureport/statreport-nonbanking
  12. Paklin, N. B., Ulanov, S. V., & Tsarkov, S. V. (2010). Postroyeniye klassifikatorov na nesbalansirovannykh vyborkakh na primere kreditnogo skoringa [Classifiers Construction Based on Imbalanced Datasets by the Example of Credit Scoring]. Shtuchnyi Intelekt (Artificial Intelligence), 49(3), 528-534. https://jai.in.ua/index.php/%D0%B0%D1%80%D1%85%D1%96%D0%B2?paper_num=984 [in Russian]
  13. Patil, A., Framewala, A., & Kazi, F. (2020). Explainability of SMOTE Based Oversampling for Imbalanced Dataset Problems. In Proceedings of 2020 3rd International Conference on Information and Computer Technologies (pp. 41-45). IEEE. https://doi.org/10.1109/ICICT50521.2020.00015
  14. Phetlasy, S., Ohzahata, S., Wu, C., & Kato, T. (2019). Applying SMOTE for a sequential classifiers combination method to improve the performance of intrusion detection system. In Proceedings of 2019 IEEE Intl Conf on Dependable, Autonomic and Secure Computing, Intl Conf on Pervasive Intelligence and Computing, Intl Conf on Cloud and Big Data Computing, Intl Conf on Cyber Science and Technology Congress (pp. 255- 258). IEEE. https://doi.org/10.1109/DASC/PiCom/CBDCom/CyberSciTech.2019.00054
  15. Savina, S., & Ben’, V. (2015). Obiednannia modelei logit-rehresiy yak komitetu ekspertiv dlia otsinky kredytospromozhnosti pozychalnyka [Integration of models of logit-regressions as a committee of experts to assess the creditworthiness of borrower]. Neiro-Nechitki Tekhnolohii Modelyuvannya v Ekonomitsi (Neuro-Fuzzy Modeling Techniques in Economics), 4, 154-188. https://doi.org/10.33111/nfmte.2015.154 [in Ukrainian]
  16. Sevastianov, L. A., & Shchetinin, E. Yu. (2020). O metodakh povysheniya tochnosti mnogoklassovoy klassifikatsiyi na nesbalansirovannykh dannykh [On methods for improving the accuracy of multiclass classification on imbalanced data]. Informatika i ieyo primeneniya (Informatics and its applications), 1(14), 63-70. https://doi.org/10.14357/19922264200109 [in Russian]
  17. Sui, Y., Yu, M., Hong, H., & Pan, X. (2019). Learning from imbalanced data: A comparative study. In W. Meng, & S. Furnell (Eds.), Communications in Computer and Information Science: Vol. 1095. Security and Privacy in Social Networks and Big Data (pp. 264-274). Springer. https://doi.org/10.1007/978-981-15-0758-8_20