В статье рассматривается актуальная проблема повышения точности классифик�
В статье рассматривается актуальная проблема повышения точности классификации объектов в условиях дисбаланса и недостаточности исходных данных, что особенно характерно для медицинской диагностики. Авторы анализируют распределение реальных и синтетически расширенных классов, оценивают их влияние на результаты обучения классификационных моделей, включая логистическую регрессию, решающие деревья, случайный лес и метод опорных векторов (SVM). Исследование включает подробный обзор современных методов генерации синтетических данных, таких как SMOTE и генеративно-состязательные сети (GAN), а также анализ их эффективности при решении задач классификации. Приведены экспериментальные результаты, демонстрирующие, что использование синтетически расширенных данных способствует повышению точности классификации, особенно для моделей логистической регрессии и случайного леса. Проведен детальный статистический анализ сходства между реальными и синтетическими объектами, оценка производительности моделей по ключевым метрикам (F1-score, Precision, Recall, Accuracy, ROC-AUC), а также выявлены классы, для которых синтетические данные наиболее эффективны. Статья содержит подробное описание математических основ и принципов работы применяемых алгоритмов, их преимущества и ограничения. В заключении отмечается, что предложенные гибридные модели на основе искусственного интеллекта позволяют достичь более высокой точности диагностики по сравнению с традиционными методами, а также повышают устойчивость и обобщающую способность моделей. Статья предназначена для специалистов в области искусственного интеллекта, машинного обучения, медицинской диагностики и анализа данных.