On Noise Effect in Semi-supervised Learning

Sineglazov, Victor; Синєглазов, Віктор Михайлович; Lesohorskyi, Kyrylo; Лесогорський, Кирило Сергійович

doi:10.18372/1990-5548.71.16816

Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://er.nau.edu.ua/handle/NAU/59830

Название:	On Noise Effect in Semi-supervised Learning
Другие названия:	Дослідження впливу шуму в напівкерованому навчанні
Авторы:	Sineglazov, Victor Синєглазов, Віктор Михайлович Lesohorskyi, Kyrylo Лесогорський, Кирило Сергійович
Ключевые слова:	data noise machine learning semi-supervised learning support vector machine зашумлені данні машинне навчання напівкероване навчання опорні векторні машини
Дата публикации:	24-июн-2022
Издательство:	National Aviation University
Библиографическое описание:	Sineglazov V. M. On Noise Effect in Semi-supervised Learning / V. M. Sineglazov, K. S. Lesohorskyi // Electronics and Control Systems, N 1(71) – Kyiv: ТОВ «Альянт», 2022. – pp. 9–15.
Серия/номер:	Electronics and Control Systems;№1(71) Електроніка та системи управління;№1(71)
Краткий осмотр (реферат):	The article deals with the problem of noise effect on semi-supervised learning. The goal of this article is to analyze the impact of noise on the accuracy of binary classification models created using three semi-supervised learning algorithms, namely Simple Recycled Selection, Incrementally Reinforced Selection, and Hybrid Algorithm, using Support Vector Machines to build a base classifier. Different algorithms to compute similarity matrices, namely Radial Bias Function, Cosine Similarity, and K-Nearest Neighbours were analyzed to understand their effect on model accuracy. For benchmarking purposes, datasets from the UCI repository were used. To test the noise effect, different amounts of artificially generated randomly-labeled samples were introduced into the dataset using three strategies (labeled, unlabeled, and mixed) and compared to the baseline classifier trained with the original dataset and the classifier trained on the reduced-size original dataset. The results show that the introduction of random noise into the labeled samples decreases classifier accuracy, while a moderate amount of noise in unmarked samples can have a positive effect on classifier accuracy. У статті розглядається проблема впливу шуму на точність у задачах напівккерованого навчання. Метою цієї статті є аналіз впливу шуму на точність моделей бінарної класифікації, створених за допомогою трьох напівкерованих алгоритмів навчання, а саме: Simply Recycled Selection (SRS), Incrementally Reinforced Selection (IRS) і Hybrid Algorithm (HYB). У якості базового класифікатора використано Support Vector Machine (SVM). Ми проаналізуємо різні алгоритми для обчислення матриць подібності, а саме Radial Bias Function, Cosine Simmilarity і K-Nearest Neighbours. Для цілей порівняльного аналізу використовуватимуться набори даних зі сховища UCI. Щоб перевірити вплив шуму, різна кількість штучно згенерованих випадково позначених зразків було введено в набір даних з використанням трьох стратегій (маркована, не маркована та змішана) і порівняно з базовим класифікатором, навченим з вихідним набором даних, і класифікатором, навченим на вихідному наборі даних зменшеного розміру. Результати показують, що введення випадкового шуму в марковані зразки погіршує точність моделі, а введення випадкового шуму в немарковані дані може навпаки підвищити точність моделі.
Описание:	Журнал входить до Переліку наукових видань Міністерства освіти і науки України, у яких можуть публікуватися основні результати дисертаційних робіт у галузі технічних наук категорії «Б» Рекомендовано до друку Вченою радою Національного авіаційного університету (протокол № 4 від 22 червня 2022 р.). Зареєстровано Міністерством юстиції України. Свідоцтво про державну реєстрацію друкованого засобу масової інформації. Серія КВ №16720-5292 ПР від 21 травня 2010 року. [1] P. K. Mallapragada, et al., “SemiBoost: Boosting for semi-supervised learning,” IEEE Trans. Pattern Anal. and Machine Intell., vol. 312, no. 11, pp. 2000–2014, Nov. 2009. https://doi.org/10.1109/TPAMI.2008.235 [2] T.-B. Le and S.-W. Kim, “On incrementally using a small portion of strong unlabeled data for semi-supervised learning algorithms,” Pattern Recognition Letters, vol. 41, pp. 53–64, May 2014. https://doi.org/10.1016/j.patrec.2013.08.026 [3] Thanh-Binh Le, Sang-Woon Kim, “A Hybrid Selection Method of Helpful Unlabeled Data Applicable for Semi-Supervised Learning Algorithm,” IEIE Transactions on Smart Processing & Computing, 3(4), 2014, pp. 234–239. https://doi.org/10.5573/IEIESPC.2014.3.4.234 [4] S. Suthaharan, “Support Vector Machine,” In: Machine Learning Models and Algorithms for Big Data Classification. Integrated Series in Information Systems, vol. 36, pp. 207–235, 2016. Springer, Boston, MA. https://doi.org/10.1007/978-1-4899-7641-3_9 [5] Orr, Mark JL, Introduction to radial basis function networks, 1996. [6] Rahutomo, Faisal, Teruaki Kitasuka, and Masayoshi Aritsugi, "Semantic cosine similarity," the 7th International Student Conference on Advanced Science and Technology (ICAST), vol. 4, No. 1, 2012. [7] Yu, K., Ji, L. & Zhang, X. Kernel, “Nearest-Neighbor Algorithm,” Neural Processing Letters 15, 147–156, 2002. https://doi.org/10.1023/A:1015244902967 [8] G. C. Cawley and N. L. C. Talbot, “Preventing over-fitting in model selection via Bayesian regularisation of the hyper-parameters,” Journal of Machine Learning Research, vol. 8, pp. 841–861, April 2007. [9] O. Chapelle, & A. Zien, “Semi-Supervised Classification by Low Density Separation,” In Tenth International Workshop on Artificial Intelligence and Statistics (AISTAT 2005), (2005). https://doi.org/10.7551/mitpress/9780262033589.001. 0001 [10] D. Dua, and C. Graff, UCI Machine Learning Repository, 2019. [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.
URI (Унифицированный идентификатор ресурса):	https://er.nau.edu.ua/handle/NAU/59830
ISSN:	1990-5548
DOI:	10.18372/1990-5548.71.16816
Располагается в коллекциях:	Наукові публікації та матеріали кафедри авіаційних комп'ютерно-інтегрованих комплексів (НОВА)

Файлы этого ресурса:

Файл	Описание	Размер	Формат
3.pdf	Наукова стаття	915.87 kB	Adobe PDF	Просмотреть/Открыть

Показать полное описание ресурса Просмотр статистики

Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.