Técnicas de aumento de datos para imágenes aéreas y evaluación de rendimiento en modelos de deep learning
DOI:
https://doi.org/10.47286/01211463.285Palabras clave:
data augmentation, deep learning, procesamiento digital de imágenes, clasificación de imágenes, imágenes aéreasResumen
En la actualidad, uno de los principales problemas que afronta un profesional que trabaja con modelos de deep learning (dl) es la limitada información que existe para la implementación de estos modelos, por esta razón, se hace necesario la implementación de metodologías y técnicas que permitan optimizar y mejorar el aprovechamiento de los datos con los que se cuenta; una de las principales metodologías para estos fines es el aumento de datos, que consiste en que a partir de un conjunto de datos inicial se modifican cada uno de los datos, de manera que cada una de estas transformaciones representen un dato nuevo para el conjunto. Por esta razón, en el presente artículo se exponen diversas técnicas de aumento de datos para imágenes aéreas y la evaluación de algunos de los principales modelos de Deep Learning. Tras ser entrenados con un conjunto de datos inicial, los resultados fueron contrastados con los resultados de los mismos modelos entrenados con un conjunto de datos aumentado, donde se pudo observar la mejoría en el desempeño de los modelos, disminuyendo el sobreajuste y aumentando la capacidad de generalización de estos modelos. Este trabajo se realizó bajo herramientas de software libre, con el uso de una computadora con sistema operativo Ubuntu 16.04, la programación de cada uno de los algoritmos bajo Python3 y para el despliegue se usó una tarjeta gráfica NVIDIA QUADRO P2200.Citas
Bay, H., Tuytelaars, T., y Van Gool, L. (2006, May). Surf: Speeded up robust features. In European conference on computer vision (pp. 404-417). Springer, Berlin, Heidelberg.
https://doi.org/10.1007/11744023_32
Bengio, Y. (2015). Rmsprop and equilibrated adaptive learning rates for nonconvex optimization. corr abs/1502.04390.
Buslaev, A., Parinov, A., Khvedchenya, E., Iglovikov, V. I., y Kalinin, A. A. (2018). Albumentations: fast and flexible image augmentations. arXiv preprint arXiv:1809.06839.
Dalal, N., y Triggs, B. (2005, June). Histograms of oriented gradients for human detection. In 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05) (Vol. 1, pp. 886-893). IEEE.
Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., y Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition (pp. 248-255). Ieee.
https://doi.org/10.1109/CVPR.2009.5206848
He, K., Zhang, X., Ren, S., y Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770-778).
https://doi.org/10.1109/CVPR.2016.90
He, X., Cheng, K., Chen, Q., Hu, Q., Wang, P., y Cheng, J. (2019). Compact global descriptor for neural networks. arXiv preprint arXiv:1907.09665.
Howard, A. G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., ... y Adam, H. (2017). Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861.
Lee, J., Wang, J., Crandall, D., Šabanović, S., y Fox, G. (2017, April). Real-time, cloud-based object detection for unmanned aerial vehicles. In 2017 First IEEE International Conference on Robotic Computing (IRC) (pp. 36-43). IEEE.
https://doi.org/10.1109/IRC.2017.77
Lowe, D. G. (1999, September). Object recognition from local scale-invariant features. In Proceedings of the seventh IEEE international conference on computer vision (Vol. 2, pp. 1150-1157). Ieee.
https://doi.org/10.1109/ICCV.1999.790410
Okafor, E., Smit, R., Schomaker, L., y Wiering, M. (2017, July). Operational data augmentation in classifying single aerial images of animals. In 2017 IEEE International Conference on INnovations in Intelligent SysTems and Applications (INISTA) (pp. 354-360). IEEE.
https://doi.org/10.1109/INISTA.2017.8001185
Perez, L., y Wang, J. (2017). The effectiveness of data augmentation in image classification using deep learning. arXiv preprint arXiv:1712.04621.
Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., ... y Berg, A. C. (2015). Imagenet large scale visual recognition challenge. International journal of computer vision, 115(3), 211-252.
https://doi.org/10.1007/s11263-015-0816-y
Simonyan, K., y Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.
Singh, S., y Krishnan, S. (2019). Filter Response Normalization Layer: Eliminating Batch Dependence in the Training of Deep Neural Networks. arXiv preprint arXiv:1911.09737.
https://doi.org/10.1109/CVPR42600.2020.01125
Szegedy, C., Ioffe, S., Vanhoucke, V., y Alemi, A. A. (2017, February). Inception-v4, inception-resnet and the impact of residual connections on learning. In Thirty-first AAAI conference on artificial intelligence.
Wu, R., Yan, S., Shan, Y., Dang, Q., y Sun, G. (2015). Deep image: Scaling up image recognition. arXiv preprint arXiv:1501.02876, 7(8).
Xia, G. S., Bai, X., Ding, J., Zhu, Z., Belongie, S., Luo, J., ... y Zhang, L. (2018). DOTA: A large-scale dataset for object detection in aerial images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 3974-3983).
https://doi.org/10.1109/CVPR.2018.00418
Yalniz, I. Z., Jégou, H., Chen, K., Paluri, M., y Mahajan, D. (2019). Billion-scale semi-supervised learning for image classification. arXiv preprint arXiv:1905.00546.
Zhang, C., y Kovacs, J. M. (2012). The application of small unmanned aerial systems for precision agriculture: a review. Precision agriculture, 13(6), 693-712.
https://doi.org/10.1007/s11119-012-9274-5