
Муха не пролетит мимо алгоритма
- 08.07.2022 --
- Наука
«Остановить мгновение» для робототехнической перенастройки
«Компьютерное зрение» легко распознаёт неподвижные объекты, но сложные и быстрые движения можно идентифицировать только с помощью специальных методик вычисления. Для создания продвинутых робототехнических систем с автоматизированной перенастройкой может быть применен параллельный вычислительный алгоритм объектно-ориентированного моделирования, результаты такого нашего исследования опубликованы в журнале Mathematics.
СВЁРТКА НЕ ДЛЯ СЛАБАКОВ
В технологиях «компьютерного зрения» поиск объектов на изображении может выполняться с использованием следующих методов: визуальные слова, нейросетевые архитектуры (R-CNN, Fast R-CNN, Faster R-CNN) и метод Виолы-Джонса, который может можно считать одним из лучших по соотношению эффективность распознавания/скорость работы.
Этот метод обычно ищет лица и черты лица по общему принципу сканирующего окна, однако есть успешные попытки использовать его в качестве детектора при обнаружении клубней картофеля на конвейерной ленте. Чаще всего сверточные нейронные сети используются для задач классификации объектов.
Однако сверточные нейронные сети не предназначены для работы с изображениями высокого разрешения на устройствах со слабыми процессорами. Для получения приемлемого результата необходимо использовать большие ядра (например, 7×7 или 9×9) или большое количество слоев для получения приемлемой восприимчивости поля с помощью сверточных слоев.
ТЬМА НЕ ПОМЕХА
Обе эти схемы приводят к очень значительному замедлению работы системы. Поэтому большинство недорогих систем ограничены размером изображения менее 41 × 41 пикселя для достижения приемлемого времени обработки изображения. Причем обработка каждого такого кадра может достигать нескольких секунд. Для непрерывно движущегося комбайна это недопустимо.
В этих условиях особого внимания заслуживают алгоритмы с благоприятным соотношением скорость/ресурсы и мощность. Популярные в настоящее время модификации сверточной нейронной сети, такие как R-CNN, Fast R-CNN, Faster R-CNN, превосходят по этим характеристикам метод визуальных слов, однако не следует недооценивать метод визуальных слов.
Например, дескриптор гистограммы ориентированных градиентов (HOG) показывает хорошие результаты в условиях плохой видимости, когда нейронные архитектуры практически перестают работать. Это важно для полевых работ без хорошего освещения.
БОЛЬШЕ, ЛУЧШЕ, БЫСТРЕЕ
Однопроходные детекторы SSD (Single Shot MultiBox Detector), RetinaNet и YOLO считаются популярными высокоскоростными методами классификации изображений для распознавания объектов. При этом тесты показывают, что современные архитектуры YOLOv3, YOLOv4 превосходят аналоги по производительности и точности.
Хотя архитектура YOLO требует относительно больших вычислительных ресурсов системы анализа изображений, её высокая скорость дает возможность применения в системах реального времени. Также, благодаря использованию сеточной схемы, эти сети можно использовать для обрезки фона.
Модульная структура этих алгоритмов позволяет модифицировать их для конкретных задач, дополнительно улучшая показатели производительности и качества. Так, например, версия с плотно связанными свёрточными сетями предназначена для улучшения повторного использования функций при передаче в модели, а версия YOLOv3-tiny занимает мало памяти и даёт более высокий FPS.
Версия YOLOv4-LITE использует MobileNetv2 в качестве основы модели и использует свертку Do-Conv. Версия Fusion-YOLO использует CSPDenseNet и модули объединения функций, чтобы максимизировать различия в градиентном потоке, и сеть CSPResNeXt, чтобы уменьшить избыточный градиентный поток.
#математика #алгоритм #наука #нейросети #компьютерное_зрение