Пошук найслабшої ланки у виявлянні людей

Articles

17 May 2022

Деві Паріх і Ларрі Зітнік

Анотація

Виявлення людей залишається популярною і складною проблемою в комп'ютерному зорі. У цій статті ми аналізуємо моделі на основі деталей для виявлення людей, щоб визначити, які компоненти їхнього конвеєра могли б отримати найбільшу користь у разі їх покращення. Ми вирішуємо це завдання, вивчаючи численні детектори, утворені з комбінацій компонентів, які виконуються людьми та машинами. Модель на основі частин, яку ми вивчаємо, можна грубо розбити на чотири компоненти: виявлення ознак, виявлення деталей, просторове оцінювання частин і контекстне міркування, включаючи немаксимальне придушення. Наші експерименти прийшли до висновку, що виявлення частин є найслабшою ланкою для складних наборів даних виявлення людей. Немаксимальне придушення та контекст також можуть значно підвищити продуктивність. Однак використання людських або машинних просторових моделей істотно або послідовно не впливає на точність виявлення.

Мотивація

Виявлення людини є важливою, але відкритою та складною проблемою комп’ютерного зору. Останнім часом детектори досягли значного прогресу, використовуючи моделі на основі частин. Дослідники досліджували різноманітні уявлення зображень, різні моделі зовнішнього вигляду деталей, витончене просторове моделювання конфігурацій об’єктів, а також експресивне немаксимальне придушення та моделі контексту. Кожен із цих підходів пропонує складний набір взаємозалежних компонентів для отримання кінцевих результатів виявлення. У той час як додаткова складність підходів призвела до збільшення продуктивності, розуміння ролі кожного компонента в точності остаточного виявлення є складним.

План

Ми пропонуємо ретельний аналіз моделей на основі деталей, щоб отримати уявлення про те, які компоненти могли б отримати найбільшу користь у разі їх покращення. Ми виконуємо це завдання, використовуючи людей для виконання окремих компонентів, які раніше виконував машинний алгоритм. Наприклад, замість використання машинного класифікатора, такого як латентний SVM, навчений на дескрипторах HoG для виявлення частин об’єкта, ми використовуємо людей, щоб позначити, чи містить невелике зображення голови, стопи, тулуба тощо. Ілюстрації різних завдань, що виконуються людьми, наведені нижче:

Експерименти та Результати

Ми оцінюємо точність виявлення різних детекторів (див. нижче), що складаються з різних комбінацій компонентів, що виконуються людьми або машинними реалізаціями.

Порівняння між різними підгрупами цих детекторів дозволяє нам відокремити вплив кожного з компонентів у конвеєрі виявлення людей на основі частин. Хоча ми рекомендуємо вам ознайомитися з докладними порівняннями у статті, нижче можна побачити підсумок результатів, отриманих у наборах даних PASCAL 2007 та INRIA. Ми вважаємо, що виявлення частин є найслабшою ланкою в виявленні особи на основі частин. Немаксимальне придушення також впливає на продуктивність нетривіальним чином. Однак використання просторових моделей людини або машини не впливає істотно на точність виявлення.

Набір даних Part Patch

Серед великої кількості даних про людей, які ми зібрали в рамках наших експериментів, ми вважаємо, що наступне може бути цікавим для спільноти.

У нас були люди, які класифікували ділянки зображень, що перекриваються, на одну з восьми категорій: голова, тулуб, рука, кисть, нога, ступня, інша частина особи, не-особа. Патчі були вилучені з 50 зображень INRIA та 100 PASCAL (2007) і відображалися ізольовано у випадковому порядку, так що жодна контекстна інформація із зображення не була доступною для суб’єктів. Ми витягуємо патчі з оригінальної версії зображень високої та низької роздільної здатності. Перед вилученням латок зображення з високою та низькою роздільною здатністю були перетворені в одне з таких представлень: колір (звичайний), відтінки сірого та нормований градієнт. Це призвело до 45 316 x 6 = 271 896 патчів. 10 людей класифікували кожен патч на одну з 8 категорій на Amazon Mechanical Turk.

Нижче наведено знімок даних, який показує приклади патчів, класифікованих за більшістю суб’єктів як голова, тулуб, нога та жодна.

Аналогічно, ми мали 10 людей, які класифікували підвікна зображень, що перекриваються (всього 6 218 x 6 = 37 308 вікон), як містять людину чи ні (подібно до виявлення «коренів»). Як і у випадку з деталями, підвікна були виділені з високої та низької роздільної здатності кольорів, відтінків сірого та нормалізованих градієнтних зображень.

Ми надаємо дані класифікації частини (виправлення) і кореневого (вікна) як набір даних Part Patch.

** Завантажити ** Набір даних Part Patch [89,3 МБ]

Візуалізації

Підмножина наших людських досліджень вимагала від людських суб'єктів виявлення людей за допомогою попередньо обчисленого набору деталей. Деталі можуть бути виявлені іншими людьми або машиною. Щоб переконатися, що людина не використовує жодну попередню інформацію, окрім виявлених частин, ми створили візуалізації, які відображають виявлення частин, але ніякої іншої інформації на зображенні. Приклад візуалізації можна побачити нижче.

** Огляд ** Візуалізації деяких зображень із використанням частин, виявлених людиною та машиною, можна переглянути тут: INRIA_50 PASCAL2007_100. Перші шість стовпців відображають деталі, виявлені людиною (на звичайних зображеннях високої роздільної здатності, у відтінках сірого, нормалізованому градієнті, низькому розширенні, у відтінках сірого та нормалізованому градієнті), а останній стовпець показує деталі, виявлені машиною, на зображеннях високої роздільної здатності за допомогою детекторів Felzenszwalb et al. 2010. Для частин, виявлених людиною, кольори відповідають різним частинам людини (червоний: голова, зелений: тулуб, синій: рука, жовтий: рука, пурпуровий: нога, блакитний: ноги, білий: корінь (людина), чорний : немає). Кожен патч відображається кольором, що відповідає категорії, яка отримала найбільшу кількість голосів у 10 предметах. Інтенсивність кольору відповідає кількості досліджуваних, які вибрали клас. Для виявлених машиною деталей, шість кольорів довільно призначаються шести деталям, а інтенсивність кольору відповідає оцінці виявлення деталей.

Публікація

Д. Паріх і Ч. Л. Зітнік

Пошук найслабшої ланки в детекторах людей

Конференція IEEE з комп’ютерного зору та розпізнавання образів (CVPR), 2011

[плакат] [слайди]

Підтримка

Цей матеріал базується на роботі, що частково підтримується Національним науковим фондом за грантом No 1115719. Будь-які думки, знахідки, висновки або рекомендації, висловлені в цьому матеріалі, є думками автора (ів) і не обов'язково відображають погляди Національного наукового фонду.

Was this article helpful?

67 readers found this helpful

Yes No
Thanks for your feedback!

Related Articles

We keep you up to date with the latest news and industry insights