Un enfoque estándar para el filtrado de contenido automático (que supongo que Instagram podría estar usando) sería formularlo como un problema de clasificación supervisada con dos categorías. Los pasos (simplificados) son los siguientes:
- Genere muestras positivas y negativas para el entrenamiento [Las imágenes que Instagram quiere censurar están etiquetadas (+) y las imágenes que quiere permitir Instagram están etiquetadas (-)]. Estos están etiquetados por humanos
- Extraiga las características estándar de visión por computadora de la imagen.
- Entrene un clasificador (SVM) con las características extraídas.
El clasificador se usa luego en las nuevas imágenes que se cargan. Si el clasificador lo predice como (+) con una confianza alta, entonces Instagram decide censurarlo.
Como Instagram censura las imágenes que contienen los pezones femeninos, tales imágenes se utilizan en el entrenamiento como muestras positivas. Varias porciones de la torta se parecen a los pezones femeninos y probablemente se clasificó como (+) con una alta confianza durante la prueba.
El método anterior funciona razonablemente bien, sin embargo, es susceptible de fallas (como en el caso anterior). Una de las razones es que cuando extraemos características, perdemos cierta información. Las características ven un mundo visual diferente de lo que vemos.
Aquí hay un ejemplo diferente, un caso en el que un detector de objetos falló y no es trivial (como el caso del pastel y el pezón) aquí para descubrir por qué falló al solo mirar la imagen.
El descriptor HOG es una característica estándar de visión por computadora utilizada para la detección de objetos y funciona razonablemente bien. Sin embargo, cuando se probó esta imagen, predijo que la imagen era la de un automóvil (con una alta confianza).
Cómo cocer camarones congelados
¿Podría usar un generador eléctrico Twinkie para hacer Danish Aebleskivers?
¿Cuáles son algunos buenos sustitutos para el aceite cuando se hacen brownies?
Para entender esto, necesitamos echar un vistazo a la visualización [1] en el espacio de características HOG en lugar de la imagen visual RGB que vemos
Aunque no vemos un automóvil en las imágenes RGB, hay un automóvil oculto en el descriptor HOG.
Del mismo modo, si podemos visualizar la imagen de la torta en el espacio de características que usa Instagram, probablemente encontraríamos pezones en ella. (Intentaré agregar la visualización si es posible)
Referencias
[1] HOGgles: visualización de características de detección de objetos