El paper “ORAND Team: Instance Search and Multimedia Event Detection Using k-NN Searches” ha sido publicado en el Workshop de TRECVID 2013. Este trabajo resume la participación del equipo de Orand en las competencias Instance Search (INS) y Multimedia Event Detection (MED).

La competencia Instance Search (INS) consiste en, dada una colección de videos, recuperar las escenas que contengan una entidad particular (un objeto o una persona). Esta entidad, denominada tópico, se define por medio de ejemplos visuales y una pequeña descripción textual. Para el año 2013,  fueron evaluados 30 tópicos (26 objetos y 4 personas) disponiendo de 4 ejemplos visuales para cada uno. La colección de videos de referencia fue conformada por 244 videos correspondientes a la serie de TV de la BBC EastEnders, con una extensión total de 435 horas.

Algunos tópicos de búsqueda fueron: un logo de no fumar, un logo de Audi, cigarrillos, un taxi negro, una señal de estacionamiento, entre otras. A continuación se muestra una respuesta del sistema implementado por Orand para “un logo de Audi”:

shotsEval1

Figura 1. Un ejemplo del sistema desarrollado por Orand para la competencia Instance Search. A la derecha se muestra la lista de tópicos a evaluar. La esquina inferior derecha muestra los ejemplos visuales para el tópico escogido (logo de Audi). La zona superior derecha muestra una escena encontrada correctamente para este tópico. Programme material © BBC.

Por otro lado, la competencia Multimedia Event Detection (MED) consiste en decidir si cierto evento específico ocurre en un clip de video. Los eventos son definidos por “kits”, los cuales contienen una descripción textual del evento, además de 100, 10 o 0 clips de ejemplo. La evaluación consideró dos escenarios: eventos pre-especificados, es decir, los “kits” eran conocidos a priori por el equipo, pudiendo implementar manualmente detectores específicos para cada evento; y eventos ad-hoc, donde los “kits” no son conocidos a priori debiendo implementar un sistema génerico de búsqueda que recibe como input un “kit” específico. La colección de videos de referencia para el año 2013 consistió en 98.119 videos de búsqueda, totalizando 1.2 TB de tamaño.

A continuación se muestra un ejemplo del sistema desarrollado para esta competencia:

eventsEval1

Figura 2. Un ejemplo del sistema desarrollado por Orand para la competencia Multimedia Event Detection. En la parte superior derecha se presenta la lista de eventos a evaluar. La zona inferior derecha muestra dos clips de ejemplo para el evento seleccionado (“estacionando un vehículo”). La sección izquierda muestra uno de los clips encontrados por el sistema. 

Para más información visitar (sitios en inglés):

ORAND Team: Instance Search and Multimedia Event Detection Using k-NN Searches, published at TRECVID 2013.
– TRECVID 2013 Guidelines
– TRECVID 2013 Notebook Papers

The paper “ORAND Team: Instance Search and Multimedia Event Detection Using k-NN Searches” has been published in the TRECVID 2013 Workshop. This work summarizes the participation of the Orand Team in the Instance Search (INS) and the Multimedia Event Detection (MED) tasks.

The Instance Search task (INS) consists in retrieving the shots that contain a given entity (object or person) from a video collection. The target entity, called a topic, is de fined by visual examples and a brief textual description. INS 2013 evaluated 30 topics (26 objects and 4 persons) with four visual examples per topic. The reference video collection was the BBC EastEnders collection, which consists in 244 videos with a total extension of 435 hours.

Some of the search topics were: a  “no smoking” logo, an Audi logo, a cigarette, a black taxi, a parking sign, etc. The following image shows an example of the system developed by Orand for the topic “an Audi logo”:

shotsEval1

Figure 1. An example of the system developed by Orand for the INS task. On the right side, the list of the topics is presented. The bottom-left corner shows the visual examples for the selected topic (Audi logo). The top-left section shows a correctly found shot for this topic. Programme material © BBC.

On the other hand, the Multimedia Event Detection (MED) task consists in deciding whether a given event is present in a video clip. The event is specifi ed by an “event-kit”, which contains a textual description of the event plus 100, 10 or 0 example videos. The evaluation considered two scenarios: pre-specifi ed events, i.e., the event-kits are a priori known by the team thus it is possible to manually adjust a specifi c detector for each event; and ad-hoc events, i.e., the event-kits are a priori unknown by the team, thus the system must have a generic search engine that takes the event-kit as input. The reference video collection for the 2013 task consisted in 98.119 search videos, 1.2 TB. The following image shows an example of the system developed for this task:

eventsEval1

Figure 2. An example of the system developed by Orand  for the MED task. On the top-right side, the list of the events is presented. The bottom-right corner shows two samples of the selected event (“parking a vehicle”). The left section shows one of the clips found by the system. 

For more info visit:

ORAND Team: Instance Search and Multimedia Event Detection Using k-NN Searches, published at TRECVID 2013.
TRECVID 2013 Guidelines
TRECVID 2013 Notebook Papers