Aller au contenu principal
Projet Dataset

Projet Dataset

Corpus de données pour la Recherche

L’Institut national de l’audiovisuel (INA) met à la disposition de la communauté scientifique et technologique un corpus de documents audiovisuels issus de ses collections, de fiches documentaires et de métadonnées associées à ces documents. Ce corpus est destiné à la mise au point, l’expérimentation et l’évaluation d’outils de recherche et d’analyse de contenus multimédias dans un strict cadre de recherche scientifique. Pour accéder au Corpus, vous devez être préalablement inscrit et avoir à disposition un client FTP vous permettant de télécharger le Corpus.

Présentation du Corpus

Ce corpus est constitué de plusieurs sous-corpus dont la sélection a été effectuée de diverses façons (thématique, chronologique, etc.) par les équipes de l’Ina afin de répondre à des considérations de recherche. La description des sous-corpus est donnée ci-dessous. Les chiffres et formats sont donnés à titre indicatif.

6 mois de 20h

Intégralité des journaux télévisés de 20 heures de France2 du 1er janvier au 30 juin 2007 accompagnés de leurs notices documentaires.

  • Nom : 2007 F2, 6 mois de 20 heures
  • Nombre de documents vidéo : 181
  • Format des médias : MPEG-1
  • Source : France2
  • Durée totale : ~100 heures
  • Période couverte : 1 janvier 2007 – 30 juin 2007
  • Nombre de notices documentaires : 181 notices sommaires et ~4500 notices sujet
  • Format des notices documentaires : XML/MS-Word

Ce corpus a été utilisé dans la tâche de reconnaissance de personne des campagnes d’évaluation MediaEval 2015 et MediaEval 2016 (voir ici).

MEXaction

Corpus constitué de documents télévisés collectés dans le cadre du projet Mex-Culture (Indexation de collections multimédia pour la préservation et la dissémination de la culture mexicaine).

  • Nom : MEXaction
  • Nombre de documents vidéo : 114
  • Format des médias : MPEG-1
  • Source : Les Actualités Françaises, ORTF, TF1, FR2, FR3
  • Durée totale : ~77 heures
  • Période couverte : 1942 – 2011
  • Nombre de notices documentaires : 114
  • Format des notices documentaires : XML/MS-Word

Ce corpus fait également partie du jeu de données MEXAction2 (voir ici).

Antract - Actualités françaises

Trente années dactualités filmées (1940-1969), soit un bulletin hebdomadaire diffusé dans les salles de cinéma.

  • Nom : Antract - Actualités françaises
  • Nombre de documents vidéo : ~22500
  • Format des médias : MPEG-4 AVC (H.264)
  • Source : Les Actualités Françaises
  • Durée totale : ~300 heures
  • Période couverte : 1940 – 1969
  • Nombre de notices documentaires : ~22500
  • Format des notices documentaires : XML/MS-Word

Le Misanthrope

Six captations télévisées de la pièce de théâtre de Molière, « Le Misanthrope ».

  • Nom : Le Misanthrope
  • Nombre de documents vidéo : 6
  • Format des médias : MPEG-4 AVC (H.264)
  • Source : ORTF, TF1, A2, FR3
  • Durée totale : ~12 heures
  • Période couverte : 1959 – 1980
  • Nombre de notices documentaires : 6
  • Format des notices documentaires : XML/MS-Word

L’affaire Snowden

Une semaine entière de flux centré autour de l’affaire Edward Snowden pour 3 chaînes de TV (France2, France5, France24) et 3 chaînes de radio (France Inter, France Info, France Culture).

  • Nom : L’affaire Snowden
  • Nombre de documents vidéo : 1008
  • Format des médias : MPEG-4 AVC (H.264) et MPEG-1/2 Audio Layer 3 (MP3)
  • Source : France2, France5, France24, France Inter, France Info, France Culture
  • Durée totale : 1008 heures
  • Période couverte : 7 juin 2013 - 14 juin 2013
  • Nombre de notices documentaires : ~1000 par chaîne
  • Format des notices documentaires : XML/MS-Word

Le sacre de The Artist

Une semaine entière de flux centré autour du sacre de « The Artist » à la cérémonie des Oscars à Hollywood pour 3 chaînes de TV (France2, France5, France24) et 3 chaînes de radio (France Inter, France Info, France Culture).

  • Nom : Le sacre de The Artist
  • Nombre de documents vidéo : 1008
  • Format des médias : MPEG-4 AVC (H.264) et MPEG-1/2 Audio Layer 3 (MP3)
  • Source : France2, France5, France24, France Inter, France Info, France Culture
  • Durée totale : 1008 heures
  • Période couverte : 26 février 2012 – 4 mars 2012
  • Nombre de notices documentaires : ~1000 par chaîne
  • Format des notices documentaires : XML/MS-Word

Contexte visuel des programmes TV

Corpus de 10M de frames extraites de programmes télévisées (2010-2019) pour l’apprentissage du contexte visuel. Tous les visages ont été floutés. Le dataset est divisé en un jeu d’entraînement, de validation, de test et de vérification. Les frames sont organisées sous la forme de paires positives (càd comprenant des visages communs) et/ou de triplets, pour l’apprentissage et l’évaluation.

  • Nom : Visual context for TV Programs
  • Nombre de frames : 10000000
  • Format des médias : JPG
  • Période couverte : 01 janvier 2010 - 31 décembre 2019


CONDITIONS GÉNÉRALES D'UTILISATION - CGU

Comment s’inscrire

Le Corpus est mis à disposition aux conditions visées dans les Conditions générales d’utilisation (CGU), à toute personne morale inscrite ayant préalablement accepté l’intégralité desdites CGU (ci-après dénommée « l’Utilisateur »). Seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique. Votre demande sera envoyée à l’Ina pour examen en utilisant le formulaire de contact. Après validation de votre demande, vous recevrez par courriel de confirmation les coordonnées du serveur FTP ainsi que les login et mot de passe confidentiels attribués à votre Organisation lui permettant d’accéder au Corpus.

En demandant un accès au Corpus :

  • Vous garantissez détenir les autorisations et pouvoirs nécessaires pour accepter les CGU
  • Vous vous engagez à notifier à l’Ina (dataset (at) ina.fr) tout changement susceptible d’intervenir dans l’identification de l’Utilisateur et/ou de son représentant
  • Vous acceptez sans réserve de respecter les CGU en vigueur

Toute utilisation du Corpus dans des conditions violant les CGU sera susceptible de poursuites pour contrefaçon.

Conditions générales d’utilisation

Date de mise à jour : 01/04/2015

Présentation du Corpus

L’Institut national de l’audiovisuel (INA) met à la disposition de la communauté scientifique et technologique un corpus de documents audiovisuels issus de ses collections, de fiches documentaires et de métadonnées associées à ces documents. Ce corpus est destiné à la mise au point, l’expérimentation et l’évaluation d’outils de recherche et d’analyse de contenus multimédias dans un strict cadre de recherche scientifique. Le Corpus est situé sur un serveur FTP accessible par un login et un mot de passe fournis par l’Ina à l’Utilisateur (ci-après « le Serveur FTP »).

Le Corpus est mis à disposition aux conditions visées dans ces Conditions générales d’utilisation (CGU), à toute personne morale inscrite ayant préalablement accepté l’intégralité desdites CGU (ci-après dénommée « l’Utilisateur »).

Seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique.

L’Utilisateur reconnaît et accepte que le Corpus soit fourni « en l’état ».

Accès au Corpus

Seules sont autorisées à accéder au Corpus les personnes physiques travaillant sous le contrôle, l’autorité et la responsabilité de l’Utilisateur dans le cadre de travaux de recherche scientifique («Personnes autorisées»).

L’Utilisateur s’engage à s’assurer que le login et mot de passe permettant d’accéder au Serveur FTP ne soient communiqués qu’aux Personnes autorisées et demeurent strictement confidentiels.

Utilisation du Corpus

Le Corpus est mis à disposition de l’Utilisateur par l’Ina à titre gratuit, non-exclusif et non transférable, à des strictes fins de recherche scientifique.

Dans ce strict cadre de recherche scientifique, seules les Personnes autorisées pourront, pendant une durée de deux ans :

  • Copier le Corpus sur des serveurs sécurisés, sous la stricte responsabilité de l’Utilisateur et dédiés aux travaux de recherche scientifique de l’Utilisateur. Toute copie sur des serveurs non administrés par l’Utilisateur (notamment serveurs dans le Cloud) est interdite.
  • Expérimenter/évaluer/tester des outils de recherche et d’analyse de contenus multimédia.
  • Faire des démonstrations scientifiques auprès de tiers des Résultats de recherche incorporant tout ou partie du Corpus, uniquement dans le cadre de conférences et manifestations scientifiques relatives à l’analyse des contenus multimédia (à l’exclusion de toute communication au public en ligne de tout ou partie du Corpus).
  • Faire des démonstrations scientifiques de prototypes à partir de tout ou partie du Corpus, uniquement dans le cadre de conférences et manifestations scientifiques relatives à l’analyse des contenus multimédia (à l’exclusion de toute communication au public en ligne de tout ou partie du Corpus).

Toute utilisation du Corpus à d’autres fins ou dans d’autres conditions devra faire l’objet de l’accord préalable et écrit de l’Ina. Notamment, l’Utilisateur et les Personnes autorisées s’engagent à :

  • Ne pas accorder de sous-licence, vendre, distribuer, transférer, céder, prêter, louer, diffuser, communiquer ou mettre à la disposition de personnes non autorisées, de quelque manière que ce soit, tout ou partie du Corpus.
  • Ne pas modifier, ni créer des œuvres dérivées sur la base ou à partir du Corpus.
  • Ne pas utiliser le Corpus à des fins illégales ou illicites.
  • Ne pas rendre le Corpus accessible à des personnes non autorisées.
  • Ne pas utiliser tout ou partie du Corpus à des fins commerciales, et notamment ne pas utiliser le Corpus dans un produit commercialisable.

L’Utilisateur s’engage et veille à ce que les Personnes autorisées à utiliser le Corpus acceptent et respectent les stipulations des présentes CGU.

L’Utilisateur devra veiller à ce que toute Personne autorisée n’étant plus sous sa responsabilité cesse immédiatement d’accéder au Corpus et de l’utiliser.

Résultats et Publications

Les Publications et Résultats de recherche comprenant des éléments du Corpus (tels qu’imagettes ou extraits de notices) ne pourront être divulgués sans l’autorisation préalable et écrite de l’Ina.

L’Utilisateur s’engage à informer l’Ina de toute Publications scientifiques relatives aux travaux de recherche qu’il a menés à partir du Corpus.

L’Utilisateur s’engage à mettre gratuitement à disposition de l’Ina les Résultats générés à partir du Corpus, dans les conditions suivantes : Ces Résultats seront envoyés à l’adresse suivante dataset (at) ina.fr

L’Utilisateur qui fournit ces Résultats autorise :

  • leur dépôt sur le Serveur FTP, adjoints au Corpus ;
  • leur accès et leur utilisation par toutes Personnes autorisées à des strictes fins de recherche scientifiques, dans les mêmes conditions que celles du Corpus telles que visées aux présentes CGU.

Durée

Durée de l’Accès au Corpus

Le Corpus est accessible à compter du 01/06/2015 jusqu’au 31/12/2016. Cette durée pourra être prolongée pour une durée indéterminée par l’Ina.

Durée d’Utilisation du Corpus

Le Corpus pourra être utilisé sous la responsabilité de l’Utilisateur pendant une durée de deux (2) ans suivant l’envoi par l’Ina à l’Utilisateur de son login et mot de passe (la date du mail d’envoi faisant foi).

A l’issue de cette durée ou en cas de fin anticipée, l’Utilisateur s’engage à :

  • cesser toute utilisation du Corpus et de ses copies ;
  • effacer et faire effacer le Corpus ainsi que toutes ses copies.

Fin anticipée

L’Ina pourra mettre fin, sans indemnité ni préavis, à l’accès et à l’utilisation du Corpus avant le terme des durées susvisées dans les cas suivants :

  • en cas de non-respect des CGU par l’Utilisateur et/ou les Personnes autorisées,
  • en cas de réclamation d’ayants droit du Corpus,
  • en cas de cession, fusion ou acquisition de la structure de l’Utilisateur,
  • en cas de cessation de l’activité de recherche de l’Utilisateur.

Droits réservés

Le Corpus est protégé par la loi et notamment par les dispositions du Code de la Propriété Intellectuelle français.

Tous droits sur le Corpus sont donc strictement réservés.

L’Utilisateur et les Personnes autorisées n’acquièrent aucun droit de propriété intellectuelle sur le Corpus et ces éléments.

L’Utilisateur s’engage à veiller à ce qu’ils ne soient pas utilisés dans des conditions autres que celles expressément autorisées par les présentes CGU.

Mention de l’Ina

Toute utilisation du Corpus, des Résultats de recherche générés à partir du Corpus ainsi que toute Publication, autorisées dans les conditions visées aux présentes CGU, devront systématiquement mentionner l’origine du Corpus, en faisant référence à l’Ina.

Responsabilité de l’Utilisateur

La connexion au Serveur FTP et son utilisation se fait sous l’entière responsabilité de l’Utilisateur et à ses seuls risques.

L’Utilisateur déclare reconnaître et accepter les caractéristiques, les performances techniques, les limites et risques du réseau Internet.

Il lui appartient de prendre toutes mesures appropriées de façon à protéger ses propres données et/ou logiciels et/ou matériel contre toute atteinte, détournement, piratage, virus, programmes malfaisants ou intrusion.

L’Utilisateur est seul responsable de l’utilisation qu’il fait du Serveur FTP et/ou du Corpus et des abus effectués à partir ou au moyen du Serveur FTP et/ou du Corpus, notamment de leur utilisation illicite, non-conforme et/ou non autorisée. L’Utilisateur garantit l’Ina contre tout recours ou action exercé par tout tiers à ce titre.

Limitation de responsabilité de l’Ina

L’Ina ne garantit pas la disponibilité ni la régularité de l’accès au Serveur FTP. L’accès au Serveur FTP peut être interrompu par l’Ina à tout moment pour les besoins de sa maintenance ou pour cause de force majeure, l’Ina déclinant toute responsabilité de ce fait.

Il est entendu que le Corpus est fourni « en l’état ».

L'Ina ne garantit pas l'exactitude, la précision ni lexhaustivité des éléments du Corpus mis à disposition. En conséquence, l'Ina décline toute responsabilité pour toute imprécision, inexactitude ou omission portant sur ces éléments.

De manière générale, l’Ina ne peut en aucun cas être tenu pour responsable de tout dommage direct ou indirect qui résulterait de :

  • la connexion, d’une interruption, d’un dysfonctionnement quel qu’il soit du Serveur FTP et/ou découlant de l’utilisation ou de l’impossibilité d’utiliser le Serveur FTP,
  • l'utilisation du Corpus par l’Utilisateur et les Personnes autorisées.

Modification des CGU

L’Ina se réserve la possibilité de modifier à tout moment et sans préavis les CGU, afin notamment de prendre en compte toute évolution légale, réglementaire, éditoriale et/ou technique.

Les modifications des CGU prendront effet et seront opposables à l’Utilisateur dès leur publication sur le Serveur FTP.

La date de dernière mise à jour sera indiquée en haut du document.

Loi applicable

Les présentes CGU sont soumises à la loi française. Tout litige tenant à l’application, l’interprétation ou l’exécution des présentes CGU sera soumis aux juridictions françaises légalement compétentes.

Demander l'accès à un corpus à des fins de recherche