L’Institut national de l’audiovisuel (INA) met à la disposition de la communauté scientifique et technologique un corpus de documents audiovisuels issus de ses collections, de fiches documentaires et de métadonnées associées à ces documents.
Ce corpus est destiné à la mise au point, l’expérimentation et l’évaluation d’outils de recherche et d’analyse de contenus multimédias dans un strict cadre de recherche scientifique. Pour accéder au Corpus, vous devez être préalablement inscrit et avoir à disposition un client FTP vous permettant de télécharger le Corpus.
Le Corpus est mis à disposition aux conditions visées dans les Conditions générales d’utilisation (CGU) , à toute personne morale inscrite ayant préalablement accepté l’intégralité desdites CGU (ci-après dénommée « l’Utilisateur »).
Seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique.
Avant de soumettre votre demande d’inscription, vérifiez que tous les champs obligatoires (suivis d’un astérisque) ont été renseignés.
Votre demande sera envoyée à l’Ina pour examen. Après validation de votre demande, vous recevrez par courriel de confirmation les coordonnées du serveur FTP ainsi que les login et mot de passe confidentiels attribués à votre Organisation lui permettant d’accéder au Corpus.
Date de mise à jour : 01/04/2015
L’Institut national de l’audiovisuel (INA) met à la disposition de la communauté scientifique et technologique un corpus de documents audiovisuels issus de ses collections, de fiches documentaires et de métadonnées associées à ces documents. Ce corpus est destiné à la mise au point, l’expérimentation et l’évaluation d’outils de recherche et d’analyse de contenus multimédias dans un strict cadre de recherche scientifique. Le Corpus est situé sur un serveur ftp accessible par un login et un mot de passe fournis par l’Ina à l’Utilisateur (ci-après « le Serveur ftp »).
Le Corpus est mis à disposition aux conditions visées dans ces Conditions générales d’utilisation (CGU), à toute personne morale inscrite ayant préalablement accepté l’intégralité desdites CGU (ci-après dénommée « l’Utilisateur »).
Seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique.
L’Utilisateur reconnaît et accepte que le Corpus soit fourni « en l’état ».
Seules sont autorisées à accéder au Corpus les personnes physiques travaillant sous le contrôle, l’autorité et la responsabilité de l’Utilisateur dans le cadre de travaux de recherche scientifique («Personnes autorisées»).
L’Utilisateur s’engage à s’assurer que le login et mot de passe permettant d’accéder au Serveur ftp ne soient communiqués qu’aux Personnes autorisées et demeurent strictement confidentiels.
Le Corpus est mis à disposition de l’Utilisateur par l’Ina à titre gratuit, non-exclusif et non transférable, à des strictes fins de recherche scientifique.
Dans ce strict cadre de recherche scientifique, seules les Personnes autorisées pourront, pendant une durée de deux ans :
Toute utilisation du Corpus à d’autres fins ou dans d’autres conditions devra faire l’objet de l’accord préalable et écrit de l’Ina.
Notamment, l’Utilisateur et les Personnes autorisées s’engagent à :
L’Utilisateur s’engage et veille à ce que les Personnes autorisées à utiliser le Corpus acceptent et respectent les stipulations des présentes CGU.
L’Utilisateur devra veiller à ce que toute Personne autorisée n’étant plus sous sa responsabilité cesse immédiatement d’accéder au Corpus et de l’utiliser.
Les Publications et Résultats de recherche comprenant des éléments du Corpus (tels qu’imagettes ou extraits de notices) ne pourront être divulgués sans l’autorisation préalable et écrite de l’Ina.
L’Utilisateur s’engage à informer l’Ina de toute Publications scientifiques relatives aux travaux de recherche qu’il a menés à partir du Corpus.
L’Utilisateur s’engage à mettre gratuitement à disposition de l’Ina les Résultats générés à partir du Corpus, dans les conditions suivantes :
Ces Résultats seront envoyés à l’adresse suivante dataset@ina.fr
L’Utilisateur qui fournit ces Résultats autorise :
Le Corpus est accessible à compter du 01/06/2015 jusqu’au 31/12/2016. Cette durée pourra être prolongée pour une durée indéterminée par l’Ina.
Le Corpus pourra être utilisé sous la responsabilité de l’Utilisateur pendant une durée de deux (2) ans suivant l’envoi par l’Ina à l’Utilisateur de son login et mot de passe (la date du mail d’envoi faisant foi).
A l’issue de cette durée ou en cas de fin anticipée, l’Utilisateur s’engage à :
L’Ina pourra mettre fin, sans indemnité ni préavis, à l’accès et à l’utilisation du Corpus avant le terme des durées susvisées dans les cas suivants :
Le Corpus est protégé par la loi et notamment par les dispositions du Code de la Propriété Intellectuelle français.
Tous droits sur le Corpus sont donc strictement réservés.
L’Utilisateur et les Personnes autorisées n’acquièrent aucun droit de propriété intellectuelle sur le Corpus et ces éléments.
L’Utilisateur s’engage à veiller à ce qu’ils ne soient pas utilisés dans des conditions autres que celles expressément autorisées par les présentes CGU.
Toute utilisation du Corpus, des Résultats de recherche générés à partir du Corpus ainsi que toute Publication, autorisées dans les conditions visées aux présentes CGU, devront systématiquement mentionner l’origine du Corpus, en faisant référence à l’Ina.
La connexion au Serveur ftp et son utilisation se fait sous l’entière responsabilité de l’Utilisateur et à ses seuls risques.
L’Utilisateur déclare reconnaître et accepter les caractéristiques, les performances techniques, les limites et risques du réseau Internet.
Il lui appartient de prendre toutes mesures appropriées de façon à protéger ses propres données et/ou logiciels et/ou matériel contre toute atteinte, détournement, piratage, virus, programmes malfaisants ou intrusion.
L’Utilisateur est seul responsable de l’utilisation qu’il fait du Serveur ftp et/ou du Corpus et des abus effectués à partir ou au moyen du Serveur ftp et/ou du Corpus, notamment de leur utilisation illicite, non-conforme et/ou non autorisée. L’Utilisateur garantit l’Ina contre tout recours ou action exercé par tout tiers à ce titre.
L’Ina ne garantit pas la disponibilité ni la régularité de l’accès au Serveur ftp. L’accès au Serveur ftp peut être interrompu par l’Ina à tout moment pour les besoins de sa maintenance ou pour cause de force majeure, l’Ina déclinant toute responsabilité de ce fait.
Il est entendu que le Corpus est fourni « en l’état ».
LIna ne garantit pas lexactitude, la précision ni lexhaustivité des éléments du Corpus mis à disposition. En conséquence, lIna décline toute responsabilité pour toute imprécision, inexactitude ou omission portant sur ces éléments.
De manière générale, l’Ina ne peut en aucun cas être tenu pour responsable de tout dommage direct ou indirect qui résulterait de :
L’Ina se réserve la possibilité de modifier à tout moment et sans préavis les CGU, afin notamment de prendre en compte toute évolution légale, réglementaire, éditoriale et/ou technique.
Les modifications des CGU prendront effet et seront opposables à l’Utilisateur dès leur publication sur le Serveur Ftp.
La date de dernière mise à jour sera indiquée en haut du document.
Les présentes CGU sont soumises à la loi française. Tout litige tenant à l’application, l’interprétation ou l’exécution des présentes CGU sera soumis aux juridictions françaises légalement compétentes.
Date de mise à jour : 22/02/2018
L’Institut national de l’audiovisuel (INA) met à la disposition de la communauté scientifique et technologique un corpus de documents audiovisuels issus de ses collections, de fiches documentaires et de métadonnées associées à ces documents.
Ce corpus est constitué de plusieurs sous-corpus dont la sélection a été effectuée de diverses façons (thématique, chronologique, etc.) par les équipes de l’Ina afin de répondre à des considérations de recherche.
La description des sous-corpus est donnée ci-dessous. Les chiffres et formats sont donnés à titre indicatif.
Intégralité des journaux télévisés de 20 heures de France2 du 1er janvier au 30 juin 2007 accompagnés de leurs notices documentaires.
Nom : 2007 F2, 6 mois de 20 heures
Nombre de documents vidéo : 181
Format des médias : MPEG-1
Source : France2
Durée totale : ~100 heures
Période couverte : 1 janvier 2007 – 30 juin 2007
Nombre de notices documentaires : 181 notices sommaires et ~4500 notices sujet
Format des notices documentaires : XML/MS-Word
Dossier : /f2jt2007
Ce corpus a été utilisé dans la tâche de reconnaissance de personne des campagnes d’évaluation MediaEval 2015 et MediaEval 2016 (voir https://github.com/MediaevalPersonDiscoveryTask/).
Corpus constitué de documents télévisés collectés dans le cadre du projet Mex-Culture (Indexation de collections multimédia pour la préservation et la dissémination de la culture mexicaine).
Nom : MEXaction
Nombre de documents vidéo : 114
Format des médias : MPEG-1
Source : Les Actualités Françaises, ORTF, TF1, FR2, FR3
Durée totale : ~77 heures
Période couverte : 1942 – 2011
Nombre de notices documentaires : 114
Format des notices documentaires : XML/MS-Word
Dossier : /mexaction
Ce corpus fait également partie du jeu de données MEXAction2 (voir http://mexculture.cnam.fr/xwiki/bin/view/Datasets/Mex+action+dataset).
Trente années dactualités filmées (1940-1969), soit un bulletin hebdomadaire diffusé dans les salles de cinéma.
Nom : Actualités Françaises
Nombre de documents vidéo : ~22500
Format des médias : MPEG-4 AVC (H.264)
Source : Les Actualités Françaises
Durée totale : ~300 heures
Période couverte : 1940 – 1969
Nombre de notices documentaires : ~22500
Format des notices documentaires : XML/MS-Word
Dossier : /AF
Six captations télévisées de la pièce de théâtre de Molière, « Le Misanthrope ».
Nom : Misanthrope
Nombre de documents vidéo : 6
Format des médias : MPEG-4 AVC (H.264)
Source : ORTF, TF1, A2, FR3
Durée totale : ~12 heures
Période couverte : 1959 – 1980
Nombre de notices documentaires : 6
Format des notices documentaires : XML/MS-Word
Dossier : /misanthrope
50 ans de diffusion de l’émission radiophonique « Le Masque et la Plume » consacrée à la critique de livre, de théâtre et de cinéma.
Nom : Le Masque et la plume
Nombre de documents vidéo : ~2500
Format des médias : MPEG-1/2 Audio Layer 3 (MP3)
Source : ORTF, France Inter
Durée totale : ~1700 heures
Période couverte : 1955 – 2005
Nombre de notices documentaires : ~2500
Format des notices documentaires : XML/MS-Word
Dossier : /lemasqueetlaplume
Une semaine entière de flux centré autour de l’affaire Edward Snowden pour 3 chaînes de TV (France2, France5, France24) et 3 chaînes de radio (France Inter, France Info, France Culture).
Nom : Affaire Snowden
Nombre de documents vidéo : 1008
Format des médias : MPEG-4 AVC (H.264) et MPEG-1/2 Audio Layer 3 (MP3)
Source : France2, France5, France24, France Inter, France Info, France Culture
Durée totale : 1008 heures
Période couverte : 7 juin 2013 - 14 juin 2013
Nombre de notices documentaires : ~1000 par chaîne
Format des notices documentaires : XML/MS-Word
Dossier : /Snowden
Ce corpus a été utilisé dans la tâche de reconnaissance de personne de la campagne d’évaluation MediaEval 2016 (voir https://github.com/MediaevalPersonDiscoveryTask/).
Une semaine entière de flux centré autour du sacre de « The Artist » à la cérémonie des Oscars à Hollywood pour 3 chaînes de TV (France2, France5, France24) et 3 chaînes de radio (France Inter, France Info, France Culture).
Nom : The Artist
Nombre de documents vidéo : 1008
Format des médias : MPEG-4 AVC (H.264) et MPEG-1/2 Audio Layer 3 (MP3)
Source : France2, France5, France24, France Inter, France Info, France Culture
Durée totale : 1008 heures
Période couverte : 26 février 2012 – 4 mars 2012
Nombre de notices documentaires : ~1000 par chaîne
Format des notices documentaires : XML/MS-Word
Dossier : /theartist
Corpus constitué de documents radio-télévisés traitant du thème des attaques du 11 septembre 2001.
Nom : 11 septembre 2001
Nombre de documents vidéo : à définir
Format des médias : à définir
Source : à définir
Durée totale : à définir
Période couverte : à définir
Nombre de notices documentaires : à définir
Format des notices documentaires : XML/MS-Word
Dossier : /11septembre2001
Corpus de 10M de frames extraites de programmes télévisées (2010-2019) pour l’apprentissage du contexte visuel. Tous les visages ont été floutés. Le dataset est divisé en un jeu d’entraînement, de validation, de test et de vérification. Les frames sont organisées sous la forme de paires positives (càd comprenant des visages communs) et/ou de triplets, pour l’apprentissage et l’évaluation.
Nom : Visual context for TV Programs
Nombre de documents vidéo : 10000000
Format des médias : JPG
Source : N/A
Durée totale : N/A
Période couverte : 01 janvier 2010 - 31 décembre 2019
Nombre de notices documentaires : N/A
Format des notices documentaires : N/A
Dossier : /vctp