プレスリリース

千葉工業大学、ディープラーニングのための世界最大の動画キャプションデータセット「STAIR Actions キャプションデータセット」を開発

リリース発行企業:千葉工業大学

情報提供:

学校法人 千葉工業大学 人工知能・ソフトウェア技術研究センター(ステアラボ)と国立研究開発法人 産業技術総合研究所(産総研)と国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)は、世界最大で、日本語では初となる、動画キャプションデータセット「STAIR Actions キャプションデータセット」を構築しました。本データセットは79,822万本の動画に付与された399,233個のキャプション(動画内容を説明する日本語記述)からなります。ディープラーニングの訓練用データとして用いれば、動画を日本語に変換するモデルを構築することができます。  3月12日よりインターネットで公開します。


平成31年3月12日
報道機関 各位
学校法人 千葉工業大学

 ディープラーニングの長足の発展により様々な産業分野で人工知能の応用が行われるようになってきました。少子高齢化が進展する社会においては育児や介護など人を対象とした人工知能活用が大いに期待されています。そのためには人の動作の認識、認識した内容の言語化などの能力が必要になります。
 そこで、ステアラボと産総研とNEDOは2016年より人の動作のきめ細かい認識の研究に取り組んで来ました。ディープラーニングによってきめ細かい動作認識を実現するためには人の動作を収録した動画やその動画を日本語で記述したデータが大量に必要ですが、本プロジェクト※1ではディープラーニングによる動作認識モデル構築のための日常シーンをおさめた動作動画10万本からなるデータセット STAIR Actions ※2を構築し、昨年7月公開しました。今回STAIR Actionsに含まれる動画79,822本の動画に対して日本語で内容を記述した399,233個のキャプションデータセットを構築し、3月12日にインターネットで公開します。
 人の動作動画キャプションデータセットとしてはマイクロソフト社の26万件を超えて世界最大規模のデータセットとなります。また日本語では初の大規模データセットとなります。今までの欠落していた日本語キャプションの穴を埋めることにより、日本語に基づく動画と言語をつなぐマルチモーダル研究が一気に加速されることが期待されます。

【 技術の詳細 】
1 データセットの特徴

動画は昨年7月公開したSTAIR Actions所蔵の10万本に含まれる79,822本の中から8万本を選択
一本の動画あたり平均5つの日本語キャプション
キャプション総数:399,233個
キャプションは動画の内容を日本語で記述しており、記述は「誰が」「どこで」「何をしている」の3つの要素から構成されている
日常生活シーンが中心

2 公開情報


公開日 2019年3月12日
URL   https://sa-captions.stair.center/
学会発表:言語処理学会第25回年次大会(NLP2019) 2019年3月12日~15日 会場: 名古屋大学
利用範囲:人工知能研究目的に限る
費用:無償


※1 本プロジェクト
NEDO事業名:次世代人工知能・ロボット中核技術開発/次世代人工知能技術分野「きめ細かい動作認識の研究開発」
実施期間:2016年度~2019年度

※2 STAIR Actions
昨年7月公開した日常生活シーン約100,000本の動画データセット: 100種類の動作おのおのにつき約1000本の動画を収納。 http://actions.stair.center

  • はてなブックマークに追加