05 2019/06 07
26272829303101
02030405060708
09101112131415
16171819202122
23242526272829
30010203040506
Click セミナー

過去のセミナー

開催日2019年1月21日(月曜日)
開催時間17時00分-18時00分
発表者森下 睦 
発表者の紹介NTTコミュニケーション科学基礎研究所
タイトルニューラル機械翻訳と文字列のつながり  
発表の概要
近年,深層学習の台頭により機械翻訳モデルはほぼすべてニューラルネットワークベースのものに置き換えられた.
これにより,これまで難しいとされていたいくつかの問題が解決されたが,同時に新たな問題も発生した.
この一つに,ニューラル機械翻訳では大規模な語彙を扱えないという問題がある.
通常機械翻訳では数十万の語彙を入出力に使用するが,ニューラル機械翻訳ではニューラルネットワークの特徴上多くても10万程度の語彙しか使用できない.
この問題を軽減する方法として,文字列データ圧縮に関する研究を基に,各単語をより小さいサブワードと呼ばれる単位に分割し語彙の異なり数を減らす手法が提案され,翻訳精度が大幅に向上した.
本発表では,これらのニューラル機械翻訳で使われるサブワードに関連する文献を紹介し,ニューラル機械翻訳と文字列情報処理とのつながりについて述べる.
また,私が最近取り組んだ新たなサブワード使用法についても簡単に紹介する.
開催場所VBL301B
接続サイト神田ラボ,京大ラボ