Skip to content

v2.0.0-rc1 (First preview)

Pre-release
Pre-release
Compare
Choose a tag to compare
@eiennohito eiennohito released this 02 Dec 02:53
· 226 commits to master since this release

A first public preview of Juman++v2

Notable changes

  • Complete rewrite of Juman++
  • Improved analysis speed (>100x) versus v1, rnn models should take about ~1.8 as much as plain juman.
  • Improved model accuracy on Kyoto Corpus and KWDLC
  • Reduced model size
  • Reduced memory usage at analysis time
  • Juman++ is now can be used as a library (examples will come later)
  • Improved emoji support
% jumanpp
おめでとう🎉㊗️23歳かぁ〜若い〜✧
おめでとう おめでとう おめでとう 感動詞 12 * 0 * 0 * 0 "代表表記:おめでとう/おめでとう"
🎉 🎉 🎉 特殊 1 記号 5 * 0 * 0 "代表表記:🎉/* 絵文字種類:ACTIVITIES:EVENT 絵文字:PARTY_POPPER"
㊗️ ㊗️ ㊗️ 特殊 1 記号 5 * 0 * 0 "代表表記:㊗️/* 絵文字種類:SYMBOLS:ALPHANUM 絵文字:JAPANESE_CONGRATULATIONS_BUTTON"
23 23 23 名詞 6 数詞 7 * 0 * 0 "カテゴリ:数量 未知語:数字"
歳 さい 歳 接尾辞 14 名詞性名詞助数辞 3 * 0 * 0 "代表表記:歳/さい 準内容語"
かぁ〜 か か 助詞 9 接続助詞 3 * 0 * 0 "非標準表記:DPSL"
若い わかい 若い 形容詞 3 * 0 イ形容詞アウオ段 18 基本形 2 "代表表記:若い/わかい"
〜 〜 〜 特殊 1 記号 5 * 0 * 0 NIL
✧ ✧ ✧ 未定義語 15 その他 1 * 0 * 0 "未知語:その他 品詞推定:特殊"
EOS
  • Improved kaomoji support (thanks to neologd/unidic for this)

Breaking changes

  • In lattice output format, nodes have continious numbering.
  • Score values are considerably higher than in V1 (can see them in lattice output)
  • V2 doesn’t escape tabs and (half-width) spaces in all output formats (WONTFIX)
    • Generally, text-based output formats require your input not to contain half-width characters
    • There will be protobuf-based binary output formats which can handle such cases and they should be preferred for general text analysis
  • Juman++v2 can lie about readings if the nodes are non-distunguishable (WONTFIX until is Kyoto corpus is reading-annotated), 代表表記 are always correct.
辛い からい 辛い 形容詞 3 * 0 イ形容詞アウオ段 18 基本形 2 "代表表記:辛い/からい 反義:形容詞:甘い/あまい"
@ 辛い *からい* 辛い 形容詞 3 * 0 イ形容詞アウオ段 18 基本形 2 "代表表記:辛い/*つらい*"
こと こと こと 名詞 6 形式名詞 8 * 0 * 0 NIL
だ だ だ 判定詞 4 * 0 判定詞 25 基本形 2 NIL
EOS

Known issues

  • Provided model is not robust enough when analyzing spoken language with default settings. We hope to fix this problem before the main release. Please report such cases to twitter with #jumanpp hashtag.
% jumanpp
いろいろカスタマイズできてよさそうです
いろいろ いろいろ いろいろ 副詞 8 * 0 * 0 * 0 "代表表記:色々/いろいろ"
カスタマイズ カスタマイズ カスタマイズ 名詞 6 普通名詞 1 * 0 * 0 "自動獲得:Wikipedia Wikipediaリダイレクト:カスタム"
できて できて できる 動詞 2 * 0 母音動詞 1 タ系連用テ形 14 "代表表記:出来る/できる"
よ よ る 接尾辞 14 動詞性接尾辞 7 母音動詞 1 文語命令形 18 "代表表記:る/る"
さ さ する 接尾辞 14 動詞性接尾辞 7 サ変動詞 16 未然形 3 "代表表記:する/する"
そうです そうです そうだ 助動詞 5 * 0 助動詞そうだ型 29 デス列基本形 5 NIL
EOS
% jumanpp --global-beam 15
いろいろカスタマイズできてよさそうです
いろいろ いろいろ いろいろ 副詞 8 * 0 * 0 * 0 "代表表記:色々/いろいろ"
カスタマイズ カスタマイズ カスタマイズ 名詞 6 普通名詞 1 * 0 * 0 "自動獲得:Wikipedia Wikipediaリダイレクト:カスタム"
できて できて できる 動詞 2 * 0 母音動詞 1 タ系連用テ形 14 "代表表記:出来る/できる"
よ よ よい 形容詞 3 * 0 イ形容詞アウオ段 18 語幹 1 "代表表記:良い/よい 反義:形容詞:悪い/わるい"
さ さ さ 接尾辞 14 名詞性述語接尾辞 1 * 0 * 0 "代表表記:さ/さ カテゴリ:抽象物;数量 準内容語"
そうです そうです そうだ 接尾辞 14 形容詞性述語接尾辞 5 ナ形容詞 21 デス列基本形 29 "代表表記:そうだ/そうだ"
EOS