书名识别

Jump to bottom

Honghe edited this page Aug 31, 2018 · 4 revisions

Demo

Code

DicLibrary.insert(DicLibrary.DEFAULT, "现代汉语文本切分与词性标注规范v1.0", "n", 1000000);
System.out.println(DicAnalysis.parse("北大计算语言学研究所从 1992 年开始进行汉语语料库的多级加工研究。第一步是对原\n" + "始语料进行切分和词性标注。1994 年制订了《现代汉语文本切分与词性标注规范Ｖ1.0》。")
    .recognition(new BookRecognition()).getTerms().toString());

output

[北大/j, 计算/v, 语言学/n, 研究所/n, 从/p,  , 1992/m,  , 年/q, 开始/v, 进行/v, 汉语/nz, 
语料库/n, 的/uj, 多级/b, 加工/vn, 研究/vn, 。/w, 第一步/m, 是/v, 对/p, 原/b, 
, 始/vg, 语料/n, 进行/v, 切分/v, 和/c, 词性/n, 标注/v, 。/w, 1994/m,  , 年/q, 制订/v, 
了/ul, 《现代汉语文本切分与词性标注规范v1.0》/book, 。/w]