内容摘要 IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现
IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的 正反向全切分 以及 正反向最大匹配切分 两种算法,是Lucene Analyzer接口的实现,代码使用例子如下:
下载地址:
http://groups-beta.google.com/group/SegWord/web/IKAnalyzer.jar
正反向全切分算法:
import org.mira.lucene.analysis.IK_CAnalyzer <------- 引用类
import .....
public class IKAnalyzerTest extends TestCase {
RAMDirectory directory;
private IndexSearcher searcher;
public void setUp() throws Exception {
directory = new RAMDirectory();
IndexWriter writer = new IndexWriter(directory,
new IK_CAnalyzer(), <------- 实例化类
true);
Document doc = new Document();
doc.add(Field.Keyword("partnum", "Q36"));
doc.add(Field.Text("description", "Illidium Space Modulator"));
writer.addDocument(doc);
writer.close();
searcher = new IndexSearcher(directory);
}
public void testTermQuery() throws Exception {
Query query = new TermQuery(new Term("partnum", "Q36"));
Hits hits = searcher.search(query);
assertEquals(1, hits.length());
}
}
分词效果测试,命令行如下:
java -classpath IKAnalyzer.jar;lucene-core-2.0.0.jar org.mira.lucene.analysis.IK_CAnalyzer 中华人民共和国香港特别行政区
该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用“人民”搜索含“人民币”的文章,这是大部分用户的搜索思维;
不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上“人民”和“人民币”是完全搭不上关系的。
分词效果:
1.实现中文单词细粒度全切分
如:中华人民共和国
0 - 2 = 中华
0 - 4 = 中华人民
0 - 7 = 中华人民共和国
1 - 3 = 华人
2 - 4 = 人民
2 - 7 = 人民共和国
4 - 6 = 共和
4 - 7 = 共和国
2.实现对专有名词的识别和切分(人名,公司名)
如:陈文平是开睿动力通讯科技有限公司董事长
0 - 3 = 陈文平 <------ 人名,非汉语词汇
4 - 6 = 开睿 <------ 公司名,非汉语词汇
6 - 8 = 动力
8 - 10 = 通讯
10 - 12 = 科技
12 - 14 = 有限
12 - 16 = 有限公司
14 - 16 = 公司
16 - 18 = 董事
16 - 19 = 董事长
18 - 19 = 长
3.对数词和量词的合理切分
如:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡,20000余人受伤,近20万人无家可归。
0 - 1 = 据
1 - 4 = 路透社
4 - 6 = 报道
。。。。。。
18 - 20 = 官员
20 - 22 = 星期
20 - 23 = 星期二
22 - 23 = 二
24 - 26 = 29
24 - 27 = 29日
26 - 27 = 日
28 - 30 = 表示
31 - 33 = 日惹
33 - 34 = 市
。。。。。。
40 - 42 = 27
40 - 43 = 27日
43 - 44 = 晨
44 - 45 = 5
44 - 46 = 5时
45 - 46 = 时
46 - 48 = 53
46 - 49 = 53分
48 - 50 = 分发
。。。。。。
52 - 54 = 里氏
54 - 57 = 6.2
54 - 58 = 6.2级
57 - 58 = 级
58 - 60 = 地震
。。。。。。
66 - 70 = 5427
66 - 71 = 5427人
71 - 73 = 死亡
72 - 73 = 亡
74 - 79 = 20000
79 - 81 = 余人
81 - 83 = 受伤
84 - 85 = 近
85 - 87 = 20
85 - 89 = 20万人
87 - 89 = 万人
89 - 93 = 无家可归
最大匹配分词算法
实现类 : org.mira.lucene.analysis.MIK_CAnalyzer
效果测试命令行:
java -classpath IKAnalyzer.jar;lucene-core-2.0.0.jar org.mira.lucene.analysis.MIK_CAnalyzer 中华人民共和国香港特别行政区
分词效果:
例子:中华人民共和国香港特别行政区
0 - 7 = 中华人民共和国
7 - 14 = 香港特别行政区
例子:据路透社报道,印度尼西亚社会事务部一官员星期二(29日)表示,日惹市附近当地时间27日晨5时53分发生的里氏6.2级地震已经造成至少5427人死亡?,20000余人受伤,近20万人无家可归。
1 - 4 = 路透社
4 - 6 = 报道
7 - 12 = 印度尼西亚
12 - 14 = 社会
14 - 16 = 事务
18 - 20 = 官员
20 - 23 = 星期二
24 - 27 = 29日
28 - 30 = 表示
31 - 33 = 日惹
34 - 36 = 附近
36 - 40 = 当地时间
40 - 43 = 27日
44 - 46 = 5时
46 - 49 = 53分
48 - 50 = 分发
49 - 51 = 发生
50 - 52 = 生的
52 - 54 = 里氏
54 - 58 = 6.2级
58 - 60 = 地震
60 - 62 = 已经
62 - 64 = 造成
64 - 66 = 至少
66 - 71 = 5427人
71 - 73 = 死亡
75 - 80 = 20000
80 - 82 = 余人
82 - 84 = 受伤
86 - 90 = 20万人
90 - 94 = 无家可归
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=1492380
分享到:
- 2008-04-11 11:32
- 浏览 2006
- 评论(2)
- 论坛回复 / 浏览 (2 / 4028)
- 查看更多
相关推荐
因此将我搜集到的情感词典全部免费分享出来,主要包括台湾大学NTUSD简体中文情感词典+知网Hownet情感词典+清华大学李军中文褒贬义词典+BosonNLP+停用词,还有一些比较冷门的情感词典,需要的可以下载。
利用jieba完成对年报可读性分析所需词典(2个灵格斯词典+会计科目+会计术语+连词词典)
用于中文文本情绪识别等研究,内含知网Hownet+台湾大学NTUSD+清华大学李军中文褒贬义词典。
三个情感词典包括知网Hownet、台湾大学NTUSD、清华大学李军中文褒贬义词典,也还有其他词典和其他分类。
包含褒贬及其近义词,汉语情感词极值表,知网Hownet情感词典,台湾大学NTUSD简体中文情感词典,清华大学李军中文褒贬义词典
包含大量超级词典包,如:一、朗文当代英语词典第五版;二、朗文发音词典;三、牛津高阶英语学习词典第八版;四、韦伯斯特大学词典第十一版; 五、城市词典;六、剑桥高阶英语学习词典第三版;七、大英百科全书2010...
【汉化版】现代汉语词典+成语词典(S60v3 SIS)ABBYY Lingvo, 汉化版需要自签证,推荐使用塞班直签工具签证
python正向最大匹配分词和逆向最大匹配分词完整的源代码分享,运行使用后对相关技术人员很有分享价值,为开发人员节省开发时间和提高开发思路是很不错的选择
包含三个知名情感词典:知网Hownet、台湾大学NTUSD、清华褒贬义词典。 附其他词典和分类:褒贬词及其近义词、否定词典汉语情感词极值表、情感词典及其分类、情感词汇本体
pause copy IBM 智能词典2000.rar.001/b IBM 智能词典2000.rar copy IBM 智能词典2000.rar/b +IBM 智能词典2000.rar.002/b copy IBM 智能词典2000.rar/b +IBM 智能词典2000.rar.003/b copy IBM 智能...
包含三个知名情感词典:知网Hownet、台湾大学NTUSD、清华大学李军中文褒贬义词典。 附其他词典和分类:褒贬词及其近义词、否定词典汉语情感词极值表、情感词典及其分类、情感词汇本体
pause copy IBM 智能词典2000.rar.001/b IBM 智能词典2000.rar copy IBM 智能词典2000.rar/b +IBM 智能词典2000.rar.002/b copy IBM 智能词典2000.rar/b +IBM 智能词典2000.rar.003/b copy IBM 智能...
# 中文情感分析常用词典 该库收集了包含 * 知网Hownet情感词典 * 台湾大学NTUSD简体中文情感词典 * 清华大学李军中文褒贬义词典 * BosonNLP
用于无监督分类的各种情感词典汇总,包括台大NTUSD,知网HowNet,清华大学褒贬义词典,大连理工大学情感词汇本体库DUTIR等等,附赠京东评论数据集
EBWin4.5.5 + 小学館·中日日中統合辞書第2版 + 三省堂大辞林 日语爱好者必备经典离线词典 小学馆与大辞林词库
整理过的情感词汇合集 台湾大学NTUSD 知网情感字典 清华褒贬词汇 汉语情感字典
情感词典(清华大学的)+程度(知网的)+同义词词林(第二种格式的)+停用词 utf-编码,txt格式
只需把解压出来的文件全部复制到 "/usr/share/stardict/dic" 和 "~/.stardict/dic"中就可以了