Commit Graph

  • 9c34f0fd9a 科學院=科学院 科學系=科学系 tony 2015-08-04 10:43:40 +08:00
  • 289d31d552 Suggester 增加removeAllSentences方法:https://github.com/hankcs/HanLP/issues/38 hankcs 2015-07-27 22:07:30 +08:00
  • 27149388a7 CRFModel支持BiGram Feature Template,成为通用的模型类 hankcs 2015-07-21 15:47:31 +08:00
  • 57d069055f 新增加了一些工具,开放了对内部词库的动态读写 hankcs 2015-07-20 19:30:43 +08:00
  • 6f8a810ebb Portable同步升级到v1.2.4 hankcs 2015-07-12 20:57:02 +08:00
  • 111fa2b448 提高动态插入用户词语时的健壮性 hankcs 2015-07-12 19:47:38 +08:00
  • f6b4abc601 去掉无用插件 hankcs 2015-07-12 18:03:45 +08:00
  • 4ac473d6f0 修复用户词典合并潜在的问题 hankcs 2015-07-12 17:48:35 +08:00
  • 7a0692bcb9 词典微调 hankcs 2015-07-12 17:39:17 +08:00
  • 36988ba60c Portable同步升级到v1.2.4 hankcs 2015-07-12 17:35:07 +08:00
  • cf14be6dac 健壮化 v1.2.4 hankcs 2015-07-12 15:43:02 +08:00
  • b219c3a28e 基于用户词典的合并提前到紧接NGram切分后 hankcs 2015-07-12 15:37:09 +08:00
  • 8d388ba7db 调整用户词典作用为:分词后使用用户词典合并相邻词语 hankcs 2015-07-12 15:29:17 +08:00
  • b367c51c46 调整时量词词性https://github.com/hankcs/HanLP/issues/34 hankcs 2015-07-08 12:43:52 +08:00
  • 3ace784237 小优化 hankcs 2015-07-04 17:12:21 +08:00
  • 504055fd96 完善文档 hankcs 2015-07-04 17:09:05 +08:00
  • 0a40f57785 com.hankcs.hanlp.collection.trie.DoubleArrayTrie.Searcher.next提供对空白字符串的支持 hankcs 2015-07-04 17:05:11 +08:00
  • d24b6e1798 fixed issue https://github.com/hankcs/HanLP/issues/33 hankcs 2015-07-04 16:37:02 +08:00
  • 870b481749 防御性代码 hankcs 2015-07-04 16:18:09 +08:00
  • 1c089dda69 文档 hankcs 2015-07-04 10:49:39 +08:00
  • e4adc73b67 “葵花”收录为企业字号 hankcs 2015-07-04 10:48:49 +08:00
  • 247ebd95f4 自动校验CoreNatureDictionary.ngram.txt的缓存与CoreNatureDictionary.txt的缓存的一致性 hankcs 2015-07-01 19:20:43 +08:00
  • 13a25a8a77 Merge remote-tracking branch 'origin/master' hankcs 2015-07-01 19:09:59 +08:00
  • d7c1f86890 克林顿的词性应该为nrf hankcs 2015-07-01 19:09:35 +08:00
  • 53fe744b1d 更新文档 hankcs 2015-06-30 22:01:24 +08:00
  • 501c4e0225 清理无用代码 hankcs 2015-06-30 21:50:54 +08:00
  • 49ce793d57 求解两个数组中最相近的数更新到一种O(n)时间的算法 hankcs 2015-06-30 20:49:08 +08:00
  • e6d0a70d3c 算法命名规范化 hankcs 2015-06-30 20:42:29 +08:00
  • 2f1a3e17fc 限定class HanLP为工具类 hankcs 2015-06-29 20:39:43 +08:00
  • 1fd9a3d00b Merge remote-tracking branch 'origin/master' hankcs 2015-06-29 20:35:14 +08:00
  • c8b67c01ec 默认关闭字符正规化 hankcs 2015-06-29 20:34:57 +08:00
  • 268ebdb7f5 现阶段词典分隔符统一使用空格 hankcs 2015-06-29 11:36:11 +08:00
  • 63eba3c8ce 词典加载期间提供更人性化的报错信息 hankcs 2015-06-23 17:58:07 +08:00
  • baa3014dbf 优化地名识别模块对短地名的处理 hankcs 2015-06-22 17:06:36 +08:00
  • d80c816f68 优化地名识别 hankcs 2015-06-22 16:54:43 +08:00
  • 3aa99d66a6 nr词典微调 hankcs 2015-06-22 16:33:16 +08:00
  • e8940eb8d5 用户词典微调 hankcs 2015-06-08 18:26:33 +08:00
  • a0aeebf807 KeywordExtractor排除空格换行等 hankcs 2015-06-08 18:11:25 +08:00
  • d56c9b6b0c fixed issue https://github.com/hankcs/HanLP/issues/22 hankcs 2015-05-27 16:29:34 +08:00
  • 90cd0a5286 完善文档 v1.2.3 hankcs 2015-05-26 16:44:25 +08:00
  • 9100577d70 累积了一些优化与issue fix,小版本+1 hankcs 2015-05-26 16:27:14 +08:00
  • 5bd213f80b newE的标签应该为end hankcs 2015-05-21 14:33:16 +08:00
  • 8cc1a5fe33 修改日志 hankcs 2015-05-21 12:43:12 +08:00
  • 797d2d57ea 防止原子分词造成图不连通 hankcs 2015-05-21 11:41:20 +08:00
  • aa9f3fa9f0 类的域不用初始化 hankcs 2015-05-21 10:27:07 +08:00
  • 11e4245cf0 数词合并:零○〇一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟 hankcs 2015-05-20 18:58:43 +08:00
  • e5846df628 人名词典微调 hankcs 2015-05-20 18:53:18 +08:00
  • 8ca2fbeb9f 人名词典微调 hankcs 2015-05-20 18:48:04 +08:00
  • 4c1dbcf429 数词合并:零○一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟 hankcs 2015-05-20 18:38:02 +08:00
  • c34d3ebbc7 数词合并:零○一二两三四五六七八九十廿百千万亿壹贰叁肆伍陆柒捌玖拾佰仟 hankcs 2015-05-20 18:32:58 +08:00
  • c2d35837a8 机构名识别效果优化 hankcs 2015-05-20 17:01:37 +08:00
  • a646d40342 中院 j 1 nis 1 hankcs 2015-05-20 16:51:57 +08:00
  • 54d01f1a04 调整CharTable,修复字符规范化导致的空格变成\u0000问题:https://github.com/hankcs/HanLP/issues/17#issuecomment-103777731 hankcs 2015-05-20 16:47:13 +08:00
  • c72965a4e5 调整CharTable,修复字符规范化导致的空格变成\u0000问题:https://github.com/hankcs/HanLP/issues/17#issuecomment-103777731 hankcs 2015-05-20 16:30:06 +08:00
  • 954077d22d 调整平滑参数,使得两个节点的代价一定比一个大:https://github.com/hankcs/HanLP/issues/19 hankcs 2015-05-20 15:57:47 +08:00
  • 160fe01ec9 调整月日与点钟的时量词词性:https://github.com/hankcs/HanLP/issues/17 hankcs 2015-05-19 18:09:49 +08:00
  • f38bb1802e 更详细的文档 hankcs 2015-05-19 13:05:36 +08:00
  • 74050be9b6 HanLP.segment 也支持了字符正规化功能 hankcs 2015-05-18 20:16:04 +08:00
  • 74e7e2803f 增加了字符正规化功能:https://github.com/hankcs/HanLP/issues/15 hankcs 2015-05-18 16:21:15 +08:00
  • 29456b165e 修正Portable对模型路径的判断逻辑 hankcs 2015-05-15 20:29:27 +08:00
  • b69cbde958 Portable同步升级到v1.2.2,内置了用户词典,可以通过Maven直接引入,零配置 hankcs 2015-05-15 19:48:26 +08:00
  • 261e3f6b54 Portable同步升级到v1.2.2,内置了用户词典:https://github.com/hankcs/HanLP/pull/14 hankcs 2015-05-15 19:18:41 +08:00
  • be1942b1cc Portable同步升级到v1.2.2,内置了用户词典:https://github.com/hankcs/HanLP/pull/14 hankcs 2015-05-15 19:14:00 +08:00
  • b62f7d9919 Portable同步升级到v1.2.2,内置了用户词典:https://github.com/hankcs/HanLP/pull/14 hankcs 2015-05-15 19:12:29 +08:00
  • 465a66fce4 解决内部泛型类在旧版Eclipse或MyEclipse下的编译问题 hankcs 2015-05-15 10:28:06 +08:00
  • f2c25059f1 TextRankKeyword内部由BinTrie改为TreeMap,降低内存占用 hankcs 2015-05-15 10:21:05 +08:00
  • 11e31f0ef0 微调词典 hankcs 2015-05-13 22:26:12 +08:00
  • 161001a3c0 添加文档,微调词典 hankcs 2015-05-13 21:50:11 +08:00
  • becf924fbe TextRankSentence使用StandardTokenizer hankcs 2015-05-13 21:30:40 +08:00
  • a1cbd91033 修复了CRF分词中标点粘附现象 hankcs 2015-05-11 19:33:53 +08:00
  • b0233d55f4 只针对大文本开启多线程分词 hankcs 2015-05-11 14:33:55 +08:00
  • f64857624b 只针对大文本开启多线程分词 hankcs 2015-05-11 14:31:40 +08:00
  • ed7ff38902 只针对大文本开启多线程分词 v1.2.2 hankcs 2015-05-11 14:06:03 +08:00
  • ee50d55c72 分词器全面支持并行化enableMultithreading(int threadNumber),小版本+1 hankcs 2015-05-11 13:26:18 +08:00
  • 621178ec75 fixed issue https://github.com/hankcs/HanLP/issues/11 hankcs 2015-05-08 14:55:48 +08:00
  • 8803d8f807 fixed issue https://github.com/hankcs/HanLP/issues/10 v1.2.1 hankcs 2015-05-08 11:47:36 +08:00
  • 5ce3471b17 添加二阶隐马(TriGram三元文法)分词器的使用说明 hankcs 2015-05-07 22:44:07 +08:00
  • 47c95f5ec5 添加二阶隐马(TriGram三元文法)分词器的使用说明 hankcs 2015-05-07 22:43:09 +08:00
  • 85f62a827e 添加二阶隐马(TriGram三元文法)分词器的使用说明 v1.2.0 hankcs 2015-05-07 21:26:52 +08:00
  • 5524177272 去掉调试输出 hankcs 2015-05-07 21:11:53 +08:00
  • 141cb9a0eb 优化数量词最小粒度的切分 hankcs 2015-05-07 20:18:21 +08:00
  • c7f866b86f 增加了HMM-TriGram分词器,中版本+1 hankcs 2015-05-07 19:17:57 +08:00
  • d9c86252b8 添加二阶隐马(TriGram三元文法)分词器的使用说明 hankcs 2015-05-07 19:11:52 +08:00
  • 4e4aa6bf2b 重构 hankcs 2015-05-07 18:59:09 +08:00
  • 2f692ca3f8 2阶HMM分词器补充注释 hankcs 2015-05-07 17:29:40 +08:00
  • 2a0a718f09 我实现了一个基于Character Based TriGram的分词器 hankcs 2015-05-07 17:12:10 +08:00
  • 7f008891de 分词器支持数词和数量词识别 hankcs 2015-05-06 18:50:08 +08:00
  • 16dc1e01c9 N最短路径分词演示 hankcs 2015-05-06 11:51:54 +08:00
  • e2b6b59582 去掉NGram中无用的条目 hankcs 2015-05-06 11:34:44 +08:00
  • 6504618f09 演示如何去除停用词 hankcs 2015-05-06 11:28:14 +08:00
  • 7f3f4baacb 演示如何使用停用词词典 hankcs 2015-05-06 11:13:21 +08:00
  • 2d26ec38b0 去掉NGram中无用的条目 hankcs 2015-05-06 11:09:57 +08:00
  • d30e16192e CRF分词模型第一个字不可能是M或E hankcs 2015-05-06 10:24:04 +08:00
  • 1149ae31b2 加入了一些防止缓存不兼容的安全措施 hankcs 2015-05-04 18:08:02 +08:00
  • f2e3f70bc6 “当红”应该作为一个词 hankcs 2015-05-04 17:20:31 +08:00
  • 72d7482ee7 增加了几个方法 hankcs 2015-05-04 16:45:50 +08:00
  • d4051ca4f1 更新支持maven的说明,可以直接在pom.xml中引入,零配置 hankcs 2015-05-03 13:06:38 +08:00
  • 5de69dd5f1 更新支持maven的说明 hankcs 2015-05-03 13:04:52 +08:00
  • d250a12d72 词典由AhoCorasickDoubleArrayTrie降级为DoubleArrayTrie,版本+1 v1.1.5 hankcs 2015-05-02 23:20:56 +08:00
  • 9425a6c9e8 词库调整 hankcs 2015-05-02 23:19:31 +08:00