Commit Graph

  • 017e1674d6 修改pom,添加scm hankcs 2015-05-02 12:44:09 +08:00
  • 4d8f99f26c 修改pom,发布到maven中央库 hankcs 2015-05-02 12:12:50 +08:00
  • ed903251e2 NR词典调整 hankcs 2015-05-02 00:52:42 +08:00
  • c9cd9650da IO修正 hankcs 2015-05-02 00:43:56 +08:00
  • 8abbc805a3 portable版开发完毕 hankcs 2015-05-01 23:20:50 +08:00
  • add9e21181 portable版移除外部词典 hankcs 2015-05-01 21:25:26 +08:00
  • 88d186d596 将主用户词典替换为质量较高体积较小的现代汉语词典,避免绑架用户的喜好 hankcs 2015-05-01 20:59:29 +08:00
  • 80fb8e2519 NotionalTokenizer支持更灵活的过滤器 hankcs 2015-05-01 20:43:20 +08:00
  • d1a2ccc5e8 机构角色词典修正 hankcs 2015-04-30 17:30:26 +08:00
  • 08134f420d Double Array Trie 多模式匹配修正 hankcs 2015-04-30 17:25:23 +08:00
  • 990b8a84f0 AhoCorasickSegment退出历史舞台 hankcs 2015-04-30 16:36:58 +08:00
  • b6ee8b0a63 回归传统Double Array Trie hankcs 2015-04-30 16:31:35 +08:00
  • 00042adbb8 优化了Double Array Trie的多模式匹配 hankcs 2015-04-30 15:48:17 +08:00
  • bb18f95478 大幅优化了HMM-Viterbi分词,训练了新CRF分词模型,小版本+1 v1.1.4 hankcs 2015-04-28 19:08:57 +08:00
  • fe83c693a8 Merge remote-tracking branch 'origin/master' hankcs 2015-04-28 19:06:10 +08:00
  • 127519f210 大幅优化了HMM-Viterbi分词,训练了新CRF分词模型,小版本+1 hankcs 2015-04-28 19:05:02 +08:00
  • 7684616fb9 Merge remote-tracking branch 'origin/master' hankcs 2015-04-28 14:46:41 +08:00
  • df8c436178 自定义词典加载期间排除空行 hankcs 2015-04-28 14:45:43 +08:00
  • 40667a59b5 大幅降低了人名识别的误命中率 hankcs 2015-04-27 16:12:38 +08:00
  • c498106b7a 优化CustomDictionary.insert的插入效果 hankcs 2015-04-27 11:36:46 +08:00
  • 623a455c6e quickAtomSegment支持浮点数识别 hankcs 2015-04-27 11:21:34 +08:00
  • 33d9f794a0 人工校对了一些BiGram的不合理串 hankcs 2015-04-27 00:10:41 +08:00
  • c2a82abc5c 机构名识别改用标准的Viterbi算法 hankcs 2015-04-26 23:08:27 +08:00
  • 9b368c5a65 词性标注修改为标准的Viterbi算法 hankcs 2015-04-26 22:38:44 +08:00
  • 9d5868974f 移除调试输出 hankcs 2015-04-26 21:47:07 +08:00
  • f3fbff6cbb 移除正则,提高效率 hankcs 2015-04-26 18:27:48 +08:00
  • df590366d3 优化构图方法,减少一个循环 hankcs 2015-04-26 17:45:39 +08:00
  • f272692c8f 优化WordNet的构造方法 hankcs 2015-04-26 12:07:25 +08:00
  • aee0cc3ff1 优化Viterbi算法的内存占用 hankcs 2015-04-26 00:53:04 +08:00
  • 6e92774035 Viterbi算法调整 hankcs 2015-04-26 00:12:07 +08:00
  • c38b8fad0c 使用线程安全的BE节点 hankcs 2015-04-24 23:11:35 +08:00
  • e8e1343d58 优化Viterbi方法,避免生成对象浪费时间 hankcs 2015-04-24 22:39:37 +08:00
  • 1b80fd6e23 分词细分词网和日本人名识别小幅优化 hankcs 2015-04-24 22:11:45 +08:00
  • 140e325611 最大熵模型加载小调整 hankcs 2015-04-24 00:10:59 +08:00
  • a7b1b4b792 字符表小修正 hankcs 2015-04-23 23:59:19 +08:00
  • 78d6476d6a 使CRF分词支持繁体,对英文和数词识别效果提升 hankcs 2015-04-23 23:51:16 +08:00
  • c221e3dd1a 预防兼容问题 hankcs 2015-04-23 15:18:32 +08:00
  • d6df0b2602 CRF分词算法改进 hankcs 2015-04-23 15:07:00 +08:00
  • 9791950543 CRF模型支持自定义Trie hankcs 2015-04-23 01:06:18 +08:00
  • 2f0a66fd15 优化CRF分词对数字和英文的分词效果 hankcs 2015-04-23 00:19:46 +08:00
  • d5899af007 我发现CRF分词逆向Viterbi解码比正向效果更好 hankcs 2015-04-23 00:05:24 +08:00
  • 94698917ef 使CRFSegmentModel灵活地支持BMES顺序不同的模型 hankcs 2015-04-22 23:47:48 +08:00
  • c6136dd2e1 CRFModel还原为通用的CRF模型类 hankcs 2015-04-22 23:33:56 +08:00
  • 3ff3c0a215 加强CRF分词模型加载失败时的错误提示 hankcs 2015-04-18 14:32:32 +08:00
  • b1b2a319f9 nrf和nsf触发识别音译人名识别 hankcs 2015-04-18 11:51:40 +08:00
  • a3d818d2b1 新增词语语义相似度计算,微调CRF分词算法 hankcs 2015-04-17 23:19:20 +08:00
  • 7d1c6d03a6 优化了CRF分词算法 hankcs 2015-04-15 23:33:04 +08:00
  • c82faae49b 积累了一些优化和调整,小版本+1 v1.1.3 hankcs 2015-04-15 16:36:31 +08:00
  • bc9ac9fb05 增加词性展示与否的配置选项 优化CRF分词 微调词典 hankcs 2015-04-15 15:59:07 +08:00
  • 90480d885e 优化BiGram词典,过滤掉不合理的细颗粒接续 hankcs 2015-04-12 23:32:33 +08:00
  • 28c924c45c 修复等效词串WORD_ID hankcs 2015-04-12 18:23:02 +08:00
  • ae8fa6d735 全部分词器增加断句分词接口 hankcs 2015-04-11 13:40:40 +08:00
  • b2a3e98350 修正停用词词典的编码问题 hankcs 2015-04-11 13:23:59 +08:00
  • 93bbcdcf58 添加演示自动去除停用词、自动断句的分词器 hankcs 2015-04-06 23:25:52 +08:00
  • c80461c914 完善文档 hankcs 2015-04-06 12:38:48 +08:00
  • 4475555b97 加强词典加载失败时的日志输出 hankcs 2015-04-04 18:37:37 +08:00
  • ff88345aec 分隔符拓充 hankcs 2015-04-03 19:29:39 +08:00
  • b8ba6e6244 将*号视作分隔符 hankcs 2015-04-03 18:00:06 +08:00
  • 79dbcb5182 小版本号+1 v1.1.2 hankcs 2015-04-02 21:25:43 +08:00
  • 0abd774752 fixed issue#2 hankcs 2015-04-02 17:04:03 +08:00
  • 717d8d02f2 增加开启SpeedTokenizer对英文和数字的识别配置方法 hankcs 2015-04-01 13:07:24 +08:00
  • 453ea981ee 更新说明 hankcs 2015-03-31 20:05:36 +08:00
  • 28583dd72f 修复当前路径下没有data时部分词典读取失败的问题 v1.1.1 hankcs 2015-03-31 19:32:26 +08:00
  • 0170928639 小版本号+1 hankcs 2015-03-31 19:27:47 +08:00
  • da84327426 修复当前路径下没有data时转移概率矩阵读取失败的问题 hankcs 2015-03-31 19:27:05 +08:00
  • 9bd94a5284 fixed issue#1 hankcs 2015-03-30 14:49:23 +08:00
  • 163a13e1c6 完善文档,微调接口 hankcs 2015-03-29 22:33:55 +08:00
  • bef9cb2db6 完善文档 v1.1.0 hankcs 2015-03-27 13:51:15 +08:00
  • b61761c82e 完善文档 hankcs 2015-03-27 13:49:37 +08:00
  • 9a7e49fbd7 完善文档 hankcs 2015-03-27 13:47:20 +08:00
  • 03ed8dbc63 完善文档 hankcs 2015-03-26 17:00:22 +08:00
  • 7c3174d0d2 全部IO使用UTF-8编码 hankcs 2015-03-26 16:46:20 +08:00
  • 27c2db389a 解决CRF依存句法模型在JDK1.6下的加载 hankcs 2015-03-26 15:44:19 +08:00
  • 7c7b2bfc11 jdk1.6, Apache License Version 2.0 hankcs 2015-03-26 15:32:38 +08:00
  • 579f91c794 jdk1.6, Apache License Version 2.0 hankcs 2015-03-26 15:29:35 +08:00
  • e82dd7898c 预备开源 hankcs 2015-03-26 15:20:04 +08:00
  • bfab4711d5 地址匹配调整至逆向最长匹配 hankcs 2015-03-20 23:00:08 +08:00
  • 3c7f8d270a 地址匹配调整至逆向最长匹配 hankcs 2015-03-14 13:12:06 +08:00
  • 2b842f364c 地址词典大幅拓充 hankcs 2015-03-13 22:05:12 +08:00
  • b50f850f8d 地址识别调整(即将大幅改进) hankcs 2015-03-13 13:27:19 +08:00
  • 5afd3bdccf 地址识别调整 hankcs 2015-03-12 20:19:28 +08:00
  • 5bce582417 升级到1.1,增加了地址识别功能 hankcs 2015-03-12 19:14:30 +08:00
  • 9d40c627c1 初步实现了地址识别 hankcs 2015-03-12 19:00:44 +08:00
  • 8c6ce7fde8 POI更新 hankcs'TP 2015-03-06 16:18:35 +08:00
  • ce0310991f 地址识别 hankcs 2015-03-06 11:19:00 +08:00
  • 3f0c9a4f22 基于双数组Trie树的整型自动机 hankcs 2015-02-16 23:08:27 +08:00
  • d54c824d24 初步尝试自动机长地址识别 hankcs 2015-02-16 21:38:06 +08:00
  • bda51291a3 支持jdk1.6 提高代码可重用性 hankcs 2015-02-12 17:33:46 +08:00
  • 0570952a42 文档 v1.0.0 hankcs 2015-02-04 11:55:32 +08:00
  • 2228b15e6c 提高健壮性 hankcs'TP 2015-02-02 14:19:43 +08:00
  • 484fa21e94 修正人名词典加载问题 hankcs 2015-01-29 23:14:50 +08:00
  • 9d81c0d0c6 音译人名和日本人名识别模块线程安全化 hankcs 2015-01-26 12:38:46 +08:00
  • 81007007a3 调节参数 hankcs 2015-01-23 23:42:24 +08:00
  • 49f159c06e 调节参数 hankcs 2015-01-23 23:00:22 +08:00
  • 7d3f6601d8 通用词典小幅调整 hankcs 2015-01-23 21:04:10 +08:00
  • 516e911d08 实现了ViterbiSegment,比DijkstraSegment性能更高,并优化了人名识别 hankcs 2015-01-19 23:30:02 +08:00
  • 88cc9d9f68 地名识别模式匹配升级到基于双数组Trie树的AhoCorasick自动机 hankcs 2015-01-19 17:07:02 +08:00
  • 3899448ed7 重构基于双数组Trie树的AhoCorasick自动机 hankcs 2015-01-19 16:37:26 +08:00
  • 915d230310 词典文件名不使用中文 hankcs 2015-01-17 15:49:12 +08:00
  • 60d0428851 小调整 hankcs 2015-01-15 22:56:37 +08:00