Commit Graph

  • 7d35473e4e 微调人名识别模型:https://github.com/hankcs/HanLP/issues/692 hankcs 2017-11-25 13:50:59 -06:00
  • 9d741cd582 一个有趣的歧义例子:"当下雨天地面积水分外严重" hankcs 2017-11-24 00:44:14 -06:00
  • 5632cf621f 清理无用变量 hankcs 2017-11-22 21:47:43 -06:00
  • cf540f9699 文档 hankcs 2017-11-22 17:43:10 -06:00
  • 706240f56b 索引模式可选分词结果最小颗粒度:https://github.com/hankcs/HanLP/issues/670 hankcs 2017-11-22 17:37:08 -06:00
  • 520884b738 删除现代汉语补充词库中的“检查和”:https://github.com/hankcs/HanLP/issues/684 hankcs 2017-11-20 22:49:35 -06:00
  • bfb71e52a5 删除2014人民日报ngram中的"未##团@长":https://github.com/hankcs/HanLP/issues/683 hankcs 2017-11-20 17:16:18 -06:00
  • 86f0449cce 修复LineIterator的构造问题 hankcs 2017-11-17 15:15:14 -06:00
  • e8a610fbe6 微调人名识别模型 hankcs 2017-11-17 09:38:53 -06:00
  • 15bc02c799 分词器多线程数默认系统CPU核心数 hankcs 2017-11-16 23:31:32 -06:00
  • 7e46406635 常规维护,小版本+1,发布v1.5.2 hankcs 2017-11-16 23:09:54 -06:00
  • 0edfa35d85 Merge branch 'master' into portable hankcs 2017-11-16 23:00:34 -06:00
  • d449337f5a 常规维护,小版本+1,发布v1.5.2 v1.5.2 hankcs 2017-11-16 22:59:27 -06:00
  • 1969ebde69 优化CommonDictionary的加载速度 hankcs 2017-11-16 22:53:55 -06:00
  • e50be032dc 提高自定义词条以空格开头或结尾时的健壮性 hankcs 2017-11-16 22:34:39 -06:00
  • 37ac0a50de 常规维护,小版本+1,发布v1.5.1 hankcs 2017-11-15 21:20:42 -06:00
  • 701144a7bf Merge branch 'master' into portable hankcs 2017-11-15 21:19:49 -06:00
  • 98b407dedf 常规维护,小版本+1,发布v1.5.1 v1.5.1 hankcs 2017-11-15 21:16:34 -06:00
  • 84bb82fc32 Merge remote-tracking branch 'origin/master' hankcs 2017-11-14 21:27:40 -06:00
  • 6a235c53cf 文档 hankcs 2017-11-14 21:27:24 -06:00
  • c33c0b468a 重构EnumItemDictionary hankcs 2017-11-14 21:14:20 -06:00
  • 5273272c16 Merge remote-tracking branch 'origin/master' hankcs 2017-11-13 20:35:24 -06:00
  • 6c8ea48407 typo hankcs 2017-11-12 08:34:15 -06:00
  • 5054cc61f0 Merge remote-tracking branch 'origin/master' hankcs 2017-11-11 21:27:59 -06:00
  • 94ffbbf926 LineIterator支持从BufferedReader构造 hankcs 2017-11-11 21:27:53 -06:00
  • 3d07aff28c 文档 hankcs 2017-11-09 11:10:22 -06:00
  • 59da720824 Merge remote-tracking branch 'origin/master' hankcs 2017-11-09 10:39:45 -06:00
  • 4c91ce70a6 修复Vector类相关问题:https://github.com/hankcs/HanLP/issues/669 hankcs 2017-11-09 10:39:17 -06:00
  • d27242533e word2vec加载方法统一异常 hankcs 2017-11-06 20:31:03 -06:00
  • 1569289731 word2vec去掉重复的训练入口 hankcs 2017-11-06 19:58:36 -06:00
  • 9ece90ddd5 参数命名语义化 hankcs 2017-11-05 22:02:16 -06:00
  • cd13131793 优化新词发现模块的内存占用:https://github.com/hankcs/HanLP/issues/667 hankcs 2017-11-05 16:58:09 -06:00
  • a27c6816f8 国内下载地址 hankcs 2017-11-04 11:38:22 -05:00
  • 3001e388db :triangular_flag_on_post:开源word2vec模块,中版本+1,发布v1.5.0 hankcs 2017-11-02 16:47:18 -05:00
  • 785b5cbcf4 Merge branch 'master' into portable hankcs 2017-11-02 16:44:43 -05:00
  • f06520b136 提高DocVectorModel健壮性 v1.5.0 hankcs 2017-11-02 16:43:35 -05:00
  • 3fe2e0fe4c merge hankcs 2017-11-02 16:41:15 -05:00
  • cedbeb88a8 Merge branch 'master' into portable hankcs 2017-11-02 16:33:55 -05:00
  • b9a3a58dff :triangular_flag_on_post:开源word2vec模块,中版本+1,发布v1.5.0 hankcs 2017-11-02 16:31:09 -05:00
  • a188b0235f :triangular_flag_on_post:开源word2vec模块,中版本+1,发布v1.5.0 hankcs 2017-11-02 16:30:20 -05:00
  • 26561d5bac :triangular_flag_on_post:开源word2vec模块 hankcs 2017-11-02 15:45:44 -05:00
  • a39f2ea7aa 简洁起见,docker图标只保留一个 hankcs 2017-11-02 11:59:35 -05:00
  • 0b92026ea7 校正一个繁简错误:https://github.com/hankcs/HanLP/issues/660 hankcs 2017-11-02 11:54:26 -05:00
  • 77221089ec :triangular_flag_on_post:开源新词发现模块 hankcs 2017-11-02 11:47:41 -05:00
  • 533504dcc9 测试用例 hankcs 2017-11-02 10:29:48 -05:00
  • cc4bbeb27c :checkered_flag:开源文本分类模块,新增情感分析示例,中版本+1,发布v1.4.0 v1.4.0 hankcs 2017-11-02 01:59:55 -05:00
  • e3f1b66d59 校正一个繁简错误:https://github.com/hankcs/HanLP/issues/664 hankcs 2017-11-02 01:44:43 -05:00
  • 67bb4fe13c :checkered_flag:开源文本分类模块,新增情感分析示例,中版本+1 hankcs 2017-11-02 01:39:41 -05:00
  • 1115f2dd36 Merge branch 'master' into portable hankcs 2017-11-02 01:36:37 -05:00
  • 0ec1080490 开源文本分类模块,新增情感分析示例 hankcs 2017-11-02 01:32:47 -05:00
  • 874d0d7d86 修订issue模板、pr模板、贡献说明,规范项目运行 hankcs 2017-11-02 00:37:29 -05:00
  • 5413e74719 Sentence和Word增加几个辅助方法 hankcs 2017-10-28 14:11:34 -05:00
  • b77714000b Sentence添加size、text、迭代器方法 hankcs 2017-10-28 13:50:59 -05:00
  • cbefa88d91 语料加载过滤隐藏文件 hankcs 2017-10-27 23:11:53 -05:00
  • 66e5d0d11b 预备发布 portable-1.3.5 hankcs 2017-10-22 00:05:42 -05:00
  • 3c05ba4f03 Merge branch 'master' into portable hankcs 2017-10-22 00:04:51 -05:00
  • 08456f052f :checkered_flag:积累了多项改进,小版本+1,发布v1.3.5 v1.3.5 hankcs 2017-10-21 23:59:39 -05:00
  • 73187105f4 支持98年人民日报的复合词语料格式,如"[中央/n 人民/n 广播/vn 电台/n]nt" hankcs 2017-10-21 23:46:45 -05:00
  • ff78339762 Merge pull request #647 from TylunasLi/master hankcs 2017-10-10 14:50:24 -05:00
  • 43519e4288 增加Issue623的测试用例,同时修复其他几个用例的问题 TylunasLi 2017-10-10 23:43:11 +08:00
  • 8b5d79df10 构建AtomNode的时候确保中文数字的词性为m; 字符类型统一使用CharType类中的常量,但TextUtility中的保留以便剥离使用 TylunasLi 2017-10-10 23:21:35 +08:00
  • 2c64b6d0d1 删除调试信息 hankcs 2017-10-08 08:47:31 -05:00
  • 14262f82f0 Merge remote-tracking branch 'origin/master' hankcs 2017-10-08 08:46:35 -05:00
  • 6b3e701762 Merge pull request #641 from TylunasLi/master hankcs 2017-10-03 10:34:24 -05:00
  • ef058c3d9b 之前未考虑到nature == null获取新词的状况,本次修复。 TylunasLi 2017-10-02 16:01:50 +08:00
  • b1f927f2ce 修复CRF分词后数词和字母词的标签,现在标签不再是nz,而分别是m和nx。 TylunasLi 2017-10-02 12:06:25 +08:00
  • 364dae9427 引入了bmes状态转移的限制,提高解码准确率和速度。 TylunasLi 2017-10-02 11:38:15 +08:00
  • fd0f84ee29 CRF使用的词性标注等方法移动到基类。服务其他单一分词模型 为CRF分词中的数字输出词性。 TylunasLi 2017-10-02 00:56:41 +08:00
  • 0d25f55cd2 将版本更新中删除的词典构建代码移动到Test。 TylunasLi 2017-10-02 00:29:16 +08:00
  • 9d84748a13 Merge pull request #2 from hankcs/master TylunasLi 2017-10-01 22:51:48 +08:00
  • aa203e54c8 enableCustomDictionaryForcing的开关逻辑 hankcs 2017-09-23 09:57:45 -05:00
  • c57895f148 新增一个提高用户词典优先级的开关:https://github.com/hankcs/HanLP/issues/633 hankcs 2017-09-23 09:39:44 -05:00
  • 5a5a0566e3 修复Nature.fromString和IOUtil.loadDictionary:https://github.com/hankcs/HanLP/issues/626 hankcs 2017-09-17 07:59:19 -05:00
  • 2077a2b179 Merge pull request #624 from AnyListen/master hankcs 2017-09-17 07:29:48 -05:00
  • 39f2f3d87f 人工微调人名识别模型:https://github.com/hankcs/HanLP/issues/622 hankcs 2017-09-17 07:28:43 -05:00
  • 4db1452d10 Merge pull request #623 from SimpleJian/master hankcs 2017-09-17 07:25:00 -05:00
  • ffe3bfb469 删除项目文件 Xiao_Alon 2017-09-11 16:12:03 +08:00
  • d661df79ab 为Term添加equal方法 Xiao_Alon 2017-09-11 16:08:04 +08:00
  • 9570c4a5bb fix chinese numbers link with roman numbers jian.li 2017-09-08 19:42:56 +08:00
  • 3f59c73ff1 简繁一多对应校验表/梁→梁樑(樑為梁的異體字,由簡體轉為繁體時僅需採用梁即可):https://github.com/hankcs/HanLP/issues/606 hankcs 2017-08-27 11:09:33 +08:00
  • 59368ff8d6 Merge pull request #597 from gonggawang/master hankcs 2017-08-06 11:36:10 +08:00
  • 501c797cc6 原来的文本摘要抽取方法无法指定句子之间的分隔符,因为逗号是默认分隔符之一,会造成抽取结果语义破碎。增加两个新的方法,在抽取文本摘要时指定句子分隔符。原来的抽取方法仍然会采用默认的句子分隔符。 wangdong 2017-08-05 09:40:00 +08:00
  • af19b76a78 Merge pull request #592 from Samurais/master hankcs 2017-07-29 11:04:56 +08:00
  • e891783dfd Remove microbadge version label Hai Liang Wang 2017-07-28 14:53:16 +08:00
  • 046a1c94ff Add docker image badge Hai Liang Wang 2017-07-28 14:51:40 +08:00
  • d50fe13b0f Merge pull request #589 from TylunasLi/master hankcs 2017-07-23 18:18:05 +08:00
  • f700ec9644 调整代码样式,和项目风格一致 TylunasLi 2017-07-23 11:26:20 +08:00
  • 1b24f6f831 支持读取包含BOM的文本文件 TylunasLi 2017-07-23 10:43:50 +08:00
  • 31f436755c 修正数字识别工具的错误,增加测试代码。 TylunasLi 2017-07-22 20:34:00 +08:00
  • 367fb9511f Merge pull request #1 from hankcs/master TylunasLi 2017-07-22 17:29:26 +08:00
  • 90f3572ea6 将“\t”等不可打印的字符视作分隔符:https://github.com/hankcs/HanLP/issues/584 hankcs 2017-07-18 23:09:15 +08:00
  • 2b98217ddd 修正“仙剑奇侠传”的拼音:https://github.com/hankcs/HanLP/issues/583 hankcs 2017-07-18 22:53:03 +08:00
  • 2427aa0be2 Merge remote-tracking branch 'origin/master' hankcs 2017-07-12 15:18:10 +08:00
  • da8f60f579 ngram模型支持热加载:https://github.com/hankcs/HanLP/issues/580 hankcs 2017-07-12 15:17:42 +08:00
  • b3e408d49b 修订词库 hankcs 2017-07-10 20:39:17 +08:00
  • e6222542d5 Merge pull request #578 from TylunasLi/master hankcs 2017-07-10 19:26:18 +08:00
  • 60e83ab144 修正全角年份识别中字符串长度错误 TylunasLi 2017-07-09 14:11:59 +08:00
  • e66af85ea4 开放TextRank关键词提取中的最大迭代次数参数:https://github.com/hankcs/HanLP/issues/577 hankcs 2017-07-07 21:19:24 +08:00
  • c053af2ce8 删除以分号开头的错误词语:https://github.com/hankcs/HanLP/issues/221#issuecomment-313594433 hankcs 2017-07-07 15:36:14 +08:00
  • f3ff635798 Merge pull request #573 from xu2333/fix_bug hankcs 2017-06-30 16:21:31 +08:00