添加issue模板、pr模板、贡献说明，规范项目运行

hankcs · hankcs · commit 221d2a9e1527 · 2017-05-02T00:19:39.000-05:00
diff --git a/.github/CONTRIBUTING.md b/.github/CONTRIBUTING.md
@@ -7,10 +7,12 @@
 ## 项目初衷
 自然语言处理本来是一个小众的圈子，综合了多个交叉学科的领域知识。不但需要较深的数学基础，还需要实现复杂算法的工程能力，并且语言学知识也不可或缺。 
 HanLP作为一个开源自由的项目，初衷是降低上述理论门槛，普及统计自然语言处理到生产环境中去。即使只是一个抛砖引玉的项目，也有其坚持的东西。
-为什么走统计自然语言处理的方向？因为我不喜欢那些自作聪明的“人工规则”“评分公式”，以及靠此存活的系统或“专家”。这些“人肉智能”及其机械工作应当逐步被机器替代掉。
+为什么走统计自然语言处理的方向？因为“人工规则”“评分公式”过于主观而死板，无法处理灵活的语言现象。汉语言优美而含蓄的语义蕴含在海量的语料中，需要通过灵活的模型与高效的算法去捕捉，而不是僵硬的规则去生搬硬套。而且任何语言都是随着时间不断发展的生命体，融合了所有使用者的集体智慧，没有万能公式，只能以数据驱动的方式建模分析。
 很高兴最初的想法得到了越来越多的赞同，有越来越多的公司和个人开始关注语料库建设，开始转型到统计模型。
 HanLP核心代码几乎全部配有注释和附属说明文档。衷心希望第一次接触自然语言处理的工程师，也能看懂代码的关键，并最终参与开源，一起完善这个不完美的小项目。 
-HanLP所有代码和文章都注明了大量的论文引用，一些第三方代码也保留了全部署名。希望大家尊重提出了该算法的学者老师、实现了该算法的开源作者。HanLP能在这些研究成果上改进算法，大家能在HanLP上做商业应用，归根结底全是他们的功劳。也希望借此激发大家对底层算法的兴趣，了解原理才能评估一项技术的优缺点。
+HanLP所有代码和文章都注明了大量的论文引用，一些第三方代码也保留了全部署名。希望大家尊重提出了该算法的学者老师、实现了该算法的开源作者。HanLP能在这些研究成果上改进算法，大家能在HanLP上做商业应用，归根结底全是他们的功劳。也希望借此激发大家对底层算法的兴趣，了解原理才能评估一项技术的优缺点、选择最适合的技术。
+
+目前中国大陆的语料库建设不太理想，缺乏高质量的语料支撑精准的NLP系统。HanLP主要使用的2014人民日报语料也不例外，其中含有不少错误。这些错误不可能靠一个人的力量排除，只能靠众人合力校对。这是当时决定开源的一个重要原因，希望看到这条信息的人都能参与进来。不要仅仅伸手下载打包好的data.zip，而应该`git clone https://github.com/hankcs/HanLP.git`。遇到分词不准的时候，随时[调整模型](https://github.com/hankcs/HanLP#%E4%BF%AE%E6%94%B9%E6%96%B9%E6%B3%95)，随时把补丁`push`到开源版本库，随时从开源版本库`pull`他人的补丁。这才是开源项目应有的运作方式，也是HanLP与其他项目最大的不同。
 
 ## 开源项目定义
 世界上有很多开源项目，但按照目的而言只有两种：