Update texts

forFudan · Jun 2, 2023 · eba2df3 · eba2df3
1 parent a19e301
commit eba2df3
Show file tree

Hide file tree

Showing 2 changed files with 28 additions and 28 deletions.
diff --git a/docs/learn.md b/docs/learn.md
@@ -721,7 +721,7 @@ A：如果字根字是两码，但字根本身比较罕用，那么会浪费一
 - 相重叠的两点，即「头」「冬」中的部分，同「二」`Se`。
 - 左对点「冫」和右对点「飞右」，同「二」`Se`。故而「兆」拆为「儿二二」。
 - 下对点「八」在`Tb`。
-- 上对点「丷」在`Uh`。
+- 其他对点「丷」「䒑」「⺦」「リ」在`Uh`。
 - 所有三点都在`Iv`。
 - 所有四点都在`Uh`。
 

diff --git a/index.md b/index.md
@@ -39,7 +39,7 @@ nav_order: 1
 - 面向大字集，全面覆盖 CJK 全字集 99000 多个漢字和部首（更新至 CJK 扩 I 区），可以用宇浩输入法打出所有生僻字。
 - 字根在键盘上分横、竖、撇、捺、折五区排布，摒除乱序，便于上手。采用大字根，拆法更直观，不会将漢字拆得零碎。
 - 双编码，不分主副根，没有结构码。全简一致，规则简单。取一、二、三、末字根，思维负担较轻。
-- 拆字规则优先级明确，兼顾「逻辑性」和「直观性」。保证一字一拆、无歧义。
+- 拆字规则优先级明确，兼顾「逻辑性」和「直观性」。追求一字一拆、无歧义。
 - 只使用25键，不使用Z键，手感好。中排、上排按键频率都超过40%。最高频的漢字一级简码位于最容易按的键上：`E的`、`F一`、`V了`、`I没`。
 - 线性的学习体验，[教程详尽。](./docs/learn)在简快码的加持下，只用记住100个字根，就能基本输入最常用的500个漢字，其他字根可以边打边学。
 
@@ -61,7 +61,7 @@ nav_order: 1
 
 比如，「简」`QPJv`、「簡」`QKJv`这两个繁简漢字在宇浩输入法中对应了不同的编码。这是因为宇浩输入法的「门」字根繁简分离。在很多输入法中，由于繁简字根位于同一个按键，你需要从候选栏中选择繁体字还是简体字。
 
-以下视频展示了使用宇浩输入**繁简混合**版本的《洛神赋》的片段节选。可以看到，全文都没有进行过选重。因此，宇浩输入法特别适合任意文本空间下的盲打，以及古漢语输入。
+以下视频展示了使用宇浩单字全码输入**繁简混合**版本的《洛神赋》的片段节选。可以看到，全文都没有进行过选重。因此，宇浩输入法特别适合任意文本空间下的盲打，以及古漢语输入。
 
 {% include youtube.html id='356702912&bvid=BV1ZX4y1h7iV&cid=1147616940&page=1' %}
 
@@ -94,35 +94,12 @@ nav_order: 1
 {: .highlight }
 [点击此处](./docs/articles/discussion)详细了解我对一款具有平衡性的输入法的一些思考和分析，以及宇浩输入法的设计理念和基本考量（陆标繁体书写）。
 
-## 优化算法所使用的指标
-
-以下介绍为我设计本输入法时所考量的客观指标，这些指标在编写优化算法的时候得到了应用，并且配以不同的权重。在此将其中重要的予以列出，方便用户进行深入了解。某些指标的详细计算公式，可以参考本网站研究板块，方便有一定统计背景的研究者评议。
-
-宇浩输入法优化时，进行局部最大化的指标，按重要性排列：
-
-- 字根键位空间聚合度。或者说是字根排布的规律性。本输入法采用传统的「首笔笔画聚合」和「键盘分区布局」。该布局下，每个字根可能存在的键位空间在 4 - 6 之间。故而，每个字根优化空间只有全乱序布局的 25%。优点：依照形码设计原理，易于上手，方便学习。缺点：各项指标理论极限低于纯乱序排布方案。
-- 最大化键位舒适度（简体、繁体）。键盘上每一个按键，都有一个得分。食指、中指上的按键的分较高，无名指、中指上的按键得分较低。中排的按键得分较高，下派的按键的分较低。手指位移小的按键得分较高。比如 T 得分大于 Y。因为 Z 键比较难按，在部分输入平台又预留为功能键，故而本输入法不在 Z 上设置编码。优点：提升手感，增加平台通用性。缺点：全码理论编码空间只有 26 键方案的 85%，理论极限离散水平低于 26 键方案。
-- 最大化文本空间双手互击率（简体）。在连续文本的情况下，计算编码的双手互击率（包括标点符号）。如：「我今天去那里」，编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键，9次双手互击，故而互击率为 39.13%。这里用到了隐马尔科夫链或大样本统计，以计算每个汉字后下一个汉字的频率，从而得到连续文本的双手互击率。
-- 最大化非单指大跨行的频率。
-
-宇浩输入法优化时，进行局部最小化的指标，按重要性排列：
-
-- 最小化简体文本、繁体文本、混合文本下的[全码动态选重率](./docs/articles/statistics)。优点：实现真正意义上的繁简通打。用户使用本方案就可以自由切换繁简输入，不用选重。缺点：影响了极限简体/繁体文本各自的动态选重率，不过本输入方案的简体/繁体动态选重率已经是**市面上最低**的，所以这个缺点可以忽略。
-- 最小化 GB2312、国字常用字的静态重码数量。这是因为动态选重率高度依赖文本的状态，而静态重码数量在非典范白话文的情况下更具有代表性。
-- 最小化 GBK 的静态重码数量和翻页次数。这是为了不丢失检字的性能。本输入法 CJK 全汉字单编码最高重码字数为18个，也就是说，即使是生僻字，最多翻页一次即可找到。
-- 最小化简体文本下的[完美词语选重率](./docs/articles/statistics)，使用了当代汉语词频表。例如，「我今天去那里」被分割成「我·今天·去·那里」，一共有 4 个词语。倘若「我」和「那里」生了重码，则选重率为 1 / 4 = 25%。优点：考虑该指标，可以优化用户打词时的选重体验。缺点：本指标的成立条件，只有当用户的分词习惯和词频表一致才有效。大多时候，用户会将词语拆成单字输入，避免词语不存在时的回删。因此，真实的文本选重率，介于单字动态选重率和完美词语选重率之间。另外，当样本空间改变时，比如输入非典范白话文的情况下，本指标参考价值也会降低。
-
-{: .note }
->
-1. 在部分指标计算软件中，双手互击只包括了单字，例如，「我今天去那里」被分割成 qagg tobu fgdi hvvt vacj ksij，出现了9次同手击键，9次双手互击，故而互击率为 50%。这种算法无法完全反应实际打字时的双手互击情况。
-2. 在部分指标计算软件中，词语选重率只包括了多字词，不能成词的单字词被移除，例如，「我今天去那里」被分割成「今天  那里」，一共有 2 个词语。倘若「我」和「那里」生了重码，则选重率为 0 / 2 = 0%。这不能完全反应实际打字时的选重频率。
-
 ## 常见输入法古今名著选重频率
 
-以下为单字全码情况下，部分著名文学作品的选重频率统计。表格按输入法的性质排列：
+以下为单字全码情况下，部分著名文学作品的选重频率统计（单位为每万字选重次数）。表格按输入法的性质排列：
 
 | 方案          | 毛泽东选集(简) | 天龙八部(简) | 三体三部曲(简) | 战争与和平(简) | 史記(繁) | 昭明文選(繁) | 紅樓夢(繁) | 論語集解(繁簡混排) |
-| :------------ | -------------: | -----------: | -------------: | -------------: | -------: | -----------: | ---------: |
+| :------------ | -------------: | -----------: | -------------: | -------------: | -------: | -----------: | ---------: |---------: |
 | **四码定长**  |                |              |                |                |          |              |            |                    |
 | 五笔86        |          25.8‱ |        30.6‱ |          25.7‱ |          20.9‱ |    88.4‱ |       105.9‱ |      28.9‱ | 260.8‱             |
 | 五笔98        |          31.9‱ |        32.7‱ |          34.5‱ |          33.9‱ |    71.3‱ |        95.3‱ |      33.9‱ | 270.6‱             |
@@ -144,6 +121,29 @@ nav_order: 1
 | **音形方案**  |                |              |                |                |          |              |            | **简体方案**       |
 | 小鹤音形      |          81.7‱ |        84.2‱ |          74.2‱ |          69.6‱ |    85.7‱ |        67.4‱ |      35.1‱ | 75.2‱              |
 
+## 优化算法所使用的指标
+
+以下介绍为我设计本输入法时所考量的客观指标，这些指标在编写优化算法的时候得到了应用，并且配以不同的权重。在此将其中重要的予以列出，方便用户进行深入了解。某些指标的详细计算公式，可以参考本网站研究板块，方便有一定统计背景的研究者评议。
+
+宇浩输入法优化时，进行局部最大化的指标，按重要性排列：
+
+- 字根键位空间聚合度。或者说是字根排布的规律性。本输入法采用传统的「首笔笔画聚合」和「键盘分区布局」。该布局下，每个字根可能存在的键位空间在 4 - 6 之间。故而，每个字根优化空间只有全乱序布局的 25%。优点：依照形码设计原理，易于上手，方便学习。缺点：各项指标理论极限低于纯乱序排布方案。
+- 最大化键位舒适度（简体、繁体）。键盘上每一个按键，都有一个得分。食指、中指上的按键的分较高，无名指、中指上的按键得分较低。中排的按键得分较高，下派的按键的分较低。手指位移小的按键得分较高。比如 T 得分大于 Y。因为 Z 键比较难按，在部分输入平台又预留为功能键，故而本输入法不在 Z 上设置编码。优点：提升手感，增加平台通用性。缺点：全码理论编码空间只有 26 键方案的 85%，理论极限离散水平低于 26 键方案。
+- 最大化文本空间双手互击率（简体）。在连续文本的情况下，计算编码的双手互击率（包括标点符号）。如：「我今天去那里」，编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键，9次双手互击，故而互击率为 39.13%。这里用到了隐马尔科夫链或大样本统计，以计算每个汉字后下一个汉字的频率，从而得到连续文本的双手互击率。
+- 最大化非单指大跨行的频率。
+
+宇浩输入法优化时，进行局部最小化的指标，按重要性排列：
+
+- 最小化简体文本、繁体文本、混合文本下的[全码动态选重率](./docs/articles/statistics)。优点：实现真正意义上的繁简通打。用户使用本方案就可以自由切换繁简输入，不用选重。缺点：影响了极限简体/繁体文本各自的动态选重率，不过本输入方案的简体/繁体动态选重率已经是**市面上最低**的，所以这个缺点可以忽略。
+- 最小化 GB2312、国字常用字的静态重码数量。这是因为动态选重率高度依赖文本的状态，而静态重码数量在非典范白话文的情况下更具有代表性。
+- 最小化 GBK 的静态重码数量和翻页次数。这是为了不丢失检字的性能。本输入法 CJK 全汉字单编码最高重码字数为18个，也就是说，即使是生僻字，最多翻页一次即可找到。
+- 最小化简体文本下的[完美词语选重率](./docs/articles/statistics)，使用了当代汉语词频表。例如，「我今天去那里」被分割成「我·今天·去·那里」，一共有 4 个词语。倘若「我」和「那里」生了重码，则选重率为 1 / 4 = 25%。优点：考虑该指标，可以优化用户打词时的选重体验。缺点：本指标的成立条件，只有当用户的分词习惯和词频表一致才有效。大多时候，用户会将词语拆成单字输入，避免词语不存在时的回删。因此，真实的文本选重率，介于单字动态选重率和完美词语选重率之间。另外，当样本空间改变时，比如输入非典范白话文的情况下，本指标参考价值也会降低。
+
+{: .note }
+>
+1. 在部分指标计算软件中，双手互击只包括了单字，例如，「我今天去那里」被分割成 qagg tobu fgdi hvvt vacj ksij，出现了9次同手击键，9次双手互击，故而互击率为 50%。这种算法无法完全反应实际打字时的双手互击情况。
+2. 在部分指标计算软件中，词语选重率只包括了多字词，不能成词的单字词被移除，例如，「我今天去那里」被分割成「今天  那里」，一共有 2 个词语。倘若「我」和「那里」生了重码，则选重率为 0 / 2 = 0%。这不能完全反应实际打字时的选重频率。
+
 ## 衍生作品
 
 ### 宇浩三码顶