Skip to content

Commit

Permalink
Update texts
Browse files Browse the repository at this point in the history
  • Loading branch information
forFudan committed Jun 2, 2023
1 parent a19e301 commit eba2df3
Show file tree
Hide file tree
Showing 2 changed files with 28 additions and 28 deletions.
2 changes: 1 addition & 1 deletion docs/learn.md
Original file line number Diff line number Diff line change
Expand Up @@ -721,7 +721,7 @@ A:如果字根字是两码,但字根本身比较罕用,那么会浪费一
- 相重叠的两点,即「头」「冬」中的部分,同「二」`Se`
- 左对点「冫」和右对点「飞右」,同「二」`Se`。故而「兆」拆为「儿二二」。
- 下对点「八」在`Tb`
- 上对点「丷」在`Uh`
- 其他对点「丷」「䒑」「⺦」「リ」在`Uh`
- 所有三点都在`Iv`
- 所有四点都在`Uh`

Expand Down
54 changes: 27 additions & 27 deletions index.md
Original file line number Diff line number Diff line change
Expand Up @@ -39,7 +39,7 @@ nav_order: 1
- 面向大字集,全面覆盖 CJK 全字集 99000 多个漢字和部首(更新至 CJK 扩 I 区),可以用宇浩输入法打出所有生僻字。
- 字根在键盘上分横、竖、撇、捺、折五区排布,摒除乱序,便于上手。采用大字根,拆法更直观,不会将漢字拆得零碎。
- 双编码,不分主副根,没有结构码。全简一致,规则简单。取一、二、三、末字根,思维负担较轻。
- 拆字规则优先级明确,兼顾「逻辑性」和「直观性」。保证一字一拆、无歧义。
- 拆字规则优先级明确,兼顾「逻辑性」和「直观性」。追求一字一拆、无歧义。
- 只使用25键,不使用Z键,手感好。中排、上排按键频率都超过40%。最高频的漢字一级简码位于最容易按的键上:`E的``F一``V了``I没`
- 线性的学习体验,[教程详尽。](./docs/learn)在简快码的加持下,只用记住100个字根,就能基本输入最常用的500个漢字,其他字根可以边打边学。

Expand All @@ -61,7 +61,7 @@ nav_order: 1

比如,「简」`QPJv`、「簡」`QKJv`这两个繁简漢字在宇浩输入法中对应了不同的编码。这是因为宇浩输入法的「门」字根繁简分离。在很多输入法中,由于繁简字根位于同一个按键,你需要从候选栏中选择繁体字还是简体字。

以下视频展示了使用宇浩输入**繁简混合**版本的《洛神赋》的片段节选。可以看到,全文都没有进行过选重。因此,宇浩输入法特别适合任意文本空间下的盲打,以及古漢语输入。
以下视频展示了使用宇浩单字全码输入**繁简混合**版本的《洛神赋》的片段节选。可以看到,全文都没有进行过选重。因此,宇浩输入法特别适合任意文本空间下的盲打,以及古漢语输入。

{% include youtube.html id='356702912&bvid=BV1ZX4y1h7iV&cid=1147616940&page=1' %}

Expand Down Expand Up @@ -94,35 +94,12 @@ nav_order: 1
{: .highlight }
[点击此处](./docs/articles/discussion)详细了解我对一款具有平衡性的输入法的一些思考和分析,以及宇浩输入法的设计理念和基本考量(陆标繁体书写)。

## 优化算法所使用的指标

以下介绍为我设计本输入法时所考量的客观指标,这些指标在编写优化算法的时候得到了应用,并且配以不同的权重。在此将其中重要的予以列出,方便用户进行深入了解。某些指标的详细计算公式,可以参考本网站研究板块,方便有一定统计背景的研究者评议。

宇浩输入法优化时,进行局部最大化的指标,按重要性排列:

- 字根键位空间聚合度。或者说是字根排布的规律性。本输入法采用传统的「首笔笔画聚合」和「键盘分区布局」。该布局下,每个字根可能存在的键位空间在 4 - 6 之间。故而,每个字根优化空间只有全乱序布局的 25%。优点:依照形码设计原理,易于上手,方便学习。缺点:各项指标理论极限低于纯乱序排布方案。
- 最大化键位舒适度(简体、繁体)。键盘上每一个按键,都有一个得分。食指、中指上的按键的分较高,无名指、中指上的按键得分较低。中排的按键得分较高,下派的按键的分较低。手指位移小的按键得分较高。比如 T 得分大于 Y。因为 Z 键比较难按,在部分输入平台又预留为功能键,故而本输入法不在 Z 上设置编码。优点:提升手感,增加平台通用性。缺点:全码理论编码空间只有 26 键方案的 85%,理论极限离散水平低于 26 键方案。
- 最大化文本空间双手互击率(简体)。在连续文本的情况下,计算编码的双手互击率(包括标点符号)。如:「我今天去那里」,编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键,9次双手互击,故而互击率为 39.13%。这里用到了隐马尔科夫链或大样本统计,以计算每个汉字后下一个汉字的频率,从而得到连续文本的双手互击率。
- 最大化非单指大跨行的频率。

宇浩输入法优化时,进行局部最小化的指标,按重要性排列:

- 最小化简体文本、繁体文本、混合文本下的[全码动态选重率](./docs/articles/statistics)。优点:实现真正意义上的繁简通打。用户使用本方案就可以自由切换繁简输入,不用选重。缺点:影响了极限简体/繁体文本各自的动态选重率,不过本输入方案的简体/繁体动态选重率已经是**市面上最低**的,所以这个缺点可以忽略。
- 最小化 GB2312、国字常用字的静态重码数量。这是因为动态选重率高度依赖文本的状态,而静态重码数量在非典范白话文的情况下更具有代表性。
- 最小化 GBK 的静态重码数量和翻页次数。这是为了不丢失检字的性能。本输入法 CJK 全汉字单编码最高重码字数为18个,也就是说,即使是生僻字,最多翻页一次即可找到。
- 最小化简体文本下的[完美词语选重率](./docs/articles/statistics),使用了当代汉语词频表。例如,「我今天去那里」被分割成「我·今天·去·那里」,一共有 4 个词语。倘若「我」和「那里」生了重码,则选重率为 1 / 4 = 25%。优点:考虑该指标,可以优化用户打词时的选重体验。缺点:本指标的成立条件,只有当用户的分词习惯和词频表一致才有效。大多时候,用户会将词语拆成单字输入,避免词语不存在时的回删。因此,真实的文本选重率,介于单字动态选重率和完美词语选重率之间。另外,当样本空间改变时,比如输入非典范白话文的情况下,本指标参考价值也会降低。

{: .note }
>
1. 在部分指标计算软件中,双手互击只包括了单字,例如,「我今天去那里」被分割成 qagg tobu fgdi hvvt vacj ksij,出现了9次同手击键,9次双手互击,故而互击率为 50%。这种算法无法完全反应实际打字时的双手互击情况。
2. 在部分指标计算软件中,词语选重率只包括了多字词,不能成词的单字词被移除,例如,「我今天去那里」被分割成「今天 那里」,一共有 2 个词语。倘若「我」和「那里」生了重码,则选重率为 0 / 2 = 0%。这不能完全反应实际打字时的选重频率。

## 常见输入法古今名著选重频率

以下为单字全码情况下,部分著名文学作品的选重频率统计。表格按输入法的性质排列:
以下为单字全码情况下,部分著名文学作品的选重频率统计(单位为每万字选重次数)。表格按输入法的性质排列:

| 方案 | 毛泽东选集(简) | 天龙八部(简) | 三体三部曲(简) | 战争与和平(简) | 史記(繁) | 昭明文選(繁) | 紅樓夢(繁) | 論語集解(繁簡混排) |
| :------------ | -------------: | -----------: | -------------: | -------------: | -------: | -----------: | ---------: |
| :------------ | -------------: | -----------: | -------------: | -------------: | -------: | -----------: | ---------: |---------: |
| **四码定长** | | | | | | | | |
| 五笔86 | 25.8‱ | 30.6‱ | 25.7‱ | 20.9‱ | 88.4‱ | 105.9‱ | 28.9‱ | 260.8‱ |
| 五笔98 | 31.9‱ | 32.7‱ | 34.5‱ | 33.9‱ | 71.3‱ | 95.3‱ | 33.9‱ | 270.6‱ |
Expand All @@ -144,6 +121,29 @@ nav_order: 1
| **音形方案** | | | | | | | | **简体方案** |
| 小鹤音形 | 81.7‱ | 84.2‱ | 74.2‱ | 69.6‱ | 85.7‱ | 67.4‱ | 35.1‱ | 75.2‱ |

## 优化算法所使用的指标

以下介绍为我设计本输入法时所考量的客观指标,这些指标在编写优化算法的时候得到了应用,并且配以不同的权重。在此将其中重要的予以列出,方便用户进行深入了解。某些指标的详细计算公式,可以参考本网站研究板块,方便有一定统计背景的研究者评议。

宇浩输入法优化时,进行局部最大化的指标,按重要性排列:

- 字根键位空间聚合度。或者说是字根排布的规律性。本输入法采用传统的「首笔笔画聚合」和「键盘分区布局」。该布局下,每个字根可能存在的键位空间在 4 - 6 之间。故而,每个字根优化空间只有全乱序布局的 25%。优点:依照形码设计原理,易于上手,方便学习。缺点:各项指标理论极限低于纯乱序排布方案。
- 最大化键位舒适度(简体、繁体)。键盘上每一个按键,都有一个得分。食指、中指上的按键的分较高,无名指、中指上的按键得分较低。中排的按键得分较高,下派的按键的分较低。手指位移小的按键得分较高。比如 T 得分大于 Y。因为 Z 键比较难按,在部分输入平台又预留为功能键,故而本输入法不在 Z 上设置编码。优点:提升手感,增加平台通用性。缺点:全码理论编码空间只有 26 键方案的 85%,理论极限离散水平低于 26 键方案。
- 最大化文本空间双手互击率(简体)。在连续文本的情况下,计算编码的双手互击率(包括标点符号)。如:「我今天去那里」,编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键,9次双手互击,故而互击率为 39.13%。这里用到了隐马尔科夫链或大样本统计,以计算每个汉字后下一个汉字的频率,从而得到连续文本的双手互击率。
- 最大化非单指大跨行的频率。

宇浩输入法优化时,进行局部最小化的指标,按重要性排列:

- 最小化简体文本、繁体文本、混合文本下的[全码动态选重率](./docs/articles/statistics)。优点:实现真正意义上的繁简通打。用户使用本方案就可以自由切换繁简输入,不用选重。缺点:影响了极限简体/繁体文本各自的动态选重率,不过本输入方案的简体/繁体动态选重率已经是**市面上最低**的,所以这个缺点可以忽略。
- 最小化 GB2312、国字常用字的静态重码数量。这是因为动态选重率高度依赖文本的状态,而静态重码数量在非典范白话文的情况下更具有代表性。
- 最小化 GBK 的静态重码数量和翻页次数。这是为了不丢失检字的性能。本输入法 CJK 全汉字单编码最高重码字数为18个,也就是说,即使是生僻字,最多翻页一次即可找到。
- 最小化简体文本下的[完美词语选重率](./docs/articles/statistics),使用了当代汉语词频表。例如,「我今天去那里」被分割成「我·今天·去·那里」,一共有 4 个词语。倘若「我」和「那里」生了重码,则选重率为 1 / 4 = 25%。优点:考虑该指标,可以优化用户打词时的选重体验。缺点:本指标的成立条件,只有当用户的分词习惯和词频表一致才有效。大多时候,用户会将词语拆成单字输入,避免词语不存在时的回删。因此,真实的文本选重率,介于单字动态选重率和完美词语选重率之间。另外,当样本空间改变时,比如输入非典范白话文的情况下,本指标参考价值也会降低。

{: .note }
>
1. 在部分指标计算软件中,双手互击只包括了单字,例如,「我今天去那里」被分割成 qagg tobu fgdi hvvt vacj ksij,出现了9次同手击键,9次双手互击,故而互击率为 50%。这种算法无法完全反应实际打字时的双手互击情况。
2. 在部分指标计算软件中,词语选重率只包括了多字词,不能成词的单字词被移除,例如,「我今天去那里」被分割成「今天 那里」,一共有 2 个词语。倘若「我」和「那里」生了重码,则选重率为 0 / 2 = 0%。这不能完全反应实际打字时的选重频率。

## 衍生作品

### 宇浩三码顶
Expand Down

0 comments on commit eba2df3

Please sign in to comment.