Skip to content

Commit

Permalink
Update stats
Browse files Browse the repository at this point in the history
  • Loading branch information
forFudan committed Jun 6, 2023
1 parent 2a0e666 commit a53c88f
Show file tree
Hide file tree
Showing 2 changed files with 38 additions and 21 deletions.
36 changes: 22 additions & 14 deletions docs/articles/statistics.md
Original file line number Diff line number Diff line change
Expand Up @@ -387,27 +387,35 @@ $$N_{d} = \sum\limits_{i \in I, j \in J_i/\{1\}} p(w_{ij}).$$

## 古今名著双手互击频率

因为宇浩输入法是将字根按照键盘分区进行排布的,相对于全乱序字根排布的方案,双手互击方面有天生的劣势。如果不进行优化,那么会影响手感。这也是为什么宇浩输入法将双手互击率专门拿出来进行优化
因为宇浩输入法是将字根按照键盘分区进行排布的,相对于全乱序字根排布的方案,双手互击方面有天生的劣势。如果不进行优化,那么会影响手感。这也是为什么宇浩输入法的算法中,将双手互击率专门设置为一个约束条件

宇浩输入法对连续文本情况下的双手互击率(包括标点符号)进行了优化。连续文本的双手互击率,可以用以下案例展示。「我今天去那里」,编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键,9次双手互击,故而互击率为 39.13%。
对于双手互击率,作者进行了以下的定义:给定一段**连续文本**,将其中的汉字以及逗号和句号转换为输入方案的编码,分别计算其单手连按的频数和双手互击的频数,则:「双手互击的频数 / (双手互击的频数 + 单手连按的频数)」即为双手互击率。

连续文本的双手互击率,可以用以下案例展示。「我今天去那里」,编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键,9次双手互击,故而互击率为 39.13%。在连续文本情况下,单字全码派和词语派的双手互击率比较相近。

对于连续文本的双手互击率的优化,需要用到隐马尔科夫链或者大样本统计。算法中,需要计算每个汉字后下一个汉字的频率,从而得到连续文本的双手互击率。

{: .note }
在部分指标计算软件中,双手互击只包括了单字,例如,「我今天去那里」被分割成 qagg tobu fgdi hvvt vacj ksij,出现了9次同手击键,9次双手互击,故而互击率为 50%。这种算法无法完全反应实际打字时的双手互击情况。

下表列出了常见输入法输入古今名著时的双手互击率。

| 方案 | 毛泽东选集(简) | 天龙八部(简) | 三体(简) | 战争与和平(简) | 史記(繁) | 紅樓夢(繁) | 笑傲江湖(繁) | 論語集解(繁簡混排) |
| :----- | -------------: | -----------: | -------: | -------------: | -------: | ---------: | -----------: | -----------------: |
| 五筆98 | 32.8% | 32.3% | 33.3% | 33.3% | 31.0% | 31.7% | 32.1% | 30.0% |
| 五筆86 | 32.1% | 31.4% | 32.6% | 32.3% | 30.6% | 31.2% | 31.5% | 27.5% |
| 五筆06 | 32.9% | 31.9% | 33.0% | 33.1% | 31.4% | 31.7% | 31.8% | 30.4% |
| 张码 | 31.0% | 30.2% | 30.6% | 30.7% | 28.5% | 31.0% | 30.1% | 27.6% |
| 蓝宝石 | 41.5% | 40.3% | 40.2% | 40.2% | 39.3% | 39.0% | 39.5% | 42.9% |
| 徐码13 | 32.6% | 32.8% | 32.9% | 32.7% | 33.1% | 33.0% | 32.4% | 33.7% |
| 徐码23 | 32.9% | 33.3% | 33.2% | 33.1% | 34.4% | 34.0% | 33.6% | 36.4% |
| 宇浩 | 38.0% | 36.6% | 37.7% | 37.0% | 34.5% | 37.3% | 36.6% | 36.2% |
下表列出了常见输入方案对于古今名著时的双手互击率。表格按行均值降序排列,越靠前的方案,双手互击频率越高。

| 方案 | 均值 | 毛泽东选集(简) | 天龙八部(简) | 三体三部曲(简) | 战争与和平(简) | 史記(繁) | 紅樓夢(繁) | 笑傲江湖(繁) | 論語集解(繁簡混排) | 三國演義(繁簡混排) | 海上花列傳(繁簡混排) |
| :------- | -----: | -------------: | -----------: | -------------: | -------------: | -------: | ---------: | -----------: | -----------------: | -----------------: |
| 蓝宝石·25键 | 39.96% | 41.45% | 40.33% | 40.19% | 40.21% | 39.27% | 39.00% | 39.51% | 42.91% | 38.58% | 38.16% |
| 宇浩·25键 | 36.54% | 37.96% | 36.60% | 37.74% | 36.98% | 34.50% | 37.32% | 36.56% | 36.20% | 36.13% | 35.42% |
| 郑码·26键 | 34.73% | 33.76% | 34.90% | 34.42% | 35.04% | 35.44% | 34.83% | 34.17% | 34.83% | 34.56% | 35.29% |
| 三码郑码·26键 | 34.37% | 32.80% | 33.05% | 33.37% | 35.38% | 34.45% | 35.01% | 34.14% | 36.89% | 35.43% | 33.21% |
| 山人全息·26键 | 34.29% | 33.75% | 34.25% | 34.31% | 35.78% | 33.69% | 34.43% | 33.78% | 34.82% | 33.85% | 34.24% |
| 徐码23·26键 | 34.11% | 32.92% | 33.26% | 33.15% | 33.10% | 34.39% | 33.97% | 33.61% | 36.36% | 35.55% | 34.78% |
| 真码·25键 | 33.62% | 34.82% | 34.54% | 35.77% | 35.02% | 32.76% | 33.38% | 33.45% | 30.08% | 33.13% | 33.22% |
| 徐码13·26键 | 33.16% | 32.60% | 32.78% | 32.93% | 32.73% | 33.13% | 32.95% | 32.44% | 33.69% | 34.44% | 33.94% |
| 倉頡五代·25键 | 32.47% | 32.17% | 31.97% | 31.52% | 33.16% | 32.48% | 33.50% | 32.45% | 32.21% | 31.33% | 33.94% |
| 小鹤音形·26键 | 32.47% | 31.60% | 31.51% | 30.91% | 31.75% | 33.79% | 32.53% | 31.83% | 35.26% | 33.75% | 31.78% |
| 五筆98·25键 | 32.05% | 32.77% | 32.29% | 33.26% | 33.25% | 31.03% | 31.72% | 32.06% | 30.03% | 32.26% | 31.84% |
| 五筆06·25键 | 31.99% | 32.88% | 31.92% | 32.98% | 33.11% | 31.44% | 31.71% | 31.79% | 30.38% | 32.04% | 31.66% |
| 五筆86·25键 | 31.05% | 32.08% | 31.36% | 32.56% | 32.30% | 30.61% | 31.23% | 31.47% | 27.54% | 30.65% | 30.71% |
| 张码·26键 | 29.76% | 30.98% | 30.18% | 30.60% | 30.70% | 28.52% | 31.04% | 30.06% | 27.56% | 29.01% | 28.96% |

## 码表来源

Expand Down
23 changes: 16 additions & 7 deletions index.md
Original file line number Diff line number Diff line change
Expand Up @@ -45,7 +45,7 @@ nav_order: 1
- 字根在键盘上分横、竖、撇、捺、折五区排布,摒除乱序,便于上手。采用大字根,拆法更直观,不会将漢字拆得零碎。
- 双编码,不分主副根,没有结构码。取一、二、三、末字根。全简一致。
- 拆字规则优先级明确,兼顾「逻辑性」和「直观性」。追求一字一拆、无歧义。
- 只使用25键,不使用Z键,手感好。中排、上排按键频率都超过40%。最高频的漢字一级简码位于最容易按的键上:`E的``F一``V了``I没`
- 兼顾手感,只使用25键,不使用Z键,中排、上排按键频率都超过40%,双手互击率突出。最高频的漢字一级简码位于最容易按的键上:`E的``F一``V了``I没`
- 线性的学习体验,[教程详尽。](./docs/learn)在简快码的加持下,只用记住100个字根,就能基本输入最常用的500个漢字,其他字根可以边打边学。

![](./image/好.png)
Expand Down Expand Up @@ -82,6 +82,18 @@ nav_order: 1

要知道,宇浩输入法只使用了25个按键,也就是说四码的编码空间只有其他26键输入法的85.5%。但是宇浩输入法在常用繁简漢字下选重率却是同类输入法中最低的。

### 均衡优异

**繁简通打、动静低重、字根分区、兼顾手感**,这是宇浩输入法的四个基本设计原则,目的在于避免机器学习中的「过拟合问题」,防止输入法被局限于特定的文本空间和字形状态,以期获得更大的适用性。在保证这四个原则的基础上,作者还采用了其他的客观指标作为算法的约束条件,以提高输入法的整体素质,防止有严重的短板产生。做到「整体性能均衡,部分指标优异」。总结如下:

- 单字重码表现优异,无论是全码还是简码,在简化字静重、简化字动重、繁体字动重、繁简混合动重方面都是最低。繁体字和大字集静重仅次于徐码。
- 双手互击表现突出,在字根分区的限制下,各连续文本双手互击率仅次于蓝宝石。
- 键位效率表现突出,没有使用 Z 键,不仅保证了一定的手感,还确保了输入平台的兼容性。
- 字形兼容表现突出,兼容两岸四个标准的繁简字形,词库兼容了五套标准(大陆简体、大陆繁体、台湾繁体、香港繁体、OpenCC繁体)。真正做到打简体出简,打繁出繁。
- 词语重码表现均衡,各文本空间下动重高于蓝宝石,和徐码相当,低于五笔。

关于作者设计本输入法时所使用的量化指标,请参见[以下章节](#优化算法所使用的指标)

### 适合人群

评价一款输入法,不能只看重码率,因为每一款输入法都有自己的**设计哲学****目标用户**。有优点就必然有缺点,反之亦然。评价一款输入法的维度,除却重码率,还有规则简易度、字根复杂度、按键舒适度、平台通用性等。这就是为什么拼音重码高,但大多数人还是会使用拼音,因为它的学习成本基本为零。选择学习输入法,一定要符合自己的需求,要综合考虑多方面因素,例如,是否愿意背较多的字根,是否有打古文、繁体字需求等。
Expand All @@ -94,10 +106,7 @@ nav_order: 1
- 热爱漢字,喜欢一笔一画写字的感觉,想要学习传统漢字的人。

{: .note }
宇浩输入法的设计哲学是:**实用****直观****科学****理性**。实用,指的是完全以输入而非检字进行设计;直观,指的是对漢字的拆分直观易懂;科学,指的是对于编码和简码的设计科学合理,并符合统计频率;理性,指的是拆字规则逻辑严明、没有二义,也指社群抱着理性和开放的态度去面对批评和建议,积极修正存在矛盾的、不正确的拆分。

{: .highlight }
[点击此处](./docs/articles/discussion)详细了解作者对一款具有平衡性的输入法的一些思考和分析,以及宇浩输入法的设计理念和基本考量(陆标繁体书写)。
宇浩方案的哲学是:**实用****直观****科学****理性**。实用,指的是完全以输入而非检字进行设计;直观,指的是对漢字的拆分直观易懂,不破坏汉字的美感;科学,指的是对于编码和简码的设计科学合理,符合统计频率,使用量化指标而非感性体验;理性,指的是拆字规则逻辑严明、没有二义,也指社群抱着理性和开放的态度去面对批评和建议,积极修正存在矛盾的、不正确的拆分。

## 常见输入法的世界名著选重率

Expand Down Expand Up @@ -221,15 +230,15 @@ nav_order: 1

## 优化算法所使用的指标

字根分区、二十五键、重码极低、繁简通打,宇浩输入法的四个基本设计原则。这个设计目的在于避免机器学习中的「过拟合问题」,防止输入法被局限于特定的文本空间和字形状态,以期更大的适用性。在保证这四个原则的基础上,作者还采用了其他的客观指标作为算法的约束条件,以提高输入法的整体素质,防止有严重的短板产生。做到「整体性能均衡,部分指标优异」。
繁简通打、动静低重、字根分区、兼顾手感,这是宇浩输入法的四个基本设计原则,目的在于避免机器学习中的「过拟合问题」,防止输入法被局限于特定的文本空间和字形状态,以期获得更大的适用性。在保证这四个原则的基础上,作者还采用了其他的客观指标作为算法的约束条件,以提高输入法的整体素质,防止有严重的短板产生。做到「整体性能均衡,部分指标优异」。

以下介绍为作者设计本输入法时所考量的客观指标,这些指标在编写优化算法的时候得到了应用,并且配以不同的权重。在此将其中重要的予以列出,方便用户进行深入了解。某些指标的详细计算公式,可以参考本网站研究板块,方便有一定统计背景的研究者评议。

宇浩输入法优化时,进行局部最大化的指标,按重要性排列:

- 字根键位空间聚合度。或者说是字根排布的规律性。本输入法采用传统的「首笔笔画聚合」和「键盘分区布局」。该布局下,每个字根可能存在的键位空间在 4 - 6 之间。故而,每个字根优化空间只有全乱序布局的 25%。优点:依照形码设计原理,易于上手,方便学习。缺点:各项指标理论极限低于纯乱序排布方案。
- 最大化键位舒适度(简体、繁体)。键盘上每一个按键,都有一个得分。食指、中指上的按键的分较高,无名指、中指上的按键得分较低。中排的按键得分较高,下派的按键的分较低。手指位移小的按键得分较高。比如 T 得分大于 Y。因为 Z 键比较难按,在部分输入平台又预留为功能键,故而本输入法不在 Z 上设置编码。优点:提升手感,增加平台通用性。缺点:全码理论编码空间只有 26 键方案的 85%,理论极限离散水平低于 26 键方案。
- 最大化各文本空间[双手互击率](./docs/articles/statistics#古今名著双手互击频率)。在连续文本的情况下,计算编码的双手互击率(包括标点符号)。如:「我今天去那里」,编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键,9次双手互击,故而互击率为 39.13%。这里用到了隐马尔科夫链或大样本统计,以计算每个汉字后下一个汉字的频率,从而得到连续文本的双手互击率。因为宇浩输入法是将字根按照键盘分区进行排布的,相对于全乱序字根排布的方案,双手互击方面有天生的劣势。如果不进行优化,那么会影响手感。这也是为什么宇浩输入法将双手互击率专门拿出来进行优化。宇浩输入法在保证字根分区、二十五键、重码极低、繁简通打这四个原则下,将双手互击率拉到可观的水平,是所谓的「戴着脚链起舞」。
- 最大化各文本空间[双手互击率](./docs/articles/statistics#古今名著双手互击频率)。在连续文本的情况下,计算编码的双手互击率(包括标点符号)。如:「我今天去那里」,编码为 qaggtobufgdihvvtvacjksij。出现了14次同手击键,9次双手互击,故而互击率为 39.13%。这里用到了隐马尔科夫链或大样本统计,以计算每个汉字后下一个汉字的频率,从而得到连续文本的双手互击率。因为宇浩输入法是将字根按照键盘分区进行排布的,相对于全乱序字根排布的方案,双手互击方面有天生的劣势。如果不进行优化,那么会影响手感。这也是为什么宇浩输入法将双手互击率专门拿出来进行优化。宇浩输入法在保证字根分区、二十五键、重码极低、繁简通打这四个原则下,将双手互击率拉到可观的水平,仅次于蓝宝石,是所谓的「戴着脚链起舞」。
- 最大化非单指大跨行的频率。

宇浩输入法优化时,进行局部最小化的指标,按重要性排列:
Expand Down

0 comments on commit a53c88f

Please sign in to comment.