输入法,中国人过不去的坎?

输入法,中国人过不去的坎?


曾几何时,中国人谈起计算机,就离不开“中文”二字,掰开手指算来,如今还在中国IT届叱咤风云的人物,多少不是靠“中文”起家:联想、巨人靠的是汉卡,四通靠的是中文打字机,方正靠的是中文印刷排版,中文之星、新浪靠的是中文平台,如此数来,不一而足!而中文领域,最基本的就是汉字的输入输出问题,谁能很好地解决它,谁就在商海之战中拔到头筹、奠定胜机。  


事情好像如此简单,解决输入输出问题就能挣大钱?这么幼稚的结论恐怕是10年前的想法了。虽然有号称“当代毕升”的王选,让我们的印刷告别了铅与火,让汉字的输出有了质的飞跃,但是却不能让汉字的输入有半点轻松。随着中国人的大把大把钞票流入微软与Intel的口袋,中国的汉字输入却已经捞不到半点油水了。除了五笔字型收点授权费,自然码收点注册费养活四五口人,智能狂拼炒作一番,弄点新的知名度,谁还能说我挣了多少多少钱?  


中文输入法,这位被所有中文电脑使用者折磨多年的“半老徐娘”,已经引不起大众的注意,看来只好涂点脂抹些粉,乔装打扮一番或者隐姓埋名,或者下嫁他人!本来是名门望族的大家闺秀,却落得个惨度余年的结果,当年的万马奔腾、门庭若市,一时间万马齐喑、门可罗雀。  


纵使这样,还有好事者在暗暗使劲:我就不信这个邪,凭我的姿色与出身,还不能养出个国色天香的女儿?也有不愁吃穿的主,心想闲着也是闲着,我自己弄个猫狗,权当女儿养着,高兴时带出来遛遛,干你何事?  


我今天也闲来无事,看看到底有哪些半老徐娘和国色天香,值得咱探究她们的近况和身世。  


一、键盘输入  

在约10年前,朋友的一块汉卡上已经提供了汉语拼音串连续输入就能出来汉字的输入法,但这位哥们也没卖出几块,就找不到踪影了,这可能是最早见到的实际使用的“语句”输入法了。  


后来1993年左右中文之星的1.3版本提供了新拼音输入法,一直到现在,人们还认为是最方便的输入法之一。能够做到单个字词的即时显示,就是一边打拼音,同时显示汉字,键盘敲错能够马上看见,没有的词语,选择一次后就能记住,以及一些键位的巧妙设计,如空格确认、逗号句号选重码、模糊音容错等已经成了当今所有拼音输入法的必有功能。此时的产品还有智能ABC,在1993年初的北京大学出版社,编辑对笔者说,出了一种很好用的输入法,具有类似新拼音的功能,还能够快速输入一些符号,键入v以后不用切换输入英文,还可以按笔划输入不认识的汉字,这就是早期的智能ABC,后来与微软合作不错,几乎所有的的Windows中文版本都OEM了它,但是这个软件可能在当时就基本成型,快10年了,也没有多少新的功能与改动。  


其实不管是智能ABC还是新拼音,它们技术上可能都源于20世纪80年代末期张普、李慧勤等人主持的项目PJS,其中也许有合作关系。  


到了1994年,有一件事对中国的输入法发展起了重要作用。在10月18日,北京语言学院旁边的一个小白楼中的隆光威尔和邦得尔俩公司合作成立Autoway(自通)中文平台项目组,公司当时准备开发DOS和WINDOWS环境的中文平台和字处理软件,胃口很大,也集中了一些较强的开发力量,由于经费的问题,后来在1995年调整目标,专门开发Autoway输入法,在下半年推出了一种外挂于Windows环境的能够连续进行汉字序列输入的系统,该软件请了语言界名人周有光等人题字,后来在电台、报社宣传,着实风光一把。该输入法最大的特点是用户只管连续输入拼音,系统每隔几个拼音就自动将前面的汉字显示出来,到一定的长度后,汉字就会自动或者由用户按回车键进入到应用软件的编辑器,不需要人工分词,但是由于正确率较低以及操作界面、使用方便性等问题,没有大面积推广。  


在1996年,输入法出了一匹“黑马”,碰巧该厂商叫做北京黑马公司。其“黑马输入法”只能在DOS下用,现在笔者还有当时买的正版,是几张软盘,如果在Windows下面用的话,该输入法就提供一个DOS界面,用户输入一句话的拼音串,按一下回车,转变成汉字,存放在一个文本文件中,再拷贝到别的应用软件。现在看来这个软件是非常不好用的,但是凭借该厂商在中文校对方面的经验、资料和积累的资金,一步一步发展,到了2001年,还在不断完善与升级。  


不管是“自通”还是“黑马”,都号称开了汉字整句输入(又称语句输入)的先河,但实际上除了笔者前面提到的汉卡有这个功能外,最早的还可以追溯到20世纪80年代末期的哈工大。当时该校的博士生王晓龙进行了汉字分词方面研究,并申请了863课题,写出了“最小分词问题及其解法”方面的论文。其后王晓龙研发了InSun输入法,就是一种基于整句的输入系统,20世纪90年代初也只是做一些演示、成果展览之类,听说偶尔也卖给了日本的一些公司,用于某些专用打字机使用,后来多年未见动静。在90年代中期,以10万美元卖给了微软,当然这个价格满不错的了。于是乎,从Windows 95中文版开始,也就有了大家看到的“微软拼音输入法”,虽然口伐者诸多,但微软采取类似的方式,还弄到了智能ABC,“免费”发送给中国用户。但这种“免费”是形式上的,实质上,其价钱已经算计在Windows操作系统中,最终还是算在使用者头上。其结果是苦了输入法研发者和厂家。  


即使是微软提供的拼音输入法,也不见得好用,曾经有人讥讽说该输入法就好像是感冒了揩鼻涕,按理说,有了一点鼻涕,就应该赶紧擦掉,不要等它老长了掉到嘴上才去管,可微软拼音却不,让你敲了很长,再返过头去修改,由于智能化程度不高,错的莫明其妙,如果是对着稿子敲,还好找错,如果是想打,也忘了自己该选那些词。  


不能够与所敲拼音同步显示汉字(微软拼音是滞后一个字、自通是滞后几个字、黑马拼音是需要最后确认才出现汉字),以及错误转换很高、修改拼音选择汉字不方便等成了早期语句输入法的死穴,大大限制了它们的使用,老百姓还在继续用新拼音或智能ABC,但是它们存在不支持GBK汉字以及长期没有新功能升级的缺陷,加之语句输入法的不成熟,使得中国输入法几乎险入了前所未有的低谷。  


这种沉寂在1998年被打破,功劳首推共享软件的出现。由于互联网的开始普及,网络的威力越来越大,新的个人力量开始凸现。出现了拼音之星、万能码和智能五笔等新的输入法。  


拼音之星是由谭亚军发明的,是一种包含全拼、双拼和谭码的单字、词语、短语和语句输入系统,可能作者认识到了传统词语输入法和语句输入法的优缺点,因此设计了一种完全“实时显示”的方式,不管输入多少拼音,每个字母按下去,汉字就同时显示,拼音有错误,用户就会立即发现,又由于支持自动分词与整句输入,用户不用去担心是输入一个词语还是一句话,系统都能够进行处理,如果没有该词语,系统也能够自动学习并存盘,似乎具有了词语输入法的方便性与整句输入法的智能性,还值得一提的是利用双拼加偏旁或笔划的谭码也能够实现词语或整句输入,能够进一步加快打字的速度,这恐怕是别的输入法所不具备的。该输入法只要一张软盘就可安装,程序小巧、稳定,很少出现运行错误,整句智能化程度也达到实用水准,因此该软件在1997~1998年放到网上,反映强烈,一些功能也为以后的输入法所仿效,如“实时显示”、像输入拼音一样输入各种符号、智能识别数字标点和符号、快速选择多种双拼编码等,而且是当时除了在Win9x环境也能够在Win NT中使用的极少输入法之一,使得拼音之星拥有了广大用户群。中文之星网站也长期推介下载,金山公司的WPS2000全线捆绑销售。“飞翔鸟”在1999年底评测说“拼音之星2000在功能上要明显优于微软拼音输入法(2.0版),绝对是一颗耀眼的明星。"这里面不乏溢美之词,但绝对表明利用拼音方式将词语输入的方便性与整句输入的智能性结合起来是输入法的方向之一。  


拼音之星采用了外挂技术,类似于中文之星或者Richwin等中文平台,因此在中西文Windows下面都能用,这本来是一个好的构思,但是因此带来的一些问题也较多,在中文Windows环境,由于不是Windows自身的标准输入法IME格式,如果安装不正确就可能有乱码,这个问题也给拼音之星等外挂输入法带来负面影响,到了最新的拼音之星2002build1.3这个问题才真正解决。又因为拼音之星以前的版本没有提供拼音与汉字分两行同时显示的操作模式,当拼音输入错误需要修改时,虽然可以按一下方括号 [ 或者 ]就能将汉字变回拼音并且同时可以移动光标(不需要用左右方向键),手指的移动幅度相对较小,本来是个好的设计,但是有别于传统操作方式,因此用户并不知晓,让人感觉修改拼音还是不够方便。因此到了千禧世纪版2.0以后,拼音之星在操作界面上,又完全复古,像中文之星新拼音那样,提供上下两行即显示所有键入拼音字母,又显示自动转换的汉字串。  


采用外挂技术设计输入法,当然也有独特好处,如克服了标准IME(如智能ABC等)吃标点、在西文Windows中不能用、在西文应用软件中不能做到光标跟随等缺陷。  


输入法另一个发展方向是功能的多元化。这方面的代表是“万能码”,即现在的“万能五笔”。万能码是一种将拼音、五笔、英文、笔划结合的一种字词输入法,不需要切换既可以使用多种功能,例如输入“苹果”这个词,可以键入它的拼音“pingguo”,也可以用五笔编码输入,还可以用英文apple输入,因此对于已经习惯于传统输入法的拼音或者五笔用户,很容易使用万能码。  


在早期的版本中,万能码以拼音作为主要设计方式,因此类似新拼音可以实时造词,但是拼音的功能不强大,远不如拼音之星、新拼音,因此曾有人建议万能码的作者邓世强将重点放在五笔上,主推“万能五笔”,同时兼顾多元输入方式,此系统发展不错,曾经得过“十大共享软件”称号。该输入法的最大缺点在于由于采用菜单选择太多,而菜单界面设计零乱,用户无所适从;在中文Windows下面的乱码以及拼音单字、词语不多的缺陷也是限制该输入法进一步推广的因素。  


智能五笔则是另一个充分吸收五笔精华,将五笔发扬光大的典范。王码公司可能做梦也没有想到,竟然有这么多人在替自己出主意。智能五笔在五笔上面,做了很多文章,包括五笔的编码提示,提示词库中是否存在某个词语,以前输入过的多个汉字能够用一串五笔简码快速输入,词库较大(因为用五笔编码,词库大则重码也较多),这是很多用户喜爱的缘由。不过软件本身质量设计存在问题,界面不好看、菜单零乱,操作键位的设计随意性等充分反映了个人共享软件的局限。  


到了1999年出现了另外几个拼音输入法:拼音加加、自由拼音输入法和考拉输入法。拼音加加实际上是原来参与中文之星新拼音设计的廖恒毅的重出江湖之作,小巧、程序稳定、键位设计比较合理,加之新添的一些功能,如不用切换就输入西文,类似智能ABC的用笔划输入不认识的汉字以及用简拼快速输入多种符号的特点,使得该输入法受到了词语输入者的喜欢,与拼音之星、智能五笔、万能五笔一起在长城中文飓风中OEM销售。但是拼音加加的缺点很明显,词库太小,两个以上词语连续输入就要不停地选词、按空格确认。自由拼音输入法最大的特点是公开了源码(操作方式与功能没有多少新鲜之处),因此相继为不少输入法爱好者参照,编制自己的输入法。考拉输入法刚开始推出时,在清华BBS上推介,操作方式几乎完全仿制了中文之星的新拼音,但是克服了新拼音在某些系统下字体特小的缺陷,受到网友的好评。从一开始,考拉的作者就在软件说明中声明要卖掉。后来还真的卖给了紫光公司,在2000年改进成了紫光拼音输入法。这款输入法最大的特点也是完全忠于新拼音的操作方式,提供了一个很大的词库,在后续的版本如2.2和2.3中,增加了智能组词,也就是说用户连续输入9个字以内的拼音串,系统能够自动转换成汉字,而不论是否有这个词语,系统根据词频高频先见的方式给出一个词语串的组合,增强了操作的流畅性。还值得一提的是紫光拼音输入法善于吸收其余输入法的优点,如拼音之星的实时显示、智能识别符号、自定义字符串,拼音加加的不切换用Enter直接键入西文,最终成了用户喜欢的输入法。但是紫光拼音输入法有一些明显缺点,由于程序设计的缺陷,在稳定性方面没有拼音之星和拼音加加好,很多版本经常出现输入法引擎出错、用户词库一大就出错没法使用,在2.3版本得到改善,但是还会出现切换应用程序时画面闪动,在一些西文软件如Dreamweaver中出现输入条时隐时现,在某些应用程序中出现乱码的问题,影响了软件的正常使用。  


2000年老牌的新天地分家专门成立中文之星公司,主推一种叫做智能狂拼的整句输入法,本质上它与微软拼音、黑马拼音和拼音之星的语句输入类似,但是这个公司非常善于宣传,智能狂拼Ⅰ一经推出,就开始进行了铺天盖地的广告攻势,并宣称首次推出了整句输入法,在2001年又发布了升级的智能狂拼Ⅱ。智能狂拼给输入法领域无异于打了一剂强心针,虽然中文之星还是没有挣到多少银子,但是中国又重新开始注意起中文之星--这个中国IT昔日的软件霸主,此时的2000年,中国与世界一样处在网络的狂热之中,而中文之星曾经的竞争对手--四通利方,早已完成了融资的初级阶段,以中国第一中文门户新浪网的身份,在准备美国纳斯达克上市,怪不得中文之星此时太需要一些注意了。  


智能狂拼的界面还是不错的,可以自定义多种颜色、字体,大小可以像Windows窗口一样随意拉伸,修改拼音与选择重码比微软拼音有了改善,拼音到汉字转换的正确性也还不错,尤其是学习了大量的古文诗句和名人格言,使得智能狂拼一时间号称是智能程度最高的,但是它的自学习性却比不上拼音之星和拼音加加。自学习性主要表现在两个方面:一个是单独输入一个拼音串,初次不准确可以修改,然后下次键入同样的拼音或者简拼应该能够得到所需的结果,这个方面对于传统词输入法是得心应手的;另一方面是从正在输入的语句中学习相应的词语,而这个难度有点大,目前所有的系统都不尽如意。智能狂拼的很明显的缺点是过于庞大,为了增加1%~2%的转换准确性,增加了数百兆的磁盘开销,一个输入法比操作系统还臃肿,这个招可能只有急了眼的人才会想出。  


还有一个软件,叫做自然码,这是一个老牌输入法,在功能设计上有很多细微之处,采用双拼加偏旁或笔划的音形结合方式编码,提供了一种快速输入汉字的途经,大词库是它的特点,在DOS时代曾经风光一时,程序设计也很独特。只是进入Windows时代后,发展迟缓,在菜单设计上也欠考虑,比较零乱,与前面介绍的万能五笔和智能五笔有同样的问题,加之迟迟难以推出NT版本,让很多老用户忍痛割爱,投入新输入法的怀抱。在2000年,自然码也受到整句输入的影响,推出了转换速度缓慢、准确率较低、不好修改的整句输入功能,但实在难用,以至于不能实用。到了2001推出的新版,在整句输入上面有了较大提高,不用切换即可利用汉字偏旁代码选择重码的方式设计巧妙,倘若进一步改善,减少操作的复杂与二义性,发扬光大,还是大有前途的。  


二、语音输入和笔输入  

用了多年的键盘输入方式,在1998年左右突然受到猛烈的攻击,其中无非是说五笔太麻烦,需要背字根,拼音太简单,重码却太多,打得慢,数风流人物还得看今朝——语音和笔输入。  


各大厂商包括IBM、微软、摩托罗拉、中自、紫光等公司纷纷推出自己的非特定人语音输入系统或者连笔字手写输入系统,一时间在市场推广和媒体宣传上攻势凌厉,但是笔者认为,这两种输入方式看看还可以,但却都不是汉字输入的正途,这不,几年下来这两种方法占到多少份额呢?  


汉字语音输入,源于语音识别技术,通常是采用马尔可夫信息模型进行统计处理和基于规则方法进行歧义判别。例如我们平时说话,说一个字的时候,由于有重码,别人可能听不懂,但是说上一个词语,别人能听懂的可能性增加,当说上一句话的时候,旁人就都懂了,这是因为话语中的字和词,相互之间是关联的,将这种关联因素,以量化方式进行统计分析,得出常用词语之间搭配的统计数量关系,计算机根据这种数量关系,通常能够在一定范围具备“智力”。对录制的语音进行识别,有时还需要采取一定的语言规则,对统计方法进行补充,以提高机器的智力水平。让机器“听懂”人们所说的话,这是一个非常美好而又非常困难的事情。对它的研究可以带动很多技术的发展,它的成果可以运用于很多方面,如对仪器进行语音控制,当然也可以进行汉字的输入。  


20世纪90年代中后期,IBM终于推出非特定人连续语音识别系统ViaVoice,这是目前语音识别中的佼佼者。近几年,我国一批从事汉字语音识别研究的人员纷纷加盟国外公司,利用外企经费充足的好处,运用在国内研究所或大学学到的知识或研究成果,建立了巨大的中文语言资料库(又叫语料库),推出了中文普通话的语音输入系统,实现了每分钟150字以上的高速输入。国内也有了类似的系统。为了证明语音输入系统的先进与实用性,还进行多次键盘语音大比拼。在1998上半年的首届10 大城市语音键盘输入对抗赛中,采用语音输入的选手的最快输入速度均高于键盘输入的选手,充分验证了“嘴比手快”的道理,一时间,语音输入,前景辉煌。  


但是,语音输入有一些弱点目前难以克服。  


首先它要求输入环境的安静与发音的准确和洪亮。又由于这个系统前后关联,一处错误就会引发出一连串的错误。若有口音,那结果就更不可想象。如果专业录入员采用这种方式,现在宽敞的计算机房将变成一个个隔音的小空间,而且连续数小时的大声念稿,人将疲惫不堪。非专业人士使用计算机录入,采用的主要是“想打”方式,即一边思考,一边在计算机上直接写稿,而语音输入要求声音的准确、流畅,没有给人留下充分的思考时间。  


其次,它需要对使用者的发音进行学习,使得用户才能正常使用,无形中增加了使用复杂与不方便性。  


因为语言的环境千差万别,纵使语料库再大,也不能穷尽,自动进行学习获得新知识的能力还有待加强,离一个真正实用系统还有很长路要走。  


除了语音输入,另一个热点是笔输入。在ViaVoice推出前一年,这笔那笔已经开始火起来,但不是指市场如何火爆,而是厂商宣传得热闹。事实上,1997年以后就已经达到基本实用的手写汉字输入系统,采用了基于语义句法的模式识别方法,从笔段--笔画--字根--整字4个层次出发,在一定程度上解决了联机手写汉字的识别率问题。其中佼佼者为中自公司的“汉王99”和摩托罗拉公司的“慧笔”。但是,输入速度慢,使用不方便,长期操作眼睛特别辛苦,这些都是手写输入难以逾越的障碍。  


由于书写板和屏幕是分开的,当录入者写字时,眼睛盯着书写板,字容易写跑----在Windows环境下,“笔”容易把写字的窗口句柄弄丢,即使全屏幕书写也可能如此。而录入者边写边盯着屏幕看,眼睛特别容易疲劳,不可能实现大量汉字的输入。因此,手写输入只会在特定人群中流行,如对计算机不熟悉,只需要输入少量的汉字;或需要签名的人士。同时,掌上型PDA电脑也可以采用笔输入,因为机器尺寸小,键盘输入反显不便。  


当时厂商宣传的是“每台机器都有一支笔”,“笔”将成为与键盘、鼠标一样的标准配置,一时间沸沸扬扬,就好像去年的“网络经济”一样,出现了厚厚的泡沫。几年下来,笔输入在计算机,特别是在使用最广的PC机上,几乎见不到身影,倒是在“商务通”等功能单一、体积微小的掌上电脑流行开来。  


综观汉字输入,拼音输入做到登峰造极,还是难有效益,五笔输入在背字根比赛中独领风骚,尚能分到一些利益;对着话筒侃侃而谈的语音输入和在一块板上“涂鸦画雀”的“神笔、仙指”,似乎鲜有新的作为。  


中国人能爬过输入这道坎吗?