谈谈英语语料库的用法问题
有朋友在“答疑中心”问怎么用“英国国家语料库”(见www.yygrammar.com/guestbook/Guest_Reply.asp?TopicID=1711)。关于怎么样合理用“语料库”的问题,本站曾发过目佳老师的一篇文章(见www.yygrammar.com/Article/200908/1329_3.html)。这里摘录部分内容作为一个简要的回话:
……
……“英国国家语料库”可以用作大家研究英语语言的“工具”,但不可以完全以此作为证明语言规范性的“依据”(见www.yygrammar.com/Article/200908/1327.html)。笔者的意思非常明确,不是要否定“语料库”有哪些用途,而是说要合理地用“语料库”,将它作为大家研究语言的“工具”,而不适合将它视为语言的“规范”或“标准”。
事实上,各类“语料语”的打造,为语言学的研究提供了极其丰富且真实的语言素材。据《朗文英语口语和笔语语法》所述:“朗文语料库” 由 37244 个文本、4000 多万词的语料组成。这类文本除少数小说外,都是 1980 年未来的产物,主要选自四个语域,即会话、小说、新闻、学术文章。”这样庞大且真实的语料素材,这是几十年前的语言学者不敢想象的。
但笔者一直觉得,语料库可以作为大家研究语言的“工具”,但大家不可以完全以此作为证明语言规范性的“依据”。就拿上面提到的这本《朗文英语口语和笔语语法》来讲,它的作者是 Douglas Biber, Stig Johassson, Geoffrey Leech, Susan Conrad and Edward Finegan 四位。本书被觉得是夸克氏《英语语法大全》(A Comprehensive Grammar of the English Language)的姊妹篇,《英语语法大全》的四位作者中有三位直接为该书作出了贡献:Geoffrey Leech 为该书的直接作者之一,Jan Svartvik 审阅了该书的撰写计划和“试验章”,Randolph Quirk 为该书写了热情洋溢的前言。目前大家看看该书第 191 页在讲到主谓一致问题的一个语料剖析:
Percentage use of non-standard forms in conversation.
standard form non-standard from % use of non-standard form
I was I were5%
you were you was10%
she was she were10%
they were they was5%
I say I says50%
you say you says less than 2%
he doesn’t he don’t40%
they don’t they doesn’t less than 2%
依据前面的介绍可知,此“语料库”的权威性不容置疑。但该语料库显示,大家在会话中用非标准形式 I says 的几率高达 50%,用 he don’t 这一非标准形式的几率高达 40%。
50% 是个什么定义?那就意味着在会话中平均每两个人就有一个人会如此用。那样大家目前是否应该修改大家的语法书、教程、考试概要等,表示可以同意 I says 呢?显然不是的。当然,目前 I says, he don’t 的用法几率如此高,或许再过若干年之后,将 I says, he don’t 这种说法变成规范的表达,也是大概的,但那是将来的事,假如目前哪本教程、词典、考试试题等,用 I says, he don’t 这种表达,显然是不适合的。
笔者觉得,“语料库”只不过对大家(当然是指以此为母语的大家)对语言实质运用的一个客观记录,为了充分保证“语料”的真实性,它不只会网站收录那些语言学家觉得“正确的”素材,而且也网站收录那些语言学家觉得“不正确的”素材,虽然不可以说是“捡到篮子里就是菜”,但尽可能兼顾语料的真实性和全方位性是打造语料库的基本宗旨。虽然目前很多权威的词典都在充推荐受语料库带来的便捷和便宜,但没那本词典是完全照搬语料库的,就拿《牛津高阶英汉双解词典》第六版来讲吧。陆谷孙教授在其序中说:“当代辞书界一大革命性的进步便是电脑语料库的打造,从而为编者们提供了数目惊人的语言素材,使他们选词有了依据,择例有了空间。《牛津高阶》第六版例证多达九万,位居各版之首,自然与牛津语料库的素材是分不开的。……第六版中有的极细微的增删变化,细究之下,亦来源于语料库,足证言必有据。”但笔者在该词典上没见到过 I says, he don’t 这种在语料库中显示用几率高达 40%-50% 的非标准表达,更不需要说 you was, they was, they doesn’t, you says, I were , she were这种非标准表达了。
I says 只不过一个具体的个案而已,既然可以说 I says,是否可以说 I likes, I does, I thinks, I gets, I goes, I has, I gives 等等?笔者在 BNC中查了一下,结果如下(感兴趣的读者朋友可以自己去核对一下):
I likes 的使用方法共有16例;
I does 的使用方法共有28例;
I thinks 的使用方法共有16例;
I gets 的使用方法共有18例;
I goes 的使用方法共有50例;
I has 的使用方法共有42例;
I gives 的使用方法共有18例;
事实上,你随意输一个你觉得是“错误”的表达,在“英国国家语料库”都大概(当然不是肯定)会找到“实例”,感兴趣的朋友可以自己去试试看看。
很好,“存在即合理”,但“合理”未必“合法”。在口语中,I says 的用法几率高达50%,已是相当普通的表达了,应该算是相当“合理”了,但它“合法”吗?笔者在此讲的“法”,是指语言的“规范”和“标准”,在大家国家,由江泽民同志签署的《中国国家通用语言文字法》就是“法”,由中国新闻出版总署颁布的《图书水平管理规定(图书编校水平差错率计算办法)》也是“法”,由国家语言文字工作委员会发布的《简化字总表》也是“法”,由文化部和文字改革委员会联合发布的《异体字整理表》也是“法”,由国家语言文字工作委员会和中国新闻出版署联合发布的《现代汉语通用字表》也是“法”,由国家科委、中国科学院、国家教委、新闻出版署联合发布的《关于用全国自然科学名词审定委员会公布的科技名词的公告》也是“法”,由中国出版工作者协会校对委员会拟定的《图书编校水平差错认定细节》也是“法”,等等。
另外,与语言运用有关的国标(国家标准)也是“法”。如:
《标点符号使用方法》(GB/T 15834—1995)
《出版物上数字使用方法的规定》(GB/T 15835—1995)
《汉语拼音正词法基本规则》(GB/T 16159—1996)
《中文书刊名字汉语拼音拼写法》(GB 3259—92)
《量和单位》(GB 3100~3102—93)
……
笔者不了解英国和美国有没这么多关于语言规范的“法”,但笔者相信对于任何一个国家来讲,必要的语言“规范”和语言“标准”都是必不可少的,不然所有语言方面的测试就会变得不可能,大家用语言交流也会变得愈加困难。
有的非规范的语言表达,虽然在“民间”得到广泛应用,但未必就能得到“官方”的认同,譬如,在大家国家,估计不少人不太区别“年份”与“年分”,“辈分”与“辈份”,但《图书编校水平差错认定细节》明确指出,用“年份”对,用“年分”错;用“辈分”对,用“辈份”错;依据“朗文语料库”,在会话中,以英语为母语的人不太区别 I say 与 I says,与 he don’t 与 he doesn’t,但,若目前有哪本词典将 I says 和 he don’t 这种使用方法网站收录其中,那一定是会招致非议的。
当然,有关语言规范方面的“法”同其他所有“法”一样,更不是绝对“正确”的,它一定也会有如此或那样的不足或缺点,正由于如此,所以所有些“法”都需要不断地修订和改进,但有一点可以一定,在“法”没修订之前,任何违“法”之举,都是要付出代价的!
……