多元回归统计建模在语料库语言学中近义词辨析的应用--p6论文网|代写CSCD核心EI期刊SCI期刊SSCI期刊ISTP

多元回归统计建模在语料库语言学中近义词辨析的应用

段晓芳¹² ¹太原工业学院 ²比利时鲁汶大学

郭增卫¹ ¹太原工业学院

摘要：本研究通过对基于语料库词汇研究中所采用的研究方法进行梳理，发现研究方法大多采用单变量定量分析方法，即定量研究中所涉及的变量较为单一。基于此，笔者提出应该进一步深化基于语料库的定量研究方法，才能对词汇的研究和认识进一步深化。因此，本研究通过一对同义词案例分析，即基于多元逻辑回归分析的研究方法，从多维度考察英语中的近义词IDEA和CONCEPT的不同特点与用法，揭示出区别选择使用两者时的需要考虑的关键因素,重点考察这两个词汇项在四种不同语体，即口语，小说，新闻和学术语体中的跨语体分布差异，以及两者在领属方面的语义特征和其后置修饰成分差异。通过此案例分析，旨在呈现多元回归统计模型在近义词辨析中的应用和实现，指出其在词汇研究和认识的广度和深度方面明显优于单变量定量分析，为外语研究者提供一些借鉴。

关键词：语料库语言学；多元回归统计；定量分析；词义辨析

Application of multivariate statistical modeling in corpus-based study of synonyms

Abstract: By reviewing the research methods adopted the corpus-based vocabulary study, it is shown that univariate quantitative analysis method is mainly adopted in the quantitative analysis. In light of this,it is put forward that the corpus-based quantitative research method should be further advanced in order to deepen the study and understanding of vocabulary. Therefore, with a pair of synonyms “idea and concept” as case analysis, this study introduces the application of multivariate logistic regression analysis in the study of the different characteristics and usage of English synonyms, which reveals different factors need to be considered in the choice of the synonyms,including four different types of registers such as oral, novels, news and the academic style, their possessive meaning and the post-modifier. This study presents application of multivariate statistical regression model in analysis of synonyms, with an aim to increase the breadth and depth of vocabulary research by introducing multivariate quantitative analysis, offering some reference for the foreign language researchers.

Key words: corpus linguistics; multiple regression; quantitative analysis; semantic discrimination

1.基于语料库的词汇研究方法概述

随着语料库语言学的兴起发展及计算机技术和统计学方法在语言学领域的应用,外语研究者对语言的认识深度和广度都取得进一步提升，为语言研究的各个领域提供了科学客观的素材以及研究方法。基于语料库的研究方法与之前所采用的语言研究方法相比有其特有的优势。由于语料库数据收集的为现实中实际发生和使用的语言，因此基于语料库的研究得出的结论更为客观,可以避免研究人员基于自身的体验对语言的认知理解得出主观的结论。Biber(1994)指出,研究人员通过语料库中大量自然真实的语言素材,可以对自然语言中真正起作用的用法结构及模式进行客观分析,克服研究者对语言的直觉或感受的局限性。

20世纪90年代，数据驱动的学习方法兴起，提倡语言不是通过教师教授某些特点而习得，强调通过呈现大量的权威数据、给予线索暗示，学习者就能从文本中发现答案，归纳习得。此理论引起学者的关注，推动了语料库的词汇研究，促使之后的研究在广度和深度方面都不断扩展深化，研究对象多样化，这些特点催生了研究成果的急剧上升。基于本研究旨在探讨如何基于语料库，应用多元统计建模分析丰富词汇研究，从而深化对词汇的认识与研究，实现立体多维度的词汇认识，为今后英语教师词汇教学提供借鉴。对近年来基于语料库的英语词汇研究的内容与方法的考察和梳理发现，词汇研究虽然不再局限于某一词条或词性的简单检索，众多学者采用基于语料库对英语搭配，语义韵,类联结以及词汇行为进行了深入研究，但是对多维度，多变量，多因素对词汇使用，有什么样影响，这些变量之间的相关性有多大仍然没有进一步深入探讨。

语料库的发展前景及其强大的应用力解决了以往词汇教与学过程中的难点（李旭奎，韩慧., 2015)。词汇学习不再是生硬地背诵短语和句子，语料库将词汇搭配、词簇、语义韵等概念带入词汇学习中，提高了学习者听说读写等语言技能。同时，在此阶段，除了应用现有的已建的语料库外，更多的研究者根据研究目的，自建相符合的语料库，使得语料库的覆盖面积扩大，并结合前人的普遍性结论，验证在特定领域是否存在特殊性规律。运用语料库的词汇搭配辨析同义词也是搭配研究的热点，避免了以往学习中直觉和经验的主观性，有助于学习者准确习得语言特征。词汇教学语料库以其直观、可靠的数据为词汇教学提供了可靠的依据。越来越多的学者开始注语料库指导下的词汇教学的实证研究，以期提高词汇教学效果。如通过语料库我们可以科学地获得某词语或者结构的频率，或者两词的搭配关系等，而这些特征如果不通过语料库的分析师很难获得的。如张萍，周敏（2007）基于三种语料库SWECCL、ICLE和BNC，分别对比中国英语学习者、非母语的欧洲英语学习者和英语母语者大学生英语议论文体中besides的使用和掌握程度的差异,以及该词的语域使用特点，丰富了我们对英语词汇的认识，对理解二语习得中介语发展以及词汇教学有一定指导意义。此外词汇的语义韵也受到学者关注，通过语料库中提供的词项的语境，可以挖掘出词项共现的语义倾向与特征，从而以此揭示搭配范式隐含的潜在的表达态度、事件评价功能。如王海华，王同顺（2005），运用词语搭配研究的方法，对比了中国学习者英语语料库和英国国家语料库CAUSE的语义韵使用差异，从语义韵视角观察和研究我国英语学习者中介语的输出，发现我国英语学习者词汇使用方面的不足，对以后的英语词汇教学有重要意义。

总之，多年年来国内基于语料库的英语词汇研究在研究内容、方法材料、对象、视角不断深化扩展，但研究方法还存在一定不足，总体而言略显单一，因此本研究旨在通过一对近义词的案例分析，介绍多元统计分析在近义词辨析中的应用，可以进一步深化词汇认识，为国内基于语料库的词汇研究的发展提供一些参考，从而改善国内英语词汇教学方法。

2.多元回归分析应用词义辨析的可能性与必要性分析

同义或近义现象在各个语言中都十分普遍，而同义词在英语中比例最高，占总词汇量的60%以上。同义词辨析一直是二语习得学习和教学中的重难点之一。英语词汇中有大量的同义词。同义词在词性、词义、结构或用法等方面的相同或相近给二语学习者造成了一定的困难。传统的同义词辨析方法就是查字典，但是字典里的解释，给出的释义和例句都是非常有限的，脱离了语境中的很多因素。然而，词的用法收到很多因素影响，是认知，社会，文化等各种因素综合作用的产物。从微观层面来看，词汇使用与语法结构，语义特征，语篇特征，语域，语境等的某些因素具有共现特征。基于此，笔者认为基于语料库的词汇研究，应该融合多种维度，多变量，探讨这些变量对词汇的影响，或变量之间的共现频率。笔者认为近义词辨析应该综合多维度,即模型中综合考虑不同角度的语言特征。也就是，一些近义词会倾向于不同语域如学术，科技等,不同的语体口语到书面语等的或者不同的语义特征，语法结构等因素维度。通过多元统计模型分析的方法确定这些特征的共现模式,按这些维度对词义辨析进行全方位的描述。

总体来说，基于语料库的词汇研究多运用定量分析方法，通过语料库得到数据，并以此来分析研究某类词的特定现象，分析其产生原因。然而，之前研究方法相对单一。此外，研究视角有待扩展。以往基于语料库的英语词汇研究，大都从基础语言学出发，研究某类词的词法和句法，国内交叉学科基于语料库的英语词汇研究仍然停留在起步阶段，亟待发展。然而随着英语词汇学的不断发展和英语词汇教学需求的日渐提高，词汇研究需要综合多维度、多视角进行，拓展研究的思路和视角，其研究结果对词汇教学的借鉴性和参考价值也会进一步提高。这样就对研究方法的深化提出了更高要求，需要我们对多角度的影响因素综合到起来分析其对词汇使用的影响，因此本研究以IDEA 和CONCEPT为例，探讨如何把多元统计分析模型应用到基于语料库的近义词辨析研究中。

3. 基于多元统计模型IDEA和concept的词义辨析案例分析

《定量语料库语言学与 R编程:实用导论》，给我们提供了语料库研究的新方法，系统介绍了运用 R 语言进行语料库定量研究，统计分析。该书是一本很实用的教程，介绍了与统计相关的基本概念，语料库研究中常用的统计检验方法，将统计结果以图表呈现以及如何解读统计结果等内容。本研究是对此教程中介绍的定量分析方法的尝试，以IDEA 和CONCEPT为例，呈现如何把多元统计分析模型应用到近义词辨析研究中。

3.1研究背景

通过查阅不同字典，我们发现IDEA和concept这两个词的词义有一些相似点。事实上，某种程度上这连个词项的定义有一定的循环递归性。IDEA是concept的意义之一,而concept却可能不会被用来解释定义IDEA的其他意义，尽管它经常出现在IDEA同义词列表中。如果我们进一步仔细考察一下新牛津英语词典对这两个词的定义，就会发现这两个词存在非常明显的相似之处。下面是从词典中总结出的这两个词的主要意项。

IDEA

CONCEPT

1. an eternally existing pattern of any class of things

2. a standard of perfection, an ideal

3. a plan

4. a mental image

5. something imagined with no basis in reality

6. a thought; a way of thinking

7. a vague or indefinite notion, belief, or opinion

1. a thought, idea

2. an idea of a class of objects, a general notion or idea;in weakened use a general notion or idea, esp. in the context of marketing and design

3. an original draft or rough copy (of a letter, etc.)

此外，我们很容易发现，在一些句子中，两者具有可替代性。

(1) In the field of equal opportunities, the notion of contract compliance has been borrowed from the USA by some councils: the idea behind this is that a condition of local authority purchase from its suppliers may be expressed in terms of key employment practices…

(2) One of the most exciting concepts coming through Charnos' latest product development is the control top with lycra.

尽管两者存在相似性，但是也具有明显的差异性。CONCEPT比 IDEA 的意义更少，而且她常常用于特定的专业化语境中。如， It is the uninformed group that has never heard of the selling point concept (NOED) 。 C.S. Butler (2008)也曾对两词进行过辨析，并指出该词更具有抽象特质。我们在同一意义的不同变体中选择时候应该考虑哪些因素，Speelman and Geeraerts (2009)指出，对此应该采取自上而下和自下而上两种研究范式的相结合。基于此，本研究主要研究IDEA and CONCEPT在四种不同语域（口语，小说，报刊，和学术语篇）中的跨域分布差异，各自内涵意义的语义特征以及其后置修饰词差异。从概念隐喻理论的角度来考察数据时，两词的内内涵意义就们明显。那么通过在语料数据中考察两者的后置修饰词可能会帮助我们找出两者之间的差异。

3.2 研究方法与设计

本研究在R软件中应用的多元回归分析，对BNC中所提取的语料进行统计分析。对提取的600多项语料，根据以下变量进行标注。多元统计建模设计包括自变量和因变量。本研究中的因变量为IDEA and CONCEPT，因此从统计学角度，对两者进行赋值，IDEA 为显著水平。不研究设计多个自变量，因此为多元统计分析。

第一，本研究中的其中一个自变量为语域。本研究之所以把语域作为一个自变量，主要验证是否非技术语域领域更倾向使用idea。本研究将考察IDEA 与 CONCEPT两词在 BNC – SPOKEN, FICTION, NEWSPAPER and ACADEMIC四个语域中的分布。因此，首先我们在语料库中四个语域中对这两个词语检索，决定提取总共600个索引行，四个语域分别个150个索引行。对所选取的索引行我们采取每5行提取1行的随机抽样方法组成分析语料。表1显示了所选取的150个索引行中，这两个词在各个语域中的比例，两者分布差异明显。

Table 1. The number of instances of IDEA and CONCEPT in the four sections of the BNC and their percentage within a particular register

Table 2. The number of instances analyzed

第二，两词的领属意义作为第二个自变量。Lakoff and Johnson（1980)，认为人类的抽象的概念具有认知理据性。因为人类对抽象的概念是没有直接的感官体验，我们在讨论以及思考抽象概念时，总会基于一些更容易感知的物体或者活动的。在抽象性反面，这两个词是没有差异的，但是idea功能似乎更具灵活性。我们在例句中很容易发现idea更具有隐喻性，而concept却很难在隐喻中使用。

(3) He asks rhetorically, apropos the idea which has swallowed him…

(4) …a one-off idea sowed the seeds of a flourishing ceramics business…

(5) If we are to oppose love to such wily, muscled concepts as power, money, history

and death, then we must…

因此，idea和concept都可以作为概念实体。他们可以被拟人化为动作的施事者，或者引起物体处于一种状态。然而，在(3) 和 (4)中,是动词的隐喻化使用使得idea的概念实体化成为可能。因此，人们更容易认为这类动词会形成隐喻意义，进而可以在别的语境中和其他词语搭配。(Geeraerts: 2010).此外，一些例子也表明这两个词语都可以被认为是现实世界中真实存在的物体，可以被人们用各种方式来利用。

(6) Treitel plays stimulating games with ideas of mathematical, biographical and

fictional truth…

(7) That is, whereas Lok is freed from quasi-metaphorical thought patterns and

learns to use comparison, separating concepts and seeing them independently,

the reader is shown the comparison first,…

Lakoff （1980)指出，人们不仅基于具体的感官体验来理解抽象的事物，而且对这些的抽象概念的组织也是按照现实体验的秩序的。M. Johnson (1987)进一步提出意象图式理论，认为意象图式为人类感知活动的动态循环模式和自动化程序，可以把人类的经验联系和组织起来。一些典型的图式包括容器包含关系，前景背景关系以及部分整体关系。在一些例句中，IDEAS and CONCEPTS被认为是可以装在容器里面的物体，或者容器，或者是可以被放置的和另一物体产生位移关系。

(8) Simply put your ideas into an envelope and send it, registered post, to yourself…

(9) Ian Lang would deny that yesterday’s speech on the concepts behind the Government’s education policy draws on a golden age;…

通过对BNC600个语料库索引行的分析，大致得 idea比concept更倾向激发更加形象具体的画面，这就可以说明为什么在科幻小说和日常口语中更倾向idea来展示其更加具有活力的特点。我们认为其更加贴近我们，是可以获得或者感知的事物。因此，和concept相比较，idea被认为是可以属于某个人或者被给予另一个的。在英语中，概念也呈现一定领属意义的，体现在所有格，指示代词，或者与领属动词的搭配上。因此，本研究把领属含义作为一个自变量，主要为了验证IDEA这个词是否更加倾向于领属构式中。我们总结了几种领属意义（见下表）。本研究中，对于领属含义的标注仅仅为“是”与“否”。在600条索引中，领属含义的为205条，395条为不具有领属含义的。

从属成分类型

例句

Possessive adjective + IDEA/CONCEPT

(10) The bitter irony was that the whole plan had been her idea right from the start.

(11) Ever since Mikhail Gorbachev launched his concept of a common European Home…

genitive case + IDEA/CONCEPT

(12) She was tired of having to adjust to other people’s ideas of what a woman should be.

(13) But this criticism unfounds Marx’s concept of science rather than his concept of ideology.

possessive relative pronoun + IDEA/CONCEPT

(14)…Whitbread, to be awarded this year to the student whose ideas for the most effective use of a…3

verbs of possession (such as give, have, belong) + IDEA/CONCEPT

(16) But you’re a policeman; you must have some idea of the law.

(17) Other two parties have a much stronger and more developed concept of citizenship.

第三，本研究中的最后一个变量为后置修饰词。后置修饰词呈现三种形式，即介词短语，从句以及零修饰。零修饰指的是该词在句中处于主语位置，后面紧跟动宾结构，或者出现在句尾充当宾语成分。具体来说，介词短语修饰指的是介词，其后有被充当介词补语成分的单词，短语以及从句。从句包括wh-clauses, that-clauses and non-finite clauses. 之所以对这个变量进行区分，主要验证，其一，是否两者都经常被后置修饰词修饰；其二，是否idea更加倾向于更加多样化的后置修饰成分。例如concept几乎很少被从句进行后置修饰。下表对后置修饰成分进行概括。通过整理语料，我们得出其中242例为介词短语后置修饰成分，152例为从句后置修饰成分，206例为零修饰。

后置修饰成分类型

例句

IDEA/CONCEPT + prepph

The slow growth of the idea of diplomacy as a distinct profession meant that appointments…

By virtue of the concept of parliamentary sovereignty…

IDEA/CONCEPT + clause (wh-clauses, that clauses, and non-finite clauses)

I hadn’t the faintest idea who he was, but he looked jolly.

The princess dismissed the idea that homeless teenagers were ‘designer

In the entire BNC corpus there is only one example for CONCEPT, Indeed he was a great admirer of the Greek philosopher, many of whose concepts stayed with Galileo for a long time,…which, however, is not present in my sample of the BNC.

Interestingly enough, in all of the examples it is the animate subject who is in the possession of IDEAS or is the recipient of them.

beggars’……it mightn’t be a bad idea to revive the ancient traditional dish of……(concepts expounded in the Chapters below).

IDEA/CONCEPT + other

It was Paul’s idea.

…prepare people for the breakthrough by

introducing the concept and start…

3.3 统计分析

参考 Speelman and Geeraerts (2009)的模型，本研究采用两个统计模型，一个为主要效果，另一个为相关影响。表三是这两个模型的统计结果。

Table3 summary statistics of two models

从表格中，我们可以看出，在第一个统计模型中，P值为小于0.05，从统计学意义上是显著的，也就是说 (p <0.0001), 两者存在明显差异，相比单变量统计模型可以显示更多的信息。模型中正确的预测率为0.8583，而基线是在0.8516。截距是-0.1073，指的是IDEA与其他变量，即学术语域，零从属含义，介词后置成分的相关程度。换句话说，截距值为负值意味着另一自变量CONCEPT更倾向于出现在学术语域，零从属含义，介词后置成分。如果我们把这个Logit值调为47%，那么得到的便是IDEA在学术语域，零从属含义，介词后置成分这些变量中共现的概率。如果我们想要把学术语域切换到小说语域，IDEA 的Logit值会增加2.4503. 也可以从学术语域调整为新闻语域，和在这种情况下，Logit值将增加by1.6475。而如果我们从学术语域调整为口语语域、Logit再次增加，增幅为1.7660。同理，如果我们从零从属意义调整为从属意义，Logit值增加1.6794。而如果我们从介词后置成分调整为其他后置成分，Logit值增加0.4723。从介词后置成分调整为从句后置成分，Logit值增加1.5568。值得注意的是，该模型中，IDEA在小说语域，从属含义，和从句后置成分的共现频率最高。

Figure 1. The predicted probabilities of IDEA

图一可以进一步可视化所以自变量的影响作用。结果表明，三个自变量中，语域是显著变量，即两词在不同语域中存在明显差异。而后置修饰语为最为不显著变量，即两者在后置修饰语方面不存在显著差异。和其他变量相比，后置修饰成分的效应量最小。 (LRT=14.375).

基于对语料书数据的考察，我们认为语域和后置修饰成分这两个自变量之间可能存在互相影响作用，因此本研究设计了第二个统计模型来进行统计验证。简单来说，当其中一个变量会对另外一个变量产生制约时，我们就需要考虑两者之间的相互作用。我们推测，我们推测，在除了学术语篇语域的其他三个语域中，从句类型的后置修饰语更倾向用于idea这个词语。

Figure 2. Frequency table

图二为基于语域和后置修饰成分两个变量的频率分布。从图中可以看出，idea的频率总体上多于concept。在所有的语域中，idea都更为常用，除了学术语篇。而且与concept相比，后置修饰语在idea词后面更为常见。然而此模型中只考虑了两个互相影响的变量，并没有考虑领属含义变量，因此我们不好判断这个差异具体产生的原因。

截距为-0.2218，它指的是与其他变量，即学术语域，零从属含义，介词后置成分的相关程度。检验表明这些因素之间交互作用是显著的，p值为0.0003。变量从属含义也是显著的5.709. 事实上，远远超过互动。因为我们发现，假如去掉这一变量的话，会引起其他变量的很多变化，从而决定了它在模型中的作用。通过表三统计总结分析，我们发现该模型中，变量之间的相关性是显著的。 (p-value <0.0001)。统计学上的截距值为 -0.2218。结果明，总体而言，从句类型的后置修饰语更加倾向于出现在idea词后面，尤为明显是的口语语域中（98%）。此外，对于idea词，介词短语类型的后置修饰语用的最少的是在学术语篇中，仅仅为（52%），但在口语中出现最多，为（98%）。最后，零修饰的情况，小说中作为常见，为97%，其他语域分别为 96%，82%，65%。

3.4 讨论与结论

本研究证实了之前提出的假设，即正式语域中更加倾向于使用idea这个词，这一结论可以在该词语在学术语域和其他语域，尤其是小说语域的分布比较中情况看出。然而，有人会反驳，这是由于idea这个词在四个语域中总结频率比concept高造成的。我们提出的第二个假设，即领属含义更加倾向于赋予idea这个词上，也在本研究中得以证实。这一结论并不奇怪，当我们查阅许多字典，尤其是牛津英语字典时，Idea前面经常被领属含义词语修饰。然而，当我们进一步从概念隐喻理论来观察该词的语义特征时，我们就能够更加全面理解该词语的特出含义。通常，一个词项的后置修饰成分会呈现不同形式，但是在该案例研究中，只重点考察了三种主要的后置修饰形式，即介词短语成分和从句成分和零修饰情况。在本研究中，也证实了另外一个假设，即从句类型的后置修饰成分更加倾向于idea这个词语后面。然而，考虑到语域和后置修饰成分会相互产生影响，我们得出，即使对于idea，从句后置修饰成分可以出现在任何语域中，但是最为常见的还是出现在口语语域中。这一点似乎有点奇怪，因为 (Biber et al.: 2002)曾经提出后置修饰语和前置修饰语在口语中都不为常见，而在正式语域中更为常见一些。此外，介词短语更加倾向用于口语语域中的idea词中，然而还是在口语语域中idea的零修饰情况最为少见，仅次于学术语篇中的零修饰情况。需要指出的是，在本案例研究中，我们并没有考察前置修饰语情况，这一点可以在今后的研究中加入这个维度来考察来两者的差异。此外，所选取的语料大小是本研究的另一局限性，今后的研究中可以选取更为全面的语料提高结论的可靠性。

4．结论

通过以上案例，可以发现多元统计分析在基于语料库的近义词辨析研究具有的优势，可以更加全面的综合分析词汇的使用，深化我们对词汇的理解与应用。基于语料库的研究需要对数据进行定量分析和统计，而掌握多元统计分析方法可以深化基于语料库的相关研究。本研究是基于《定量语料库语言学与 R编程:实用导论》所介绍的统计方法进行的一次尝试，以期为基于语料库的词汇研究提供一些参考。另外需要指出的是，虽然研究者可以借助商业软件( 如 Wordsmith、SPSS 等) 进行数据分析和统计，然而这些软件在其功能上具有局限性，比如当上述常用软件并不能满足构式共现( collostruction) 的研究。R 语言具有其独特的优势，它是成熟的免费编程语言，数据检索分析方面便捷性自由度更高，还配置了强大的用户个性化数据统计和绘图功能，极大地促进了语料库语言学的研究。有学者甚至认为，语言学数据分析即将进入“R 时代”( Larson-Hall 2009: 279)。语料库提供给我们大量的语境化的例证，可以帮助我们分析决定词汇意义的语法，语义，和语域等因素。在语料库语言学中，应用定量分析的方法，可以更加客观直观地呈现给我们特征分析结果，而这些仅仅通过简单量性分析是难以达到的。

参考文献

Biber,Douglas,S.Conrad,and R.Reppen.1994. Corpus-based approaches to issues in applied 1inguistics. Applied Linguistics,Vol.15,No.2.

Biber, Douglas, Susan Conrad and Geoffrey Leech (2002) Longman Student Grammar of Spoken and Written English. Pearson Education Limited.

Butler, Christopher S. (2008) The very idea! A Corpus-based Comparison of Idea, Concept and Notion and their Formal Equivalents in Spanish. Journal of the Spanish Association of Anglo-American Studies.

Gries，S．2009．Statistics for Linguistics with R: A Practical Introduction． Berlin ＆ New York: Mouton de Gruyter．

Gries，S．2009．Quantitative Corpus Linguistics with R: A Practical Introduction．London ＆ New York: Routledge．

Johnson, Mark (1987) The Body in the Mind: The Bodily Basis of Meaning, Imagination,and Reason. Chicago: University of Chicago Press.

Lakoff, George (1987) Women, Fire and Dangerous Things: What Categories Reveal about the Mind. Chicago: University of Chicago Press.

Lakoff George and Mark Johnson (1980) Metaphors We Live By. Chicago: University of Chicago Press.

Larson-Hall，J． 2009． “Review on K． Johnson ( 2008 ) ’s Quantitative methods in linguistics”，Sociolinguistic Studies，3 /2，pp279 － 284．

Speelman, Dirk (2012) Logistic regression: A confirmatory technique for comparisons in corpus linguistics. In D. Glynn and J. Robinson (eds.), Corpus Methods in Cognitive Semantics, 181-231. Amsterdam: John Benjamins.

Speelman, Dirk and Dirk Geeraerts (2009) Causes for causatives: the case of Dutch doen and laten. In Ted Sanders and Eve Sweetser (eds.), Causal Categories in Discourse and Cognition, 173-204. Berlin / New York: Mouton de Gruyter.

李旭奎，韩慧．国内１０年来基于语料库的英语词汇研究述评［J］．中国海洋大学学报，2015( 5) :112－115．

雷蕾，潘璠．《定量语料库语言学与 R编程:实用导论》述评［J］．外语教学理论与实践，2012( 4) :39－41．

王海华，王同顺．CAUSE语义韵的对比研究［J］．现代外语，2005( 8) : 297－307．

张继东，刘萍．基于语料库同义词辨析的一般方法［J］．解放军外国语学院学报，2005( 6) : 49－53．

张萍，周敏 “Besides”:基于语料库的对比研究［J］．国外外语教学，2007( 2) : 46－53．