版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于語(yǔ)料庫(kù)的詞匯學(xué)習(xí)(方法與資源 ),,內(nèi)容提綱,語(yǔ)料庫(kù)概念簡(jiǎn)介(3-5)國(guó)內(nèi)外主要語(yǔ)料庫(kù)(6,7)語(yǔ)料庫(kù)在外語(yǔ)教學(xué)與學(xué)習(xí)中的應(yīng)用(8-29)免費(fèi)在線語(yǔ)料庫(kù)簡(jiǎn)介(COCA, BNC, Lextutor)(30-37)軟件工具(38-43)資源分享,,,,,,,What is a corpus?,Corpus = “a body of naturally occurring text”The texts were not p
2、roduced without the creator knowing that they would be used for linguistic analysisNewspapers, magazine articles, short stories, academic journals, etcGood genre balance (spoken, fiction, magazines, newspaper, academic
3、)Current: not 100-year-old novels,3,,Large: at least 100 million wordsMore words than you would see / hear in a whole lifetimeAnnotated: tagged for part of speech and lemma (e.g. the beat, they beat, and beat as)語(yǔ)料(c
4、orpus)是指收集的未經(jīng)組織和加工過(guò)的語(yǔ)言材料和素材。 ——戴煒棟,1999 語(yǔ)料(corpus)又稱為素材,是自然發(fā)生的語(yǔ)言材料(包括書(shū)面語(yǔ)和口語(yǔ))的集合。可以用來(lái)作為描述一種語(yǔ)言的出發(fā)點(diǎn)或用于證實(shí)有關(guān)一種語(yǔ)言的假設(shè)的手段。 ——陳建生,1989,,語(yǔ)料庫(kù)——按照特定目的與方法建立起來(lái)的存儲(chǔ)語(yǔ)言材 料的“倉(cāng)庫(kù)”。語(yǔ)料庫(kù)是按照一定的語(yǔ)言原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)的語(yǔ)言,運(yùn)用文本或話語(yǔ)片
5、段而建成的具有一定容量的大型電子文本庫(kù)。從其本質(zhì)上來(lái)說(shuō),語(yǔ)料庫(kù)實(shí)際上是通過(guò)對(duì)自然語(yǔ)言運(yùn)用的隨機(jī)抽樣,以一定大小的語(yǔ)言樣本代表某一研究中所確定的語(yǔ)言運(yùn)用總體。 ——楊惠中,2002,,國(guó)外主要的語(yǔ)料庫(kù),Brown (1963 – 64) ——《布朗大學(xué)當(dāng)代美國(guó)英語(yǔ)標(biāo)準(zhǔn)語(yǔ)料 庫(kù)》( The Brown University Corpus of Present Day American English) 。含100 萬(wàn)1
6、961 年前后的書(shū)面 英語(yǔ)。由Francis 與Kucera 主持完成。 COBUILD——John Sinclair 主持,迄今最大的語(yǔ)料庫(kù)之一; 含的語(yǔ)料超過(guò)5 億詞。 COCA —— 美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù),收詞四億多,1990-2010 BNC——英語(yǔ)國(guó)家語(yǔ)料庫(kù),收詞一億多,牛津大學(xué)/朗文/ 錢(qián)伯斯-哈洛普出版公司。 ICE——國(guó)際英語(yǔ)語(yǔ)
7、料庫(kù),口語(yǔ)和書(shū)面語(yǔ)各一庫(kù),收詞1 百萬(wàn) The Bank of English——英語(yǔ)庫(kù),收詞2.5億。朗文/柯林 斯/伯明翰大學(xué)。,國(guó)內(nèi)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù),名稱 類(lèi)型 建設(shè)單位 母語(yǔ)背景 容量(萬(wàn)詞)HKUST 書(shū)面語(yǔ) 香港科技大學(xué)
8、 廣東話 > 2500TSLC 書(shū)面語(yǔ) 香港大學(xué) 廣東話 300CLEC 書(shū)面語(yǔ) 廣東外語(yǔ)外貿(mào)大學(xué)等 漢語(yǔ) 100COLSEC 口語(yǔ) 上海交通大學(xué)等 漢語(yǔ) 50
9、MSEE 書(shū)面語(yǔ)/口語(yǔ) 華南師范大學(xué) 漢語(yǔ) 87. 6SWECCL 書(shū)面語(yǔ)/口語(yǔ) 南京大學(xué) 漢語(yǔ) > 200,中國(guó)英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)———CLEC (桂詩(shī)春、楊惠中, 2003) 我國(guó)中學(xué)生、大學(xué)英語(yǔ)4、6級(jí)、英語(yǔ)專(zhuān)業(yè)低年級(jí)和高年級(jí)學(xué)生在內(nèi)的100多 萬(wàn)詞的書(shū)面英語(yǔ)
10、語(yǔ)料庫(kù), 是一部含有言語(yǔ)失誤標(biāo)注的英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)。,中國(guó)英語(yǔ)學(xué)生口筆語(yǔ)語(yǔ)料庫(kù)———SWECCL 由“中國(guó)學(xué)生英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)”( Spoken English Corpus of Chinese Learners, (SECCL) 和 “中國(guó)學(xué)生英語(yǔ)筆語(yǔ)語(yǔ)料庫(kù)”(Written English Corpus of Chinese Learners,(WECCL)二個(gè)子項(xiàng)目組成??傄?guī)模為200 萬(wàn)詞。南京大學(xué)主
11、持, (文秋 芳、王立非、梁茂成2005: 2),JDEST——20世紀(jì)80年代,中國(guó)第一個(gè)語(yǔ)料庫(kù),上海交大,桂詩(shī)春、楊惠中,學(xué)術(shù),,語(yǔ)料庫(kù)在外語(yǔ)教學(xué)與學(xué)習(xí)中的應(yīng)用,基于規(guī)則和基于概率的實(shí)際應(yīng)用:比如 機(jī)閱作文;機(jī)器翻譯等語(yǔ)料庫(kù)用于目的語(yǔ)和中介語(yǔ)研究詞典編撰:如 Collins Cobuild Advanced Learner’s English Dictionary測(cè)試教材編寫(xiě)翻譯研究 語(yǔ)料庫(kù)用于語(yǔ)言學(xué)習(xí):基
12、于大量真實(shí)語(yǔ)言輸入的自主性、研究型的語(yǔ)言學(xué)習(xí) 比如:近義詞辨析;語(yǔ)義韻;類(lèi)聯(lián)結(jié);搭配研究;句法分析;話 語(yǔ)分析等。 應(yīng)用舉例,,,,,,Quiz: order by frequency,vigilantflabbergastedlostrinky-dinkmiserable,9,Quiz: order by frequency,lost (#2691)miser
13、able (#5841, “sad, hopeless”)vigilant (#11831, “watching over”)flabbergasted (#21701, “extremely surprised”)rinky-dink (#44681; “small, cheap, worthless”),10,,11,Obvious errors: not in corpus,12,Corpus of Contempora
14、ry American English (COCA)fall down carefully: no occurrences,13,“unrecycling”,Google: unrecycling (100 hits: lot / little?; they refer to that trashcan picture),15,Corpus of Contemporary American English (COCA): no
15、occurrences,16,COCA: other words with *recycl* (recycling, nonrecyclable, etc),[x*] recyclable: negative words before recyclable,18,Problems: civilized visitor | set up the ecosystem | ecosystem scenery,19,*set up the ec
16、osystem: verbs with ecosystem as an object,20,21,no virtuous near duck,22,Word meaning: collocates: slippery –– near crafty,,,23,slippery near crafty: no occurrences,24,adjectives near slippery: dangerous,25,arouse,,26,
17、collocates (nearby words) near arouse: suspicions, sexually, anger,,外語(yǔ)學(xué)習(xí)的四大難點(diǎn),native-like pronunciation native way of thinking discrimination of synonyms idiomatic collocation,近義詞辨析,近義詞的辨析可以從意義的不同類(lèi)型入手:語(yǔ)法意義(grammatic
18、al meaning) 詞匯意義(lexical meaning) 概念意義(denotative meaning) 聯(lián)想意義(associative meaning) 內(nèi)涵意義(connotative meaning) 語(yǔ)體意義(stylistic meaning) 情感意義(affective meaning) 搭配意義(collocative meaning),,語(yǔ)料庫(kù)方法在教學(xué)中的應(yīng)用舉例,《高級(jí)英語(yǔ)詞匯自主學(xué)習(xí)的
19、語(yǔ)料庫(kù)方法》 《SketchEngine工具在詞匯搭配和同義詞辨析教學(xué)上的應(yīng)用》《基于在線語(yǔ)料庫(kù)的動(dòng)_名搭配教學(xué)的實(shí)證研究》,,,免費(fèi)在線語(yǔ)料庫(kù) 簡(jiǎn)介,COCABNCLextutor,Corpus of Contemporary American English (COCA; www.americancorpus.org),410+ million words (cf. British National Corpus , 1
20、00m)More words than average speaker will hear in a lifetimeFrom more than 160,000 texts20 million words each year from 1990-2010Balanced across spoken, fiction, popular magazines, newspapers, and academic journals (2
21、0% in each genre each year)Freely available online since March 200860,000-70,000 unique users each monthComplete, context-sensitive help files online,31,A good article to learn about COCA (in Chinese):Wang, Xingfu, L
22、iu Guohui, Mark Davies (2008) "The Corpus of Contemporary American English -- A Useful Tool for English Teaching and Research". Computer-Assisted Foreign Language Education in China. 5:24-31,32,Composition of C
23、OCA410+ million words (1990-present): same composition each year,Spoken: (83 million words) Transcripts of unscripted conversation from more than 150 different TV and radio programs (examples: All Things Considered (NPR
24、), Newshour (PBS), Good Morning America (ABC), Today Show (NBC), 60 Minutes (CBS), Hannity and Colmes (Fox), Jerry Springer, etc). Fiction: (79 million words) Short stories and plays from literary magazines, children’s
25、 magazines, popular magazines, first chapters of first edition books 1990-present, and movie scripts. Popular Magazines: (84 million words) Nearly 100 different magazines, with a good mix (overall, and by year) between
26、 specific domains (news, health, home and gardening, women, financial, religion, sports, etc). A few examples are Time, Men’s Health, Good Housekeeping, Cosmopolitan, Fortune, Christian Century, Sports Illustrated, etc.,
27、33,,Newspapers: (79 million words) Ten newspapers from across the US, including: USA Today, New York Times, Atlanta Journal Constitution, San Francisco Chronicle, etc. In most cases, there is a good mix between different
28、 sections of the newspaper, such as local news, opinion, sports, financial, etc. Academic Journals: (79 million words) Nearly 100 different peer-reviewed journals. These were selected to cover the entire range of the L
29、ibrary of Congress classification system (e.g. a certain percentage from B (philosophy, psychology, religion), D (world history), K (education), T (technology), etc.), both overall and by number of words per year,免費(fèi)在線語(yǔ)料庫(kù)
30、COCA檢索方法,http://www.americancorpus.org/ COCA在線檢索首頁(yè)COCA檢索頁(yè)COCA在線檢索seldomseldom檢索結(jié)果(list形式)seldom檢索結(jié)果(chart形式)COCA在線檢索seldom擴(kuò)展語(yǔ)境舉例,免費(fèi)在線語(yǔ)料庫(kù)BNC檢索方法,http://corpus.byu.eduBNC首頁(yè) BNC檢索頁(yè)BNC在線檢索outcomeBNC在線檢索outcome檢索結(jié)果(
31、list)BNC在線檢索outcome檢索結(jié)果(chart)BNC在線檢索outcome檢索行擴(kuò)展語(yǔ)境舉例,免費(fèi)在線語(yǔ)料庫(kù)Lextutor檢索方法,Lextutor的多語(yǔ)料庫(kù)在線檢索首頁(yè) (http://www.lextutor.ca/concordancers/concord_e.html ) Lextutor檢索consequenceLextutor檢索consequence檢索結(jié)果Lextutor檢索conseque
32、nce檢索結(jié)果refinedLextutor檢索consequence擴(kuò)展語(yǔ)境舉例,軟件工具,用語(yǔ)料庫(kù)檢索工具可以將關(guān)鍵詞及其語(yǔ)境檢索出來(lái),讓語(yǔ)言學(xué)習(xí)者直接而又集中地看到上述特征。用AntConc和Wordsmith檢索詞語(yǔ)Wordsmith——索引軟件。提供關(guān)鍵詞檢索,語(yǔ)塊檢索等。 關(guān)鍵詞及上下文共顯。英國(guó),需付費(fèi)。AntConc ——日本早稻田大學(xué)教授Antony研發(fā)的檢索軟
33、 件,免費(fèi)MicroConcord,ConcApp6.0,VocabProfile,PowerGrep,,,Key words in Context--KWIC,,,Concordance lines 索引行/檢索行,,AntConc使用步驟展示,打開(kāi)Antconc打開(kāi)open files,載入選定的語(yǔ)料庫(kù)選定需要的選項(xiàng)卡:concordance; word list; key word;collocation等在下方輸入要檢
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 淺析語(yǔ)料庫(kù)在外語(yǔ)教學(xué)中的應(yīng)用
- 俄語(yǔ)語(yǔ)料庫(kù)和基于語(yǔ)料庫(kù)的語(yǔ)法研究.pdf
- 雅思寫(xiě)作語(yǔ)料庫(kù)
- 語(yǔ)料庫(kù)研究.pdf
- 語(yǔ)料庫(kù)的創(chuàng)建與應(yīng)用
- 基于語(yǔ)料庫(kù)的中國(guó)外語(yǔ)學(xué)習(xí)者英語(yǔ)短語(yǔ)動(dòng)詞習(xí)得研究.pdf
- 基于語(yǔ)料庫(kù)與非基于語(yǔ)料庫(kù)的英語(yǔ)介詞教學(xué)的對(duì)比研究.pdf
- 基于語(yǔ)料庫(kù)的詞匯自主學(xué)習(xí)研究.pdf
- 語(yǔ)料庫(kù)與英語(yǔ)教學(xué).pdf
- 面向本體學(xué)習(xí)的動(dòng)態(tài)語(yǔ)料庫(kù)構(gòu)建方法.pdf
- 漢語(yǔ)學(xué)習(xí)者聲調(diào)語(yǔ)料庫(kù)的建設(shè)與應(yīng)用.pdf
- 建立英語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)標(biāo)注系統(tǒng).pdf
- bcc語(yǔ)料庫(kù)使用指南
- 譯文分析的語(yǔ)料庫(kù)途徑
- 托??谡Z(yǔ)語(yǔ)料庫(kù)整理fancy
- thewindamongthereeds語(yǔ)料庫(kù)文體翻譯研究
- bcc語(yǔ)料庫(kù)使用指南
- bcc語(yǔ)料庫(kù)使用指南
- 基于語(yǔ)料庫(kù)的邦譯本
- 地書(shū)語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論