編輯點評:hsk詞匯大綱
HSK詞匯是一款專業的詞匯app,用戶可以通過這款APP來更好的學習自己的漢語水平,實時了解漢字、拼音和發音等內容的學習,幫助用戶學習,讓漢語考試更加輕松。感興趣的就快來下載吧
HSK詞匯大綱簡介
【快快查系列】產品,包含了HSK一級到六級的所有詞匯學習,是HSK漢語水平考試的必備產品。
HSK是一項國際漢語能力標準化考試,重點考查漢語非母語的考生在生活、學習和工作中運用漢語進行交際的能力。HSK包括HSK一級、HSK二級、
HSK三級、HSK四級、HSK五級和HSK六級。有紙筆考試和網絡考試兩種考試形式。
軟件亮點
1、詞語詳細說明,每一個漢字的歷史演化、出處和釋意、詞組都能獲得;
2、自定方案,每一個人能夠自身設置每日學習和備考的詞匯總數;
3、文件目錄展示,挑選一個詞本得話就可以一覽這個詞本的所有單詞文件目錄;
軟件特色
海量字庫:每個漢字提供海量內容,如注解、詳解等;
詞匯解釋:提供英文翻譯,例句,語法解析,多角度學習詞語;
引證解釋:結合古今經典著作,闡述詞語起源,用法;
漢字解析:每個漢字都包含了詳細的解釋,如拼音、五筆、筆劃、部首、結構等;
軟件功能
1. 規范閱讀,漢字、字音對應規范;
2. 詳細顯示漢字,可顯示漢字的部首、筆畫、結構、五筆等;
3. 可以得到每個漢字的詳細說明,包括其歷史沿革、來源、解釋和舉例說明;
4. 自主制定計劃,每個人都可以設定自己每天學習和復習的詞匯量;
5. 在顯示內容的表格中,選擇一個單詞本子可以看到該單詞本子中所有新單詞的列表;
6. 這里我們收集了HSK 1 - 6級的真實詞匯。
如何利用Python篩選HSK核心詞匯
背景說明
由于班上有一批學生需要參加HSK5的考試,但是在實際授課中發現他們對于該級別的詞幾乎不怎么認識,甚至于HSK4的詞都有很多沒掌握的。所以為了短期突擊,需要制作HSK4和5的核心詞表。
制作思路如下:
1. 建立HSK標準詞表,包括
漢字
拼音
英文
詞性
級別
2. 建立基于標準詞表的詞頻表
3. 按照詞頻篩選核心詞匯(除名詞/動詞/形容詞之外的詞類)
4. 按照字族篩選核心詞匯(名詞/動詞/形容詞)
之所以要補上按照字族篩選核心詞匯,是因為漢字的字族(也就是語素教學法中的語素)能有效降低學生的學習成本和記憶成本。比較適合名詞/動詞/形容詞這三類數量比較多的詞類。
具體步驟如下:
一,建立HSK標準詞表(1-6級)
網上有現成舊詞表下載,需要人工審核的是以下幾個部分
1. 詞表更新:根據HSK官方考綱2015版,有近12%的詞匯是增補的,要替換進舊詞表
2. 拼音審核:特別是多音字,大小寫,還有谷歌翻譯的莫名拼寫(比如法國的拼音是Fàguó你敢信?)
3. 義項審核:有些多義詞,是需要根據官方考綱的詞性標注,進行修正的(比如長zhǎng和長cháng)
二,添加詞性分類
在這里詞性分類有兩個方法
1)直接用手機拍照然后用OCR識別官方考綱上的詞性標注,與標準詞表進行一一對應
2)用Python調用jieba插件,進行詞性標注
我用的是第二種方法,代碼如下
#!usr/bin/env Python# coding = utf-8import jieba.posseg as posimport xlrdimport xlwtinput_excel = xlrd.open_workbook('/Users/Arthur/learnPython/vocabulary/HSK5.xlsx')input_sheet = input_excel.sheets()[0]output_workbook = xlwt.Workbook(encoding="utf-8")output_worksheet = output_workbook.add_sheet("new", cell_overwrite_ok=True)row1 = 1col1 = 1#存在詞典查不到的詞,需要優化for word_num in range(2144): item1 = input_sheet.cell(row1,col1).value part_of_speech = pos.cut(item1) for word, flag in part_of_speech: output_worksheet.write(row1-1, col1-1, word) output_worksheet.write(row1-1, col1, flag) row1=row1+1output_workbook.save('/Users/Arthur/learnPython/vocabulary/HSK5-2.xls')
標準好的詞性分類如下
這里有一個問題就是jieba插件的詞性分類是按照與ictclas 兼容的標記法進行標記的,很多標記與我們熟知的英語不一致,舉例如下:
詞性標記與傳統的英語語法不一致
解決方法是復制到excel之后,進行批量替換即可。
三,建立詞頻表
因為沒有HSK范圍內的語料庫支持,所以從網上找了一個八千多詞頻表作為基準。總體而言,針對HSK考試的有效性是不足的,但在時間有限的情況下,也沒有更好的辦法了。
將HSK標準詞表與八千詞頻表進行比對(用excel的函數vlookup),自動填充HSK詞匯的詞頻。
這里有一個問題就是有些詞在詞頻表里沒有出現,采取的處理方法就是:詞頻作為0處理。不過根據詞類排序之后,大部分的虛詞還是一眼就能看出來的,影響不大。
建立好的詞頻表如下:
增加了詞頻,可以看到有的詞頻是N/A
四,篩選核心詞匯
篩選核心詞匯我采用了兩種方法
1)按照詞頻分
將副詞/連詞/介詞/助詞等數量較少的詞類,在excel中按照詞頻排序。
實際情況是,詞頻基本沒啥用,因為這些詞類本身數量就比較少,所以基本都入選了核心詞匯。
2)按照詞頻+字族分
前面已經介紹過,采用這種方法的原因是
1. 字族能有效降低學習成本和記憶成本,適合考試的時候猜測詞義
2. 名動形這三個詞類的詞匯數量比較多,用字族就能打破一個一個記憶的障礙,以少馭多。
3. 當篩選出n個字族時,再用字族里所有詞匯的權重之和去給字族排序,所以
字族的詞越多,排名越前
不同字族的詞一樣多,詞匯相加的權重之和多高,該字族排名越前
排序之后再人工篩選一遍
熱門評論
最新評論