黄色的视频在线观看-黄色短视频免费-黄色短视频免费观看-黄色短视频免费看-亚洲sss综合天堂久久久-亚洲ss

職稱論文咨詢網,專業提供留學生論文、職稱發表論文等各類論文學術咨詢服務的論文網站。

當前位置:首頁 > 論文技巧

文獻綜述標注

來源:職稱論文咨詢網發布時間:2022-08-07 21:47:39

  1、引言

  漢語自動分詞和詞性標注是漢語信息處理中重要的基礎性工作,它與語料庫基礎資源建設相輔相成,在中文信息處理中起著關鍵作用。經過將近20 年的研究,自動分詞與詞性標注技術、語料庫的建設都取得了長足的進步,許許多多的系統應用而生;因此,對分詞與詞性自動標注系統進行公正的評測,將會對這項基礎性的工作起到導向性的作用。二者之間有著十分密切的聯系, 比如, 切分歧義是漢語分詞所面臨的一大難題, 其中能用語法知識消解的就約占90%以上,而涉及語義和語用知識的切分歧義則很少,另外,詞性標注的質量高低直接影響著自動分詞的效果好壞。

  2、漢語自動分詞

  2.1 定義和產生原因

  所謂的自動分詞就是把連續的字串分割成詞的序列。從處理過程來看,把自動分詞可以看作是用計算機自動識別文本字符流中的詞并在詞與詞之間加入明顯切分標記的過程。

  詞是最小的能夠獨立運用的有意義的語言單位,英文單詞之間以空格作為自然的分隔符。漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標志,計算機不能通過英文句子之間的空格方法區分漢語詞,否則可能會出現錯誤。

  如漢語中“學生”整體是一個詞,但計算機不容易理解“學”和“生”兩個字合起來才能表示一個詞,為了解決類似的問題,中文分詞技術應運而生。

  2.2 自動分詞的分詞方法

  關于分詞方法,蘇聯學者最先提出了關于“ 6-5-4-3-2-1”的思想,這種方法中的匹配思想成為后來許多分詞方法的基礎。目前,漢語自動分詞方法不下二十種,例如,最大匹配法、知識分詞方法、鏈接法,在參考眾多文獻的基礎上,綜合各家之言,大體上可概括為四種類型:基于詞典的分詞方法、基于統計的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點,分別代表著不同的發展方向。其中基于詞典的分詞方法具有算法成熟,易于實現的特點,目前是使用最普遍切分方法;基于統計的分詞方法由于有的歧義切分能力和低頻詞識別能力,受到越來越多的研究人員的重視,發展較快,但在實際使用中,很少單獨使用,一般都與基于詞典匹配的信息進行更多的處理,因而加大了實現的難度;基于人工智能的分詞方法是目前理論上最為理想的分詞方法,但是該類分詞方法的研究還處于初級階段,并且由于漢語自然語言復雜靈活,知識表示困難,所以對于這類分詞技術還需要進行更深入和全面的研究。

  2.3 自動分詞研究現狀

  經過十幾年的研究,漢語自動分詞技術取得了令人矚目的成果,出現了一些實用的自動分詞系統,如:北京航空航天大學的c d w s分詞系統,這些系統在分詞的精確度和分詞速度方面都具有相當的水平,并在一些中文全文檢索系統中得到了應用。中文自動分詞技術取得了可喜的進步,具體表現在:

  “詞”是否有了清晰的界定。原來很難精確定義的“詞”,現在可通過“分詞規范+詞表+分詞語料庫”的方法,使中文詞語在真實文本中得到了可計算的定義,界定出詞語的邊界,這是實現計算機自動分詞和可比評測的基礎。

  未登錄詞對分詞精度的影響。對交集型歧義字串進行的大規模語料庫調查,明確提出把分詞歧義消解過程分解為偵察和消歧兩個子過程的認識,都是近十年來分詞研究的重大收獲.

  基于字的分詞新方法.過去的分詞方法大都依賴于一個事先編制好的詞表或詞典。自動分詞過程就是通過詞表和相關信息來做出詞語切分的決策。基于字標注的分詞方法實際上是構詞方法。即把分詞過程視為字在字串中的標注問題。這種方法的一個重要優勢在于,它能夠平衡地看待詞表詞和未登錄詞的識別問題。

  2.4 困難和問題

  盡管漢語自動分詞取得了重大進展和突破,但仍有大量的問題困擾著這一領域的學者們。因為要自由進行漢語自動分詞,至少會遇到以下一些困難:

  (1) 中文原本沒有詞的概念 ,至今也沒有統一的詞的確切定義。漢語詞與詞之間既沒有西文那樣有明顯的分隔符,也沒有日文那樣豐富的詞尾變化。

  (2)漢語迄今為此仍未有一部公認的、確切完備的并適合于計算機自動處理的語法規則。

  漢語無標準性的詞法、復雜性的句法、模糊性的語法與多樣性的語義,如漢語中大量存在多義詞、同義詞、詞性變化、詞義轉借等現象,使漢語表達具有很大的靈活性,所以任何人都都很難對它進行完備的總結。

  (3)中文構詞方法的多樣性和句法的“意合”性等特點也是造成自動分詞困難的重要原因。中文造詞的原料,不僅有字,而且有詞、詞組。造句的方式有以字造詞、以詞造詞,甚至壓句成詞。如果沒有語法、語義知識或語境的幫助就很難對有些句子進行正確切分。

  (4)語音中所蘊含的部分有用信息在書面語中無從體現。

  (5)新詞在不斷增加,如人名、地名、新產生的詞、外來詞等日益充實著漢語詞匯。

  但最重要的困難還是歧義切分和未登錄詞的問題。歧義切分有兩種類型,一種是交集性切分歧義,另外一種是組合型切分歧義,如漢字串“將來”是一個詞,其中“將”和“來”也可以單獨成詞,這就涉及到如何切分的問題。組合型歧義是切不切開的問題,交集型歧義是切在哪里的問題。未登錄詞即是指未包含在分詞詞表中的詞,包括各類專名(人名、地名、企業字號和商標號等)、某些術語、縮略語和新詞等,由于專用術語繁多,新名詞、新概念層出不窮,這些詞一般很難全部收錄到詞典中,但這些詞往往在一定時期內呈現較高的檢索概率。這就要求分詞系統具有一定的未登錄詞識別能力,從而提高分詞的準確性。

  對于分詞的歧義處理,目前已經進行了比較深入的研究,人們通過統計和規則相結合的方法,使得歧義字段的正確切分達到了較高的水平 ,同時也認識到歧義的解決需要細致的個性化的知識積累,對不同類型的歧義要有不同消歧方法,同時研究漢語的構詞規則,增強歧義判別能力;另一方面,無論詞表規模多么大,未登錄詞語的存在是必然的。因此,與分詞的歧義處理相比較,未登錄詞語的處理成為影響分詞精確率的最主要、最直接的因素,這也是當前的一個研究的難點和熱點。

  3 、漢語詞性標注

  3.1 基本含義和標注方法

  詞性標注即在給定的句子中判定每個詞最合適的詞性標記,關鍵是如何處理兼類詞或多義詞。詞性標注的正確與否對后續的句法分析、語義分析有很大的影響,是中文信息處理的基礎性課題之一。常用的詞性標注模型有n 元模型、隱馬爾科夫模型、最大熵模型、基于決策樹的模型等。其中,隱馬爾科夫模型是應用較廣泛且效果較好的模型之一。

  由于同一個詞在不同的語境下會產生不同的詞性特征,所以就產生了不同的標注方法。目前主要存在以下四種方法:基于規則的方法;統計方法;規則和統計結合方法;基于轉換的錯誤驅動學習方法。基于規則的方法利用規則對多個詞性的詞進行消歧,利用上下文信息來排除多余詞性。它能夠利用現有研究成果,通過對語境中的詞語、詞類和詞語的特征做細致描述,起到很好的排歧作用,但主觀性較強,覆蓋率低;統計方法可以將一些不確定的知識量化,可以獲得較好的效果和提高覆蓋率,現在一般用統計方法來標注詞性,據說可以獲得95%以上的正確率,但實際消歧效果究竟怎樣,尚不明確;規則和統計結合方法融合了二者的優點;基于轉換的錯誤驅動學習方法是一種這種的方法,它在詞性標注中能達到98%的正確率。

  3.2 困難和問題

  漢語詞性標注的困難主要是因為漢語作為一種孤立語,缺乏嚴格意義上的形態標志和形態變化,詞類判定基礎是根據詞的已實現的句法功能,對上下文的依賴特別嚴重。

  漢語詞性標注的困難具體可分為:①漢語缺乏詞的形態變化,不能像印歐語那樣,直接從詞的形態變化上去辨別出詞的類別;②常用詞的兼類現象普遍。兼類詞不僅使用頻度高,而且兼類現象復雜多樣,覆蓋面廣,兼類現象分布不均,漢語中大部分詞類都有兼類現象,使得詞類歧義排除的任務困難重重;③研究者本身的主觀因素也會造成兼類詞處理的困難。

  4、應對策略

  正因為在自動分詞和詞性標注上還面臨很多的困難,所以我們今后的研究應著重在某些點上的“有所為”,才能有助于達到我們的想要的結果。結合自己的學習和對其他學者的總結,具體地講,大概要抓以下一些工作:l)盡快建立一個質量高、易接受的通用詞表。這是保證其它一切自動分詞研究是否扎實、可靠的先決條件;2)建立一套為學界同仁認同并遵守的漢語自動分詞規范和詞性標注規范和技術標準,建立詞性標注平衡語料庫,做好系統評測,各家的工作成果應盡量共享,避免簡單重復;3)在通用詞表及極大規模語料庫的支持下,系統地發現那些頻度高、穩定性好的切分歧義,并有針對性地給出解決辦法;4)對覆蓋型切分歧義的研究目前十分薄弱,統計手段似乎心有余而力不足,應該尋求新的對策;5)促進己有的各種專有名詞識別機制向更加精細化方向發展,并增設少數民族人名等特殊字詞的識別機制; 6)以已有工作為基礎,構造更加合理的自動分詞評測模型,爭取評測工作的權威化、公開化、持續化。

  漢語自動分詞已經被研究了二十多年,涉及的內容很多,分詞方法層出不窮,取得了不少成就,但目前仍是制約中文信息處理發展的一個瓶頸。詞性標注是一個比較活躍的應用領域,它直接影響到語法分析、文本信息檢索等諸多領域,它與自動分詞相輔相成,詞性標注錯誤必然導致分詞錯誤。就目前情況來看,自動分詞和詞性標注在許多方面有許多的突破,但同時也都面臨著很多的困難和挑戰,相信隨著科技的發展和知識的進步,這些難題終究會被逐一擊破。

相關閱讀
學術咨詢服務
?
主站蜘蛛池模板: 国产精品12p | 国产精品久久久久久亚洲小说 | 激情视频网址 | 一区二区三区四区国产精品 | 久久精品国产99精品最新 | 黄色网址在线视频 | 欧洲成人r片在线观看 | 激情五月婷婷综合 | 视频网站黄色 | 亚洲天堂色网站 | 国产91第一页 | 久久青青91费线频观青 | 国产国语在线播放视频 | 久久成年片色大黄全免费网站 | 国产精品乱码一区二区三区 | 国内精品久久久久影院不卡 | 久草久操 | 亚洲三级自拍 | 国产盗摄精品一区二区三区 | 中文字幕123区 | 中文国产成人精品少久久 | 九草在线播放 | 五月开心综合 | 亚洲精品国产成人专区 | 亚洲色四在线视频观看 | 久久久精品免费 | 九色综合九色综合色鬼 | 亚洲一区在线免费观看 | 国产小视频在线高清播放 | 精新精新国产自在现拍 | 狠狠一区| 大陆5g天天看天天爽免费 | 久久久国产精品网站 | 一道本一区二区三区 | 岛国大片在线免费观看 | 2021免费日韩视频网 | 国产一区系列在线观看 | 激情福利网 | 久草色视频 | 欧美xxxx视频 | 四虎新地址4hu 你懂的 |