跳转到内容

詞彙標示框架

维基百科,自由的百科全书

詞彙標示框架(Lexical Markup Framework,簡稱LMF)是國際標準組織(ISO/TC37)進行中的一項工作,目的在為自然語言處理機讀字典的詞彙庫描述建立一個標準化框架。計畫範疇涵蓋對牽涉到多語溝通及文化差異的語言資源,對建立與交換這些資源的準則與方法做標準化處理。

目標

詞彙標示框架的目標有三。其一,為詞彙資源的創造與使用提供共用模型。其二,管理詞彙資源間的資料交換。其三,促進個別電子資源的整合以形成大規模的全球性電子資源。

詞彙標示框架的種類包括單語、雙語或多語的詞彙資源。這三種分類亦適用於小型或大型詞彙庫、簡單或複雜詞彙庫,乃至於書面或口語詞彙表述。說明的範疇包含構詞學、語法學、計算語意學及電腦輔助翻譯。涵蓋的語言包括所有自然語言,並不侷限於歐洲地區。此計畫在自然語言處理的運用上不受限制。詞彙標示框架能呈現多數辭典,包括WordNet、EDR及PAROLE。

歷史

在過去,已有不少計畫做過詞彙庫標準化的研究,如GENELEX、EDR、EAGLES、 MULTEXT、PAROLE、SIMPLE 與ISLE。其後,參與ISO/TC37的國家代表決定為自然語言處理與詞彙庫呈現訂定標準。2003年暑假,由美國代表提出的詞彙標示框架計畫誕生。2003年秋,法國代表提出定義資料模型的技術主張,以俾利做自然語言處理的辭典。到了2004初,ISO/TC37委員會又決定做一項共同ISO計畫,由Nicoletta Calzolari (義)擔任召集人,Gil Francopoulo (法)與Monte George (美)擔任編輯。此計畫建立出的詞彙標示框架已有13個版本,並已分送給各國指定的專家做評論,再經過ISO技術會議的討論修正。經過五年的努力,多次會議與電子郵件往來,編輯群間達成共識並建立了完整一致的UML模型。綜上所述,詞彙標示框架應可被視為當今自然語言處理詞彙庫領域中技術發展之極致。

現況

詞彙標示框架已於2008年11月17日正式發行,成為國際標準;標準號碼為ISO24613。

隸屬ISO/TC37家族的一支

ISO/TC37標準家族目前被定位為高階指定規格,處理包括斷詞(ISO 24614)、標註(ISO 24611亦稱為MAF、ISO 24612即LAF、ISO 24615亦即SynAF與ISO 24617-1又名SemAF/Time)、特徵結構(ISO 24610)、多媒體載體(ISO 24616亦稱為MLIF)以及辭典(ISO 24613)等內容。這些標準主要建立在提供共同術語的低階指定規格,亦即資料範疇匯總(ISO 12620的修定版)、語言編碼(ISO 639)、書寫體編碼(ISO 15924)、國家編碼(ISO 3166)與通用編碼(ISO 10646)。

這兩個階層架構的標準遵循下列兩項簡單共通準則,以構成具內部一致性的標準家族:

  • 高階指定規格提供了上層的結構框架,其內容將由標準化常數充實之。
  • 低階指定規格提供標準化常數元素與後設資料。

基本標準

語言學的常數元素如/女性/或/及物/在詞彙標示框架中並沒有被規範,但被記錄在資料範疇匯總(DCR)中。資料範疇匯總是一項全球性資源,由ISO/TC37負責維持,依照ISO/IEC 11179-3:2003*[1]页面存档备份,存于互联网档案馆)。這些常數元素要用來充實高階結構性元素。

詞彙標示框架遵守由物件管理組(OMG页面存档备份,存于互联网档案馆))規範的統一塑模語言(UML)。結構由UML的階級圖表呈現,例子由UML的例子圖表或物件圖表呈現。

需要補充說明的是,XML的檔案類別定義(DTD页面存档备份,存于互联网档案馆))是由詞彙標示框架的附件所規範。

模型結構

詞彙標示框架包含下列組成成分:

  • 核心封包:也就是描述詞條資訊之基本階級的結構。
  • 核心封包的擴充:它以框架表達,該框架描述核心組成成分的再利用,此核心組成成分與特定詞彙資源所需的額外組成成分相連接。

這些擴充乃特別為下列領域而設置,包含構詞學、機讀字典、自然語言處理語法學自然語言處理語意學、多語標記、自然語言處理典型模式、多字詞表達模式與限制表達模式。

簡例

在下面的舉例中,詞目clergyman以及兩個詞尾變化形clergymanclergymen都與詞條有關。語言編碼套用於整個詞彙資源,而語言特性的值則適用於整個詞彙庫,正如下方UML圖所示。

詞彙資源(Lexical Resource)、全球資訊(Global Information)、詞彙庫(Lexicon)、詞條(Lexical Entry)、詞目(Lemma)以及詞形(Word Form)這幾個元素定義出詞彙庫的結構。在詞彙標記框架的檔案中有對這幾項元素做說明。另一方面,語言編碼(languageCoding)、語言(language)、詞性(partOfSpeech)、一般名詞(commonNoun)、書寫形(writtenForm)、文法號碼(grammaticalNumber)、單數(singular)、多數(plural)等則是從資料類別登記中取出的資料種類。這些標示能充實結構內容。而ISO 639-3clergymanclergymen這幾項值都只是基本的特性字串。eng這個值則參照ISO 639-3所定義的語言清單。

再加上一些附加資訊如dtdVersionfeat後,同樣的資料可以以下列XML段落表示:

<LexicalResource dtdVersion="15">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>


要注意的是,這個例子相當簡單。但詞彙標示框架能夠呈現更為複雜的語言描述,XML標記也會更加複雜。

外部連結

參見