Anthyの品詞分類について。


Anthyでは品詞をwtype_tという型で扱う
wtype_tは
 *品詞(名詞、動詞、、)
 *副品詞(名詞における地名、人名、、などの分類)
 *副副品詞(人名の姓名、数字の位など)
 *活用クラス(5段、上一、サ変、、)
 *活用形(未然、連用、、)
 *副活用形(品詞、活用形が同じものを接続で分類する)
 *オプション(自立語かどうか？連体形が名詞化するか？など)
の7つのパラメータを含んでいる。
各パラメータはワイルドカードとして
任意のものにマッチするものをとることができ、*であらわす。
この7つ組の組み合わせのうち、いくつかは文字列による名前を
持っており、文法の定義の時などに使われる。
例
 "名詞" -名詞-*-*-*-*-*-
 "動詞未然形D" -動詞-*-*-*-未然形-デフォルト-
品詞の比較にはオプションを除く6つのパラメータを比較して
すべてのパラメータの対が等しい、もしくは比較の基準側がワイルドカード
であるときに対象側は基準側に含まれる。


include/wtype.hに CC_??として、活用のしかたを分類してある。
活用表は最後の数文字を見て、語幹と活用形がわかればよいので、
上一段と下一段は統合して扱う(本当はcannadicの都合)。
 CC_NONE 無活用
 CC_K5 か行5段
 CC_C5 か行5段(行く or 逝く 「行った」という活用になる5段)
 CC_G5 が行5段
 CC_S5 さ行5段
 CC_T5 た行5段
 CC_N5 な行5段
 CC_M5 ま行5段
 CC_B5 ば行5段
 CC_R5 ら行5段
 CC_L5 ら行5段(命令形が 「イ」「いらっしゃい」「おっしゃい」「ござい」など)
 CC_W5 わ行5段
 CC_U5 乞う5段(「憩う」など、わ行とちがうのか？)
 CC_KS1 上下1段
 CC_KV か行変格
 CC_SV さ行変格
 CC_ZV さ行変格
 CC_AJV 形容動詞
 CC_A 形容詞
 CC_A_U う音便の形容詞


品詞(POS Part Of Speech)は以下のようなものが定義されている
 POS_NONE 品詞不明
 POS_NOUN (E)(entity) 体言(名詞、数詞、代名詞)
 POS_PRT (P)(particle) 助詞
 POS_XV (X)(auxiliary verb) 助動詞
 POS_V (V)(verb)動詞
 POS_A (A)(adjective)形容詞
 POS_AJV (D)(adjective verb)形容動詞
 POS_AV (B)(adverb)副詞
 POS_ME (M)連体詞
 POS_CONJ (C)(conjunction)接続詞
 POS_IJ (I)(interjection) 感動詞
 POS_PRE 一般名詞の接頭語
 POS_SUC 一般名詞の接尾語
 POS_INVAL


副品詞
 COS_NONE ワイルドカード
 COS_CNPRE 地名の付属語
 COS_NNPRE 数詞の付属語


副副品詞
 SCOS_NONE
 SCOS_FAMNAME 氏
 SCOS_FSTNAME 名
 SCOS_T00 - SCOS_T39
  32種類
 SCOS_T40(D2T35)
  動詞を名詞化させる接尾辞「(〜し)たて」
 SCOS_T41(N2T35)
  名詞であると同時に名詞の接尾辞「〜用」
 SCOS_A0
 SCOS_A1


活用形
 CT_NONE
 CT_SYUSI
 CT_MIZEN
 CT_RENYOU
 CT_RENTAI
 CT_MEIREI
 CT_HEAD 語幹(形容詞、形容動詞のみ)


副活用形
たとえば「動詞カ行5段未然形」は「書く」の場合には
「書か(ない)」と「書こ(う)」の2つ存在して、
これらを区別するために副活用形を定義する。
接続の種類ごとに分類しており、ある活用形でもっとも
一般的と思われるものはデフォルトとしてあつかう。
動詞未然形の場合は
 デフォルト(CST_DEFAULT) 5段 サ変 以外
 「う」へ接続する5段 (CST_V_MIZEN_U)
 「ず」へ接続する5段 (CST_V_MIZEN_ZU)
 「し」 サ変
 「せ」 サ変
 「さ」 サ変
の6種に分類される。
デフォルトとワイルドカード
 CST_NONE
 CST_DEFAULT
動詞の未然形に対応するもの
 CST_V_MIZEN_U 書こ う
 CST_V_MIZEN_ZU せ ず
 CST_V_MIZEN_SI し サ変
 CST_V_MIZEN_SE せ サ変
 CST_V_MIZEN_SA さ サ変
 (CST_DEFAULT) サ変 5段以外の未然形
動詞の連用形に対応するもの
 CST_V_RENYOU_5 書き ます
 CST_V_RENYOU_TA 書い た
 CST_V_RENYOU_DA 死ん だ
動詞の終止形に対応するもの
「たべよ」 とかいった文語的な命令 上下1、サ、カ変
 CST_MEIRE_
形容詞連用形
 CST_A_RENYOU_NA 白くない


オプション
 WF_NONE なにも無し
 WF_INDEP 独立語
 WF_MEISI 連用形が名詞化する動詞


これらの他に、読みに対するフラグを用意している
 F_NONE 
 NF_FAMNAME
 NF_FSTNAME
 NF_UNSPECNAME
 NF_NAME
 NF_NUM
 NF_CNAME
 SF_JN
 SF_NUM
