ここには、XMLを文献学的研究に応用する事に就ての、豊島の見解を述べた文章で、発表済のものを掲載します。
TEI 関連で発表済の文章も併せて御覧下さい。
これは、科研費特定領域研究古典学の再構築の情報処理(A03) 班主宰研究集会「XML pro/con . XML で書く文献学的データ」(2001 年10 月27 日九州大学文学部)での発表予稿を修正したものである。
要旨アジア・アフリカ言語文化研究所で稼働している言語学大辞典などのデータベースがソースをXMLでコーディングしてある事を例に取って、こうした言語学系データベースではタグが有用である事と、DTD に代表される文書構造自体のメタ記述は無用である事を、具体例に則して論じた。音素・形態素など、文字列としては短く多くの用例の中に埋没しがちの項目は予めタグ付けする事で検索が容易になる事、「万葉」「連歌」の様に文献資料名がそのままジャンル名や研究術語名・専門雑誌名になる特質がある場合、それらをタグで切り分けて置く事で誤ったヒットを防ぐ事が出来る事、江戸の版本挿絵の様に本文中に一丁を費やして絵が挿入される場合、絵の前後で分断される本文を続けて理解したいが、これは階層型の構造記述では正しく表現できないばかりか、却って邪魔である事などを指摘した。
又、XML が、階層型モデル・構造主義的意味付与・無構造attribute・全文書一スコープでローカル名が無い、等のSGMLの欠点をそのまま引き継いだ事を指摘し、最新のXMLの改良提案(名前空間等)も、却って問題を深刻にするだけで改善になっていないと指摘した。
意味付与の面からは、文書型の構造記述によってelementの意味を記述する構造主義的意味付与は無意味である事、一方 attribute による意味付与は、詳細化すればする程意味の合意が取れない事を指摘し、後者は、SGML/XMLの欠点というよりも、学術術語の意味自体に詳細な合意が取れない事の反映に過ぎないとした。
以上から、文献学的データの記述方法として見た場合、XML のタグ検証機能(well-formedness)は活用すべきであるが、文書構造自体の検証(validation)を行う事は不要であるとした。
最後に、以上の様な限定したXMLの利用形態からは、SQL系のデータベースで、もう少しDOM(document object model)が容易に用い得る様になる事が望ましい、との希望を述べた。
以上の豊島の報告に対して、討論に参加したXML技術の専門家からは、指摘された問題は、既に十年近くSGMLの問題として認識され、且つ未だに解決を見ていない問題であり、実務の局面では、階層型構造モデルの問題に逢着する事がしばしばある事、意味付与(semantics)に関しては、「プログラムが特定タグに出合った時に如何なる動作をするか」といった、具体的な動作仕様としてのsemanticsは必要・可能だが、それ以上は求め難いのではないかとのコメントがあった。