データ駆動型歴史研究のための共用テキストレポジトリ構築

科研費研究

若手研究

データ駆動型歴史研究のための共用テキストレポジトリ構築

研究代表者 橋本 雄太(本館・研究部)

研究目的

本研究の目的は、日本語歴史資料テキストの共用レポジトリ(歴史資料版「青空文庫」)の構築を通じて、歴史資料を対象としたデータ駆動型研究の基盤を確立することである。テキストマイニングやデータ可視化など、機械処理を駆使した歴史研究の遂行には機械可読形式で提供される大量のテキストデータの存在が不可欠である。しかしわが国は歴史資料のデジタルテキスト化について諸外国に大きな遅れを取っている。本研究では、まず①日本語文献資料に特化した軽量マークアップ言語の開発を通じてテキストの構造化記述を支援し、②また人文学資料の国際標準機械可読フォーマットであるTEI との互換性を確立することで、その学術資源としての利用可能性を担保する。③さらに歴史資料翻刻テキストのユーザー参加型レポジトリを開設し、第一段階としてクラウドソーシングによって得られた650 万文字の翻刻テキストを公開する。