鍼灸古典OCR

なぜ鍼灸古典のOCRが必要か
経穴・配穴・刺法・灸法の歴史的蓄積を、研究可能な形へ

なぜ鍼灸古典のOCRが必要か

鍼灸は、人体の経穴(けいけつ、いわゆるツボ)の選択と刺法・灸法によって身体に介入する医学技術です。古代から現代まで、鍼灸の臨床は「どの病症に、どの経穴を、どの組み合わせ(配穴)で、どの刺法・灸法で用いてきたか」という具体的な歴史的蓄積の上に成り立ってきました。鍼灸を学び、実践する者にとって、この長い蓄積を文献に遡って確認できることは、技術の継承と理解にとって本質的に重要です。

一方、鍼灸の臨床は単一の標準化された方法論によって行われているわけではありません。経絡治療、中医鍼灸、現代鍼灸、伝統的な家伝、各流派の固有技術など、多種多様な臨床流派と治療方法が並存しています。それぞれの流派が依拠する古典文献は同一とは限らず、複数の文献を横断して読むことで初めて、自分が用いている経穴・配穴・刺法の歴史的背景を立体的に理解できます。

しかし、鍼灸古典の多くは、現代の検索可能なデジタルテキストとして整備されていません。画像ファイルとしてのみ提供されている文献では、特定の経穴名や病症名を全文横断で検索することは不可能であり、書き下しや現代語訳を作る作業も大きな労力を必要とします。本プロジェクトは、こうした古典文献を 機械可読なテキスト へ変換することを通じて、研究・比較・整理の基盤を作ることを目的としています。これは臨床推奨のための整備ではなく、古典文献を研究的に参照可能にするための基盤整備です。

経穴・配穴・刺法・灸法を読むということ

鍼灸臨床の核心は、経穴(けいけつ、いわゆるツボ)の選択にあります。一つの病症に対して、どの経穴を、どの組み合わせ(配穴)で、どの刺し方(刺法)あるいはどの灸法で用いるか——この選択が臨床効果を左右します。古典には、長い時間をかけて積み上げられた、病症と経穴・配穴・刺法・灸法の対応関係が記述されています。たとえば次のような問いがあります。

これらの問いに答えるには、特定の教科書だけでは不十分で、複数の鍼灸古典を原文に近い形で参照し、書き下し・現代語訳の段階を経て、比較・整理する作業が必要です。これは 臨床推奨ではなく、古典資料の研究的参照 です。臨床判断は、各鍼灸師が自身の流派と臨床経験に基づいて行うものであり、本プロジェクトはその参照基盤を整える役割を担います。

OCRが担う役割

OCR(Optical Character Recognition、光学文字認識)は、画像として保存されている古典文献の頁を、検索・比較・コピー可能な文字データに変換する工程です。古典籍のOCRには、現代日本語のOCRとは異なる特有の難しさがあります。

このため、本プロジェクトでは古典籍向けに開発されたOCRエンジンを使用しています。OCR処理は機械処理の段階であり、原本との照合や本文校訂は別途の作業として段階的に進める必要があります。

千金方 RB00003825 ── 叩き台として

本プロジェクトでは、唐代の孫思邈による『備急千金要方(千金方)』を、鍼灸古典OCR整備の 叩き台 として位置づけ、最初の整備対象としました。千金方は東アジア医学史における百科全書的著作であり、薬物・処方・鍼灸・病症の各領域を網羅した重要文献です。京都大学貴重資料デジタルアーカイブ(富士川文庫)所蔵の千金方 RB00003825 を底本として、全頁の画像取得とOCR処理を完了しました。

1,455画像取得頁数(全数)
1,455OCR処理頁数(全数)
30セクション数
2,124鍼灸キーワード抽出件数
1.6 MB全文結合サイズ

OCR方式

OCRには NDLkotenOCR-Lite を使用しました。これは国立国会図書館が公開している古典籍向けOCRエンジンで、和刻本・漢籍の縦書きテキストや、変体仮名・異体字を含む頁にも対応できる特性を持ちます。

未校正のOCR結果という段階

千金方の全頁OCRが「完了」したという状態は、機械処理工程としての完了であって、翻訳完成や本文校訂の完了を意味するものではありません。本プロジェクトでは、OCRの状態を以下のように段階区分しています。

段階意味千金方の現状
未校正のOCR結果OCR処理を完了した機械読取テキスト。誤読・欠字・改行ずれを含む可能性がある未校正状態。完了
TEXT_CLEANED明らかなOCR誤読を修正し、段落構造・章節構造を整理した状態。未着手
本文確認済み原本画像との照合および専門家検証を経た、本文校訂済みの状態。未着手

現段階で本プロジェクトが保持しているのは未校正のOCR結果までであり、本文確認済みの段階ではありません。千金方の本文をそのまま臨床判断や学術引用の根拠として直接使用することは適切ではありません。

残された作業と今後の整備対象

千金方の残作業

今後追加候補となる文献

千金方は鍼灸古典OCR整備の叩き台であり、今後はこれを起点として、以下のような他の重要文献を順次追加していく構想です。各文献のアップロード・整備は、千金方のOCR品質評価が一定の段階に達した後、順次着手予定です。

テキストソースの区別

鍼灸古典の電子テキストは複数のソースが流通しています。本プロジェクトでは、出典の異なるテキストを混同せず、ソースを明示的に区別して扱います。

これらのテキストは出典・整備工程が異なるため、本文比較や引用の際には必ずソースを区別して扱う必要があります。

本プロジェクトでの位置づけ

鍼灸古典OCRは、本プロジェクトにおいて重要だが整備段階の途上にある領域です。将来的には、経穴・配穴・病症・刺法・灸法の関係を複数の鍼灸古典に渡って横断的に検索・参照できる資料環境を構築し、鍼灸の臨床家・研究者が自分の用いている技術の古典的背景を確認できる場を提供することを目指しています。これはあくまで研究基盤の整備であり、自動的な治療提案を行うものではありません。MLMN理論の L5(経絡層)の理解を、複数文献の比較を通じて深めるための基礎データとして機能させていきます。

本ページに記載した数値は研究内部の作業時点での集計であり、OCR品質精査の進行に伴って解釈が変化する可能性があります。本文の取り扱いは Safety & Disclaimer をご参照ください。