NEWS
2009/1/3 生人形あるいは送り仮名について
明けましておめでとうございます。
今朝、「生人形」についての番組を見た。江戸末期から明治にかけて流行した精緻な人形で、松本喜三郎と安本亀八という人形師が腕を競い合ったらしい。
ちょっと気になって「生き人形」で検索したら1件、あれと思って「生人形」で検索したら26件、こんなものかと思ったけれど、「松本喜三郎」で検索すると8件、「安本亀八」でも8件ですが、その記事を見ると「活人形」が使われていて、これで見るかぎり昔は「活人形」の用例が多いようだ。
で、「生き人形」=「生人形」、「活人形」を登録しました。これで、「生き人形」で検索すると37件ヒットします。

☆送り仮名については、「送り仮名」(52件)自体が「送仮名」(5件)ともなるように、他にも同様なケースがあります。どのようにするか検討しておりますが、当面、このようなケースは様々な可能性をお試しください。

【1/11 追加】
そういや下の「当て字」そうですね。「当て字」23件「当字」4件、更に「宛字」21件、「宛て字」は0でした。





12/26 聖書の略称と当て字
昨日はクリスマスでしたが、「聖書」の略称と当て字の「辞書」も作らないといけません。

聖書の「ローマ人への手紙」は、「ロマ書」と略称されます。(なぜか「ローマ書」とは言わないようです。)更に明治期には「羅馬書」と表記されます。したがって、現在使われている「ローマ人への手紙」=「ロマ書」,「羅馬書」、また「ロマ書」も現在一般に使われていますので、「ロマ書」=「ローマ人への手紙」,「羅馬書」を辞書登録しなくてはなりません。
これを、「聖書」のすべてについて行わないと、内村鑑三の「聖書之研究」や海老名弾正の「新人」などは、充分な検索ができないことになります。
とりあえず「ロマ書」について、やってみましたがいかがでしょうか。

【疑問と悩み】
聖書の訳にもいろいろいありますが、ごく一般的には1887年のいわゆる元訳(舊新約全書)と、1954年の口語訳の対象でいいと思うのですが、どうでしょうか? 専門家の方がご覧になっていたらご意見ください。1970年の新改訳も「列王紀」が「列王記」になったり違ってきますが、こういうものはどのレベルまで「辞書」を作るべきでしょうか?


12/26 5ヶ月で60万件増
7/13に1008万件と報告しておりましたので、5ヶ月で60万件ほどの増加になります。この間、追加入力した戦前期の主な雑誌は、内村鑑三の「聖書之研究」、田口卯吉の「東京経済雑誌」、「信濃教育」など多岐にわたります。
遅れている採録誌一覧を鋭意準備中です。



12/15 簡易検索に障害 12/16 復旧しました
簡易検索に障害が発生しています。
恐れ言いますが「詳細検索画面」から検索を実行して下さい。

【復旧】
ご迷惑をおかけしました。


12/12 OCR入力について
「研究ノート」といったタイトルの、チェックしたかぎり半数近くが「ノ-ト」となっている。
これは手入力では考えられない間違いだ。OCR入力に特有の間違いである。
他をみても同様に「ー」(音引き)のところが「-」(ハイフン)となっているデータが少なくない。
読むぶんには、気づかないまま問題にならないかも知れないが、「ノート」で検索しても「ノ-ト」は検索に引っかからない。対策検討中。
ちなみに、
ノート(音引き)   15541
ノ―ト(ダッシュ)    1
ノ‐ト(全角ハイフン)  12
ノ-ト(半角ハイフン) 10662
OCRに於けるそれぞれの出現頻度にそれほど差は無いと思われるので、さすがに、ダッシュと全角ハイフンは校正でチェックされるようだ。

【応急処置 12/12】
数の少ない「ノ―ト」と「ノ‐ト」についてはデータを修正し、「ノート」=「ノ-ト」と辞書登録しました。
「ノート」で検索すると26216件ヒットします。これは上の合計値と一致します。

【追加 12/20】
ついでに気取って「ノオト」と書く人が今もいるようなので「=ノオト」も辞書登録しました。これで「ノート」の検索結果は、約500件増えました。
ノートとノオトは、区別しなくてはという方は、「詳細検索」で、辞書のチェックを外して検索して下さい。

【追加 1/7】
「インタビュー」にも「インタビュ-」というケースがあり、とりあえず「インタビュー」=「インタビュ-」と登録しました。