NEWS
7/16 実証実験
ようやく正式に申請が認められたので、NDLデジタルコレクションのメタデータを使って実証実験を開始します。有償データベースの場合、メタデータのハーベストは有料になるとのことですが、NDL側の準備が整わないので今回は限定的なタイトル数での実験になります。


 NDLのデジタルコレクションの雑誌のメタデータの構造は、書籍と同じ一冊単位になって います。

検索は記事単位でなくその雑誌のすべての目次を対象に行われます。したがって、ともすると 期待値と違った結果が出てしまいます。

 たとえば「川端康成 伊豆の踊子」で検索した場合の期待値は「川端康成の書いた伊豆の踊 子という作品」あるいは「川端康成 の伊豆の踊子についての記事」ですが、NDL の検索システムでは「目次」を対象としているために、ある雑誌の目次全体のなかに「川端康 成」「伊豆の踊子」の単語が文字通り含まれてさえいれば、当該の 雑誌が検索結果に出てきてしまうのです(言い換えれば、たとえその雑誌が「川 端康成の書いた伊豆の踊子という作品」や「川端康成の『伊豆の踊子』について の記事」を扱っていなくても検索にヒットしてしまうのです)。

 上記の構造のため、詳細検索で検索するときは、二つの検索語を「目次」に入れなければな り ません。タイトル欄に「伊豆の踊り子」を入れても、著者欄に「川端康成」を入れても記事は一件もヒットしません。検索結果に表れるのであれば、それはタイ トルが「伊豆の踊子」で著者が「川端康成」という雑誌でなければならないのです。

また、メタデータの中にあまりに簡略すぎて検索ができないものがあります(例「映画と演芸」など)。

 そこで、ざっさくプラスでは、NDLデジタルコレクションの雑誌部分のうち、まず請求記 号が「雑」で始まる(旧・帝国図書館所蔵) 雑誌のメタデー タを順次ハーベストして、記事単位で検索できるように改造します。「映画と演芸」など簡略すぎるメタデータは独自にデータを作成していきます。

 詳細画面は、デジタルコレクションに遷移するので、著作権処理が終わって公開のステータ スが「国立国会図書館内限定」から「図書館送信資料」「インターネット公開」と推移するにしたがって一般 の図書館やインターネットで本文を読むことができるようになります。


【2014 Demonstration Experiment】
 In NDL(National Diet Library) Digital Collection, metadata for periodicals consist of periodical’s volume, as well as the metadata for books. And the database of search engine is based on periodical’s indexes, not on articles. Therefore sometimes it happens that the search shows different result from what you are looking for.

For example, when you put terms “川端康成 伊豆の踊り子” in search box and start searching, the expected value would be a work titled “伊 豆の踊り子”, that is written by川端康成, or articles about 川端康成’s work 『伊豆の踊り子』. However, since the database is based on periodical’s indexes, regardless of contents or relation between those terms, any periodical could appear in search result as long as those two terms “伊豆の踊り子” and “川端康成” are literally included in its whole index (in other words, any periodical could hit even if it has nothing to do with 川 端康成’s『伊豆の踊り子』or articles about it).

Under such database structure, in advanced search, you have to put those terms in “index” box to find articles. No periodicals would hit if you put “伊豆の踊り子” in title or “川端康成” in author box. If there were a hit, that periodical would have to be titled “伊豆 の踊り子” and its author would have to be “川 端康成”. In addition, some data are difficult to find in this database if the term is too simple (ex. 「映画と演芸 (movie and performing arts)」)

Hence, in Zassaku Plus, by harvesting the NDL Digital Collection’s metadata for periodicals, which starts successively from ones with the reference code begin with 「雑」and formerly owned by Imperial Library, it enables to provide article-based search. Also, by making original dataset, it will deal with the problem of “too simple” metadata such as 「映画と演芸」.

Since detail of results links to NDL Digital Collection, periodicals whose copyright were cleared will be available at public library or online depending on its publication status, which shifts from “Available only at the NDL” to “Available only at the NDL and partner libraries” and to “Available Online”.







2014/5/22 長谷川と谷川
長谷川利行という画家がいます。
今まで当データベースでは一件もヒットしなかったはずです。
ある雑誌のデータを登録するとき、その名前を見たので搭載後検索してみましたが、ヒットしません。おかしいなと、いろいろ調べたら、次のようないたずらをしたのが原因でした。

「谷川」を検索すると、「長谷川」もヒットしてしまいます。
それで、「谷川 -長谷川」と辞書に登録してありました。
ところが、長谷川は谷川を含みますから、長谷川は自己否定してしまっていたのです。
で、この項目を削除しました。その結果、長谷川利行は、81件ヒットします。

長谷川利行を調べていた人がいたら、ごめんなさい。(他の長谷川さんも)

同様のケースがないか、内蔵辞書を再点検しました。



2014/5/20 データベースのデータ。
データベースのデータは冊子体などのように一覧表示するものと違って中身が見えない。
したがって、欠陥のあるデータは、検索にヒットしないだけで、なぜヒットしないか利用者にはわからない。したがって利用者は「ない」と判断して疑わない。

ちょっとわけがあって、あるデータベースのメタデータを調べた。

前後の号の、目次項目は20行から30行あるのだが、ある号のみ以下のような記述になっていた。

画報 p1~44
読物 p2~48

たった2行のみである。これを担当した個人の横着なのかわからないが、だんだん腹が立ってきた。この号の記事は永久にヒットすることはなく、闇に埋もれてしまうだろう。担当者はそういうことを考えたことがあるのだろうか。

我々ができることは限られているが、何とかしたいものだ。
実はこの場合は、当該の号のみだが、あるタイトルの雑誌全号にわたって上記のような記述のされているケースもある。

追伸
結構あるね。APIで済む問題じゃないね。(何のことかわからないでしょうね)









2014/4/10 挿絵画家の名前他
1) このデータベースには「新青年」の「総目次」が入っていますが、挿絵画家の名前が入っていません。「新青年」に限らず、挿絵画家は重要な情報なので判明したものから追加していきます。まずは、「新青年」に竹中英太郎を補充中。
竹中英太郎はルポライター竹中労の父。

2) 「文芸春秋」の戦前期アップしました。戦後のNDLデータの空白期の補充はすでに完了していたので一応「文芸春秋」の創刊から直近までそろったことになります。
これで戦前からの総合雑誌は「中央公論」「改造」「文芸春秋」「日本及日本人」はそろいました。あと、講談社の「現代」などいくつも残っています。道は遠い。

でも、これで1360万件を突破しました。

3) 今年度からNDLデータの実装を中止します。

NDLデータ<CiNii Articles<NDLサーチ

という構造で、当データベースはCiNii Articlesと連携検索をしているし、実装はあまり意味がないと判断しました。
その分、独自データの充実を目指します。

【余談】
実はよりデータ量の多いNDLサーチとの連携検索を試みたのですがAPIによる連携には時間がかかりすぎて(分単位)実用にならず、当面CiNii Articlesとの連携をお願いします( →NII様 )。

【訂正】
NDLデータ>CiNii Articles>NDLサーチ(誤)
NDLデータ<CiNii Articles<NDLサーチ(正)




1350万件、突破しました.
おそまきながらのご報告ですが……

2月に「日本及日本人」の暫定版をアップしたことにより
搭載データ数は13,575,681件となり、いよいよ1350万件を超えました!

2月までに搭載した雑誌のうち、主要なものを以下にあげます。


「コスモス」1号(1946年4月)~100号(1988年8月15日) 2273
「食の雑誌(食食食)」創刊号(昭和49年冬)~第45号(昭和60年冬) 1647
「三田評論」210(1915年1月) ~549(1943年11月(休刊) 復刊~1978年3月1日 13116
「文章世界」第1巻第1号(1906年3月15日)~第16巻第12号(大正10年12月1日) 10614
「流芳」第1年第1号(1925年3月1日)〜第19年第7号(1943年12月) 2394
「月刊日本及日本人」39(昭和3年1月)〜440(昭和20年2月) 16024
「文敎の朝鮮」第1號(大正14年9月)~第229號(昭和19年1月) 5097
「亞細亞」1(明治24年6月29日)~3-3(明治27年10月21日) 1513
「日本及日本人」450(明治40年1月1日)~830(大正11年3月1日) 17867
「早稲田文学(第一次)」第1期・第1号(明治24.10)~第3期第7年号外(明治31.10) 2098
 などなど。
 さらに、量として大きなものではありませんが、あの「血と薔薇」全四冊のデータも入りました。



そして2月あたまのサーバー移転にともなって、画面もマイナーチェンジしています。
皆様、もうお気づきのことと思いますが、グラフの表示範囲を変更できるようになりました。
また、グラフ下の「独自データ」「NDLデータ」マークをクリックすると
クリックしたデータのグラフを隠すことができます。