雑誌記事索引集成データベース ざっさくプラス 総合雑誌から地方紙まで、明治から現在まで雑誌記事索引集成データベース ざっさくプラス 総合雑誌から地方紙まで、明治から現在まで

検索記事
総数
20世紀メディア情報DB連携時31,279,234
20世紀メディア情報DB非連携時29,314,337

お知らせ

8/25 雑で始まる請求記号

NDLのデジタルコレクション(雑誌)のうち、請求記号が「雑」で始まる約3000タイトルについて、ハーベストして実証実験することを申請したのですが、最初、有償提供については課金するということで、当面100タイトルのみを実験的に許可するということでした。

100タイトルばかりでは実験にならないのでどうしたものかと思っていたら、本日、当初の3000タイトルについてハーベストして実装する許可が出ました。3000タイトル16万冊のメタデータが実装可能になります。一冊20行として、320万件となります。
ただ粒度の粗いメタデータは、その度合いにおいて追加したり、新しく作ります(新しく作っても永続的識別子は雑誌一冊単位なので本文のデジタルデータに遷移します)ので、その分は増加する計算です。

この実装が完了したら、請求番号がZで始まるもののうち、創刊が戦前にさかのぼるものについて申請を行う予定です。


7/16 実証実験

ようやく正式に申請が認められたので、NDLデジタルコレクションのメタデータを使って実証実験を開始します。有償データベースの場合、メタデータのハーベストは有料になるとのことですが、NDL側の準備が整わないので今回は限定的なタイトル数での実験になります。


 NDLのデジタルコレクションの雑誌のメタデータの構造は、書籍と同じ一冊単位になって います。

検索は記事単位でなくその雑誌のすべての目次を対象に行われます。したがって、ともすると 期待値と違った結果が出てしまいます。

 たとえば「川端康成 伊豆の踊子」で検索した場合の期待値は「川端康成の書いた伊豆の踊 子という作品」あるいは「川端康成 の伊豆の踊子についての記事」ですが、NDL の検索システムでは「目次」を対象としているために、ある雑誌の目次全体のなかに「川端康 成」「伊豆の踊子」の単語が文字通り含まれてさえいれば、当該の 雑誌が検索結果に出てきてしまうのです(言い換えれば、たとえその雑誌が「川 端康成の書いた伊豆の踊子という作品」や「川端康成の『伊豆の踊子』について の記事」を扱っていなくても検索にヒットしてしまうのです)。

 上記の構造のため、詳細検索で検索するときは、二つの検索語を「目次」に入れなければな り ません。タイトル欄に「伊豆の踊り子」を入れても、著者欄に「川端康成」を入れても記事は一件もヒットしません。検索結果に表れるのであれば、それはタイ トルが「伊豆の踊子」で著者が「川端康成」という雑誌でなければならないのです。

また、メタデータの中にあまりに簡略すぎて検索ができないものがあります(例「映画と演芸」など)。

 そこで、ざっさくプラスでは、NDLデジタルコレクションの雑誌部分のうち、まず請求記 号が「雑」で始まる(旧・帝国図書館所蔵) 雑誌のメタデー タを順次ハーベストして、記事単位で検索できるように改造します。「映画と演芸」など簡略すぎるメタデータは独自にデータを作成していきます。

 詳細画面は、デジタルコレクションに遷移するので、著作権処理が終わって公開のステータ スが「国立国会図書館内限定」から「図書館送信資料」「インターネット公開」と推移するにしたがって一般 の図書館やインターネットで本文を読むことができるようになります。


【2014 Demonstration Experiment】
 In NDL(National Diet Library) Digital Collection, metadata for periodicals consist of periodical’s volume, as well as the metadata for books. And the database of search engine is based on periodical’s indexes, not on articles. Therefore sometimes it happens that the search shows different result from what you are looking for.

For example, when you put terms “川端康成 伊豆の踊り子” in search box and start searching, the expected value would be a work titled “伊 豆の踊り子”, that is written by川端康成, or articles about 川端康成’s work 『伊豆の踊り子』. However, since the database is based on periodical’s indexes, regardless of contents or relation between those terms, any periodical could appear in search result as long as those two terms “伊豆の踊り子” and “川端康成” are literally included in its whole index (in other words, any periodical could hit even if it has nothing to do with 川 端康成’s『伊豆の踊り子』or articles about it).

Under such database structure, in advanced search, you have to put those terms in “index” box to find articles. No periodicals would hit if you put “伊豆の踊り子” in title or “川端康成” in author box. If there were a hit, that periodical would have to be titled “伊豆 の踊り子” and its author would have to be “川 端康成”. In addition, some data are difficult to find in this database if the term is too simple (ex. 「映画と演芸 (movie and performing arts)」)

Hence, in Zassaku Plus, by harvesting the NDL Digital Collection’s metadata for periodicals, which starts successively from ones with the reference code begin with 「雑」and formerly owned by Imperial Library, it enables to provide article-based search. Also, by making original dataset, it will deal with the problem of “too simple” metadata such as 「映画と演芸」.

Since detail of results links to NDL Digital Collection, periodicals whose copyright were cleared will be available at public library or online depending on its publication status, which shifts from “Available only at the NDL” to “Available only at the NDL and partner libraries” and to “Available Online”.





2014/5/22 長谷川と谷川

長谷川利行という画家がいます。
今まで当データベースでは一件もヒットしなかったはずです。
ある雑誌のデータを登録するとき、その名前を見たので搭載後検索してみましたが、ヒットしません。おかしいなと、いろいろ調べたら、次のようないたずらをしたのが原因でした。

「谷川」を検索すると、「長谷川」もヒットしてしまいます。
それで、「谷川 -長谷川」と辞書に登録してありました。
ところが、長谷川は谷川を含みますから、長谷川は自己否定してしまっていたのです。
で、この項目を削除しました。その結果、長谷川利行は、81件ヒットします。

長谷川利行を調べていた人がいたら、ごめんなさい。(他の長谷川さんも)

同様のケースがないか、内蔵辞書を再点検しました。

2014/5/20 データベースのデータ。

データベースのデータは冊子体などのように一覧表示するものと違って中身が見えない。
したがって、欠陥のあるデータは、検索にヒットしないだけで、なぜヒットしないか利用者にはわからない。したがって利用者は「ない」と判断して疑わない。

ちょっとわけがあって、あるデータベースのメタデータを調べた。

前後の号の、目次項目は20行から30行あるのだが、ある号のみ以下のような記述になっていた。

画報 p1~44
読物 p2~48

たった2行のみである。これを担当した個人の横着なのかわからないが、だんだん腹が立ってきた。この号の記事は永久にヒットすることはなく、闇に埋もれてしまうだろう。担当者はそういうことを考えたことがあるのだろうか。

我々ができることは限られているが、何とかしたいものだ。
実はこの場合は、当該の号のみだが、あるタイトルの雑誌全号にわたって上記のような記述のされているケースもある。

追伸
結構あるね。APIで済む問題じゃないね。(何のことかわからないでしょうね)







2014/4/10 挿絵画家の名前他

1) このデータベースには「新青年」の「総目次」が入っていますが、挿絵画家の名前が入っていません。「新青年」に限らず、挿絵画家は重要な情報なので判明したものから追加していきます。まずは、「新青年」に竹中英太郎を補充中。
竹中英太郎はルポライター竹中労の父。

2) 「文芸春秋」の戦前期アップしました。戦後のNDLデータの空白期の補充はすでに完了していたので一応「文芸春秋」の創刊から直近までそろったことになります。
これで戦前からの総合雑誌は「中央公論」「改造」「文芸春秋」「日本及日本人」はそろいました。あと、講談社の「現代」などいくつも残っています。道は遠い。

でも、これで1360万件を突破しました。

3) 今年度からNDLデータの実装を中止します。

NDLデータ<CiNii Articles<NDLサーチ

という構造で、当データベースはCiNii Articlesと連携検索をしているし、実装はあまり意味がないと判断しました。
その分、独自データの充実を目指します。

【余談】
実はよりデータ量の多いNDLサーチとの連携検索を試みたのですがAPIによる連携には時間がかかりすぎて(分単位)実用にならず、当面CiNii Articlesとの連携をお願いします( →NII様 )。

【訂正】
NDLデータ>CiNii Articles>NDLサーチ(誤)
NDLデータ<CiNii Articles<NDLサーチ(正)