全文検索とは
全文検索とは「検索対象文書の本文から特定の文字列を探し出す」ことを、一般に全文検索と呼びます。たとえば図書館で図書を探すとき、通常は書名や著者名、刊行年を指定して探すことになりますが、本文に何らかの文字列が含まれる図書を探す、というのが全文検索です。全文検索は便利な機能ですが、これを行うには、本文
全文検索とは「検索対象文書の本文から特定の文字列を探し出す」ことを、一般に全文検索と呼びます。たとえば図書館で図書を探すとき、通常は書名や著者名、刊行年を指定して探すことになりますが、本文に何らかの文字列が含まれる図書を探す、というのが全文検索です。全文検索は便利な機能ですが、これを行うには、本文
DoqueDBの類似文書検索結果を改善する方法を解説した記事です。DoqueDBには関連語拡張という機能があり、検索結果の一部を検索条件にフィードバックすることで検索結果を改善できます。また、検索語上限を増やすことにより、類似文書検索の精密度を上げることもできます。記事では、これらの方法について具
はじめにDoqueDBは、自由度の高い日本語全文検索や類似文書検索を特長とするデータベース管理システム(DBMS)です。今回、同様の機能をもつ他社ソフトウェアと性能比較を行いましたので、結果を公開します。Elasticsearchなど、データベース機能を持たない全文検索エンジンは対象としておりま
ワークス徳島人工知能NLP研究所が公開しているSudachi同義語辞書を使って、DoqueDBの全文検索で同義語検索を行う方法を解説した記事です。同義語検索を用いることで、ユーザーの負担なく検索もれの少ないキーワード検索を実現することができます。通常のRDBMSより全文検索エンジン寄りの検索を行い
DoqueDBにはPerlのAPIも付属しています。現時点ではこれといったマニュアルもなく、また、特別なインストーラーなどは準備しておりません。ソースコードの doqueDB/sydney/Perl フォルダー以下のファイル(DBDとNet以外にあるものは不要)を適当な場所に配置しておけば、p
DoqueDBではUnicodeの任意の文字をデータとして扱うことができます。 この記事では文字の取り扱いについて注意すべきことがらをまとめます。Unicode追加面の文字を扱うことができます Unicodeの基本多言語面だけでなく、追加面の文字もデータとして操作できます。
DoqueDB開発チームでは、開発にご協力くださる方々を求めています。DoqueDBはGitHubで公開されており、ユーザーの方々からの質問やご意見、改善提案については、IssueあるいはPull Requestの作成をお願いしています。GitHubリポジトリは以下のものです。https
DoqueDBの正規化の仕様をMySQLやPostgreSQLと詳しく比較した解説記事です。DoqueDBの全文検索では、大文字小文字、全角半角の違いだけでなく、「インタフェース」「インターフェイス」のような外来語の表記ゆれについても区別なく検索することができます。また、全文索引をもたないカラムで
長らくお待たせいたしましたが、日本語全文検索データベースDoqueDBを正式公開しました。Linux共通のバイナリパッケージは本サイトよりダウンロードできます。https://www.doquedb.ricoh.co.jp/download/ソースコード一式はGitHubリポジトリから取得可能で