TextSearch

TextSearch[source,form]

form にマッチするテキストを含む source が言及しているファイルを検索する.

TextSearch[source,form,"prop"]

各結果についての特性 prop を返す.

詳細とオプション

  • TextSearchは,任意に組み合せ可能な次の基本的な検索形式をサポートする.
  • "string"ドキュメント中に完全な文字列がなければならない
    {s1,s2,}すべての siがドキュメント中になければならない
    s1|s2|少なくとも siの1つがドキュメント中になければならない
    "field"s1siは指定されたフィールドになければならない
    FixedOrder[s1,s2,]siは指定の順序で出現しなければならない
    Except[q]q がドキュメント中にあってはならない
    SearchAdjustment[q,]q が出現し,特定の重みを割り当てられる等
    Between[],LessThan[],特定の範囲等の数等が出現する
    SearchQueryString["query"]完全な検索エンジンスタイルのクエリ
    All索引が付いたすべてのドキュメントが返される
  • TextSearchは,ContainsAll[]ContainsAny[]ContainsNone[]And[]Or[]Not[]の形もサポートする.
  • TextSearchは,次をソースとして使うことを許容する.
  • "path" または File["path"]個々のファイルまたはファイルのディレクトリ
    "name"SearchIndexObject["name"]
    SearchIndexObject[]CreateSearchIndexが生成した検索索引
    {obj1,obj2,}オブジェクトのリスト
  • TextSearchSearchResultObject[]式を返す.
  • 特性 propContentObjectの特性のいずれでもよい.その場合,TextSearch[source,form,prop]SearchResultObject[][All,prop]に等しい.
  • TextSearch[source,form,prop]では,次の追加的な特性がサポートされている.
  • "Count"検索結果の総数
    "ContentObject"リスト中のコンテンツオブジェクトとしての
    "Association"連想中の検索結果
  • 特性 "Score"は検索結果が保存されるデフォルトの順序を定義する.
  • 次は使用可能なオプションである.
  • ContentFieldOptions <||>フィールドの重み付けオプション
    DocumentWeightingRules None特定のフィールドの値に基づいたドキュメントの重み付け
    MaxItems All返す項目数
  • バイナリファイルによく使われる拡張子を持つファイルやテキストではないバイト値を持つファイルは,索引を付けられず,検索もされない.
  • TextSearchは,テキスト形式でインポートできる多くのファイル形式をサポートする.サポートされるファイル形式には,"TXT","CSV","JSON","XML","PDF","NB","EPS"等がある.
  • TextSearchは,テキスト要素を持たないほとんどの画像,音声,その他のファイル形式をサポートしない.
  • TextSearchは,Import[file, "Plaintext"]で与えられるファイルの"Plaintext"要素を読む.

例題

すべて開くすべて閉じる

  (3)

特定のディレクトリの索引を作る:

指定のディレクトリ内の「dog」という単語を含むファイルを,索引を使って検索する:

高度なクエリ構文を使って "man"は含むが"animal"は含まないファイルを検索し,コンテキストのスニペットを表示する:

TextSearchを使って索引を付けずに辞書のクエリを行うこともできる:

両方の単語を含むファイルを検索する:

どちらか片方の単語を含むファイルを検索する:

クエリは組み合せることができる:

スコープ  (1)

テキスト例を使って索引を作る:

第2索引を加える:

両方の索引を検索する:

オプション  (3)

ContentFieldOptions  (1)

クエリ時の索引内のフィールドの重みを指定する:

"Keywords"フィールドの重みを2に設定する:

重みが設定されていないと,"doc1"のスコアが高くなる:

DocumentWeightingRules  (1)

"ConfidenceLevel"フィールドを定義し,これをドキュメントの重み付けに使う:

MaxItems  (1)

最初の結果だけを得る:

特性と関係  (1)

クエリでは大文字小文字を区別しない:

クエリは単語全体のみをマッチする:

考えられる問題  (2)

検索時に指定できるのはフィールドの重みだけである.他のコンテンツフィールドオプションは索引作成時に指定しなければならない:

デフォルトで"IgnoreCase"Trueになっているので,次の検索は結果を返す."IgnoreCase"は検索時には指定できない:

検索時に同じオプションが指定されると結果は得られない:

別の索引にマッチするオブジェクトの"Score"フィールドは,一般には比較できない:

事実,一般に,複数の索引について検索すると"Score"でソートされたものではない結果が返される:

Wolfram Research (2015), TextSearch, Wolfram言語関数, https://reference.wolfram.com/language/ref/TextSearch.html (2017年に更新).

テキスト

Wolfram Research (2015), TextSearch, Wolfram言語関数, https://reference.wolfram.com/language/ref/TextSearch.html (2017年に更新).

CMS

Wolfram Language. 2015. "TextSearch." Wolfram Language & System Documentation Center. Wolfram Research. Last Modified 2017. https://reference.wolfram.com/language/ref/TextSearch.html.

APA

Wolfram Language. (2015). TextSearch. Wolfram Language & System Documentation Center. Retrieved from https://reference.wolfram.com/language/ref/TextSearch.html

BibTeX

@misc{reference.wolfram_2024_textsearch, author="Wolfram Research", title="{TextSearch}", year="2017", howpublished="\url{https://reference.wolfram.com/language/ref/TextSearch.html}", note=[Accessed: 25-November-2024 ]}

BibLaTeX

@online{reference.wolfram_2024_textsearch, organization={Wolfram Research}, title={TextSearch}, year={2017}, url={https://reference.wolfram.com/language/ref/TextSearch.html}, note=[Accessed: 25-November-2024 ]}