Help:CirrusSearch/ja

で情報を見つけるための最も速い方法は直接探すことです. ページにボックスがあります.

CirrusSearch（シーラスサーチ）は MediaWiki の拡張機能で既定の MediaWiki 検索以上に、強化されたElasticsearchの検索機能が使われています. ウィキメディア財団は、ウィキメディアプロジェクト群のすべてのサイトにシーラスサーチを使っています. このページではシーラスサーチの機能を説明します. 疑問がここで解消しない際には遠慮なくトークページでお尋ねください. 誰かがお答えします.

MediaWiki 拡張機能の情報は、 を参照してください.

使い方
単語や語句を入力し、Enter や Return キーを押します. あるいは、虫眼鏡アイコン、または「検索」ボタン、（設定により）「表示」ボタンをクリックしてください. 入力文字と同じ名前のページが存在すれば、直接そのページを表示します. 見つからない場合には、ウィキのすべてのページを検索し、検索語に合致する記事の一覧を表示するか、合致する記事が存在しないことを知らせます.

検索ボックスに入力せずに「search」ボタンをクリックすると、追加の検索オプションがある「Special:Search」に移動します（この検索オプションは、検索結果の画面でも常に利用できます）

検索対象を特定の 名前空間、たとえば   ページのみから探すように指定すると役に立つことがあります. そうするには、その名前空間のチェックボックスをオンにします.

改良点
CirusSearch は、標準の MediaWiki 検索と比較して、主に以下の3つの改良点があります:


 * さまざま言語での検索への対応を改善
 * 検索インデックスの更新の高速化. これにより記事に加えられた変更が大幅に高速に検索結果に反映されるようになります.
 * テンプレートの展開. これにより、内容のうちテンプレートに入っている部分がすべて検索結果に反映されるようになります.

検索インデックスの更新頻度
検索インデックスへの更新はほぼリアルタイムで適用されます. ページを変更するとすぐに、それが検索結果に現れるはずです. テンプレートへの変更は、そのテンプレートを参照読み込みしている記事に反映されるまでに数分かかるはずです. テンプレートへの変更はジョブ・キューを使用するため、パフォーマンスは変化する場合があります. 即座に変更を反映させたい場合は空編集を行うことで、強制的に反映させることが可能です. しかし、これは検索が成功している場合には特に必要ではありません.

検索候補の表示
検索ボックスに入力するとドロップダウンで表示される候補のページは、記事の品質の大まかな評価順に並んでいます. その候補の選別には、内部リンクされている数、ページサイズ、外部リンクの数、見出しの数、リダイレクトの数が考慮されます. 検索候補をスキップし、その検索ページを直接表示するには、クエリの先頭にチルダ記号  を1個付けます（例：~Frida Kahlo）. 検索候補は表示されるものの、改行キー (Enter) を押したタイミングで検索結果のページへ移ります.

言語により、アクサンや ダイアクリティカルマーク（発音区別符号）がオンになります. 詳細は言語ごとに特定されます.

全文検索
「全文検索」は「インデックス検索」です. すべてのページはウィキ・データベースに格納されており、リダイレクトページではないページにある全ての単語は、実質、そのウィキの全文を索引にした検索データベースに格納されています. それぞれの知られた単語はそれが見つかったページの一覧として索引にされているので、ある単語の検索は、単一のデータを見つけるごとく早いです. さらにいかなる文言の変更も数秒以内に検索インデックスに反映されます.

ウィキの「全文検索」のインデックスは多数あり、必要な検索のさまざまなタイプに対応しています. ウィキテキスト全体に対して、インデックスを個別の目的ごとに付与し、それに基づいて解析するため、あらゆる方法で柔軟に利用できます. インデックスの例をあげます.


 * 「補助」テキスト ‐ HTML属性 class=searchaux で分類された、ハットノートやキャプション、目次および任意のウィキテキストが含まれます.
 * 「Lead-in」テキスト ‐ ページの上部と最初の見出しの間にあるウィキテキストです.
 * 「カテゴリ」テキスト ‐ ページ最下部の一覧を索引化します.
 * テンプレートのインデックスが作成されます. テンプレートに埋め込み参照された単語の変更により、それを継承するすべてのページが更新されます. （ジョブキューによっては時間がかかります. ）テンプレートが呼び出すサブテンプレートの変更によって、インデックスが更新されます.
 * FileやMediaの名前空間に格納されたドキュメントの内容も、索引化するようになりました. 数千のフォーマットが認識されます.

この機能は多言語で提供されていますが、すべての言語での対応が望まれています. 現在サポートしている言語の一覧は外部サイトelasticsearch.orgにあります. パッチや要望の連絡先は投稿の説明文書を参照してください. Elasticsearch が対象としない言語は、外部第三者のオープンソースなライブラリを使って対応します.

CirrusSearchはクエリを最適化して実行します. 検索結果は近似かどうかで並べ替え、20件ずつ検索結果ページに出力します. 記事から拾った断片を添付し、検索した文字列を太字で表示するなど、後処理を重ねてあります.

検索結果には、しばしばさまざまな予備的な報告が付いています. 「クエリの修正候補」（スペル修正）を示す場合や、どうしても結果が見つからなかった場合には「○○に対する検索結果」（クエリの修正）と（ユーザー指定のクエリの）「代わりに○○を検索」と表示します.

その他の検索機能の要素：


 * 検索結果をリンク元の数で並べ替え.
 * チルダ記号 を先頭に付けて、ページの順位を保存するようなナビゲーションやお奨めを無効化.
 * 文字のスマートマッチング ‐ 外字（キーボードにない文字）をキーボード文字に正規化（または「折りたたむ」）.
 * ヒットした単語や文節を検索結果のページに太字で表示. 強調表示は見た目を分析し、検索インデックス分析機能は実際にページを検出するもので、両者が100％同期しない可能性があります（特に正規表現の場合）. 検出率では、強調表示機能がインデックス分析器能よりもやや正確に一致する場合があります.

語句と修飾子
基本的な検索語は、単語または引用記号「"」で囲んだ語句です. 詳細は言語ごとに規定され、特に語間に空白スペースを置かない言語は特徴的ですが、検索は次の条件により「単語」を認識します.


 * 一連の半角数字
 * 一連の文字
 * 文字や数字の間に挟まる部分語. 例： txt2regex の「2」に当たるもの
 * compoundName（複合語）に含まれる部分語をキャメルケースで判定

「ストップワード」はあまりにも一般的などの理由で無視されます (英語の a、the 他). ストップワードの一覧は言語ごとに固有であり、またストップワードのない言語もあります. 検索ボックスで指定した文字列はコンテンツ と照合（ページ内でレンダリング処理）します. MediaWikiマークアップを含めた「句」であるウィキ文を検索の対象にするには、 insource 検索を使います（下記の節参照）. 検索のパラメータごとにインデックスが異なり、同じ検索語を指定しても独自の解釈で処理します.

単語や文節、パラメータに含む空白あるいはパラメータへの入力には、ホワイトスペース文字やグレースペース文字をいくつでも含めることができます. 「グレースペース文字」とはアルファベットではないすべての文字群 ~!@#$%^&_+-={}|[]\:";'<>?,./ のことです. ホワイトスペース文字にグレースペース文字 が含まれている場合は、一意に「グレースペース文字」と判断され、一連の大きな文字の集団として扱われます. グレースペーストは索引化とクエリの解釈法を規定します. 検索作成、クエリの解釈はグレースペース文字が担っています.

例外は2件あります. 1)「 embedded:colon 」 は1単語として処理（文字扱い). 2）例えば「 1,2,3 」など、埋め込まれたカンマ「, 」は数字として扱う. グレースペース文字は左の場合を除くと無視され、クエリの構文の制限により、修飾語句の文字として解釈されます.

修飾語句とは「 ~ * \? - " ! 」のことです. 構文のどの位置にあるかにより、単語、パラメーター、クエリ全体のいずれかを修飾します. 単語および文節を修飾するものは、ワイルドカードと類似検索、あいまい検索です. パラメーターごとに修飾語句が異なる場合もあるものの、一般原則は次のとおりです.


 * fuzzy-word または fuzzy-phrase 検索によりチルダ記号  を接尾辞に使用します (検索の深さを数字で指定).
 * チルダ記号  をクエリ項目の最初の単語の接頭辞に使うと、ページ遷移を伴わずに検索結果のみ表示します.
 * 単語内のワイルドカード記号として1文字なら (エスケープ付き) 疑問符 \? を、文字数をゼロ以上の無制限にするにはアスタリスク記号 * を使います.
 * 正理論では正しく解釈できる AND も OR も パラメーターには適用できません. 注意点は操作子の AND も OR も現状では'従来型の正理論では機能しません！ 詳細は 理論操作子をご参照ください.
 * 正理論は接頭辞として単語に与えられた - や ! を理解し、単語の通常の意味を「一致する」match から「除外する」exclude に入れ替えます.


 * 語句を引用符で挟むと、「完全一致」検索を指定します. パラメータの場合は引用符で挟み、複数語の入力制限を解除します.
 * 語幹の切り出しは自動処理されますが、無効化するには「完全一致」検索を使います.

文節検索は、検索エンジンにさまざまなヒントを与えて実行します. そのヒントの与え方にはそれぞれ副作用があり、単語の組み合わせに対する検索結果の耐性が異なります. またグレースぺースやキャメルケースあるいはtxt2numberの場合は次のとおりです.


 * words-joined_by_greyspace(characters) または wordsJoinedByCamelCaseCharacters を入力すると出力は words joined by …… characters となり、原形またはグレースペース文字で示します.
 * txt2number には または を出力します.
 * ストップワードはgrey_space またはcamelCaseの境界事例で（グレースペース文やキャメルケースに周辺層を使い）利用できます. 一例として、 文内で the 、 of 、 a を当てると、 the_invisible_hand_of_a が と一致します.

普遍的に知られていない単語が文節で無視されると、「○○の代わりに検索」のレポートが発動します.

文節に照合する以下のタイプはそれぞれ、直前のものの照合結果を内包し検出率を向上させます.


 * 「完全一致」「引用符で挟んだ」を選ぶとグレースペースを許容（照合）します. 「 "exact_phrase" 」「 "exact phrase" 」を選ぶと「 」を照合.
 * greyspace_phraseにより語幹処理が始まり、ストップワードを照合.
 * 「 CamelCase 」を選ぶと追加条件として「 」をすべて小文字と認識して照合. 原因はCirrusSearchの照合は大文字小文字を認識しないため. 注意点は CamelCase 一致を使えない言語もあることです.

パラメータによってはグレースペースの文節扱いとなるものの、「 」などのように「通常の引用符で挟んだ複数の単語」として解釈されます.

派生検索の留意点は大文字小文字を区別することです.

注意点は「完全一致」 検索が具体的に文字として解釈した embedded:colon 記号と、しなかった embedded_underscore 記号の差です. 数字の羅列内の半角カンマ記号, の場合も似たイベントが発生します.

CirrusSearchは「完全一致」の文脈で を指定した場合（insource パラメータの文脈も対象）は 、 、 は除外し、 のみに絞りこみます.

Otherwise, remember that for CirrusSearch words are letters, numbers, or a combination of the two, and case does not matter.

The common word search employs the space character and is aggressive with stemming, and when the same words are joined by greyspace characters or camelCase they are aggressive with phrases and subwords.

When common words like "of" or "the" are included in a greyspace-phrase, they are ignored, so as to match more aggressively.

A greyspace_phrase search term, or a camelCase, or a txt2number term, match the signified words interchangeably. You can use any of those three forms. Now camelcase matches camelCase because Search is not case sensitive, but camelCase matches camelcase because camelCase is more aggressive. Like the rest of Search, subword "words" are not case-sensitive. By comparison the "exact phrase" is greyspace oriented and ignores numeric or letter-case transitions, and stemming. "Quoted phrases" are not case sensitive.

From the table we can surmise that the basic search parser_function -"parser function" is the sum of the basic searches  and.

Making inquiries with numbers, we would find that:


 * Plan9 or Plan_9 matches any of:,  ,  ,  ,
 * "plan9" only matches  (case insensitive)
 * Plan*9 matches  or.

The star * wildcard matches a string of letters and digits within a rendered word, but never the beginning character. One or more characters must precede the * character.


 * When * matches numbers, a comma is considered part of one number, but the decimal point is considered a greyspace character, and will delimit two numbers.
 * Inside an "exact phrase" * is treated as a greyspace character and not a wild card character, so it delimits words.

The \? wildcard represents one letter or number; *\? is also accepted, but \?* is not recognized.

The wildcards are for basic word, phrase, and insource searches, and may also be an alternative to (some) advanced regex searches (covered later).

Putting a tilde ~ character after a word or phrase activates a fuzzy search.


 * For a phrase it is termed a proximity search, because proximal words are tolerated to an approximate rather than exact phrase.
 * For example, "exact one two phrase"~2 matches.
 * For a word it means extra characters or changed characters.
 * For a phrase a fuzzy search requires a whole number telling it how many extra words to fit in, but for a word a fuzzy search can have a decimal fraction, defaulting to word~0.5 ( word~.5 ), where at most two letters can be found swapped, changed, or added, but never the first two letters.
 * For a proximity phrase, a large number can be used, but that is an "expensive" (slow) search.
 * For a word word~2 is most fuzzy with an edit distance of 2 (default), and word~1 is least fuzzy, and word~0 is not fuzzy at all.

For the closeness value necessary to match in reverse (right to left) order, count and discard all the extra words, then add twice the total count of remaining words minus one. (In other words, add twice the number of segments). For the full proximity algorithm, see Elasticsearch slop.

Quotes turn off stemming, "but appending"~ the tilde reactivates the stemming.

insource検索
Insource検索では、ページにレンダリングされた「語」だけでなく「句」を - MediaWikiマークアップを含め、リダイレクトページを除外して検索することができます. ここでいう「句」は、グレースペース (greyspace) を完全に無視します. 例えば、 insource: "state state autocollapse" は にマッチします.

Insource complements itself. On the one hand it has full text search for any word in the wikitext, instantly. On the other hand it can process a regexp search for any string of characters. Regexes scan all the textual characters in a given list of pages; they don't have a word index to speed things up, and the process is interrupted if it runs for more than twenty seconds. Regexes run last in a query, so to limit needless character-level scanning, every regex query should include other search terms to limit the number of documents that need to be scanned. Often the best candidate to add to the regex query insource:/arg/ is insource:arg, where arg is the same (and uses no wildcards).

正規表現の構文は insource: スペースなし、それから /regexp/ です (空白スペースを禁じるパラメタはこれが唯一です. insource:/regexp/ 以外のパラメタはコロン「.」のあとに空白スペースを許容します. )

Insource indexed-search and regexp-search roles are similar in many respects:


 * Both search wikitext only.
 * Neither finds things "sourced" by a transclusion.
 * Neither does stemmed, fuzzy, or proximity searches.
 * Both want the fewest results, and both work faster when accompanied by another clause.

But indexed searches all ignore greyspace; wildcards searches do not match greyspace, so regexes are the only way to find an exact string of any and all characters, for example a sequence of two spaces. Regexes are an entirely different class of search tool that make matching a literal string easy (basic, beginner use), and make matching by metacharacter expressions possible (advanced use) on the wiki. See below.

接頭辞と名前空間
検索では、名前空間の単語は初期の検索ドメインを指定します. ウィキ全体を検索する代わりに、既定では標準名前空間 (main namespace, mainspace) を検索対象とします.

検索ボックスのクエリにおいては単一の名前空間のみ設定できます. 接頭辞パラメーターの、最初もしくは最後の単語を指定すると簡単です.

検索結果を表示するたび、Special:Searchページの上部に現われる検索バーにあるAdvanced枠には2個以上の名前空間を入力して検索できます. ここで検索対象のドメインは名前空間のプロフィールとして設定します (利用者の個人設定ページを開く必要はありません). このときの名前空間の一覧は、将来の検索時に1ページ目に表示され、検索結果の検索対象ドメインがわかります. この設定を解除するには、既定の名前空間 (丸カッコ内に表示) を選択、「記憶」を選んで「検索」ボタンを押します.

The search bar graphically sets and indicates a search domain. "Content pages" (mainspace), "Multimedia" (File), "Everything" (all plus File), "Translations", etc., are hyperlinks that can activate the query in that domain, and then indicate this by going inactive (dark). But the query will override the search bar. When a namespace or prefix is used in the query the search bar activations and indications may be misleading, so the search bar and the search box are mutually exclusive (not complementary) ways to set the search domain.

A namespace term overrides the search bar, and a prefix term overrides a namespace.

Enter a namespace name, or enter, or enter a     colon for mainspace. All does not include the File namespace. File includes media content held at Commons such as PDF, which are all indexed and searchable.

When File is involved, a namespace modifier  has an effect, otherwise it is ignored.

Namespace aliases are accepted.

As with search parameters, local and all must be lowercase. Namespaces names are case insensitive.

The prefix: parameter matches any number of first-characters of all pagenames in one namespace. When the first letters match a namespace name and colon, the search domain changes.

Given a namespace only, prefix will match all its pagenames. Given one character only, it cannot be - dash or ' quote or " double quote. The last character cannot be a colon.

For pagenames that match, their subpage titles match by definition.

The prefix parameter does not allow a space before a namespace, but allows whitespace before a pagename.

The prefix parameter goes at the end so that pagename characters may contain " quotation marks.

The Translate extension creates a sort of "language namespace", of translated versions of a page. But unlike namespace or prefix, which create the initial search domain, the inlanguage parameter is a filter of it. (See the next section.)

検索索引からコンテンツを除外する
コンテンツを検索の索引から除外するには を加えます. すると CirrusSearch は検索索引で当該のコンテンツを無視する指示を受けます（文脈の例はを参照したください. ）

Additionally content can be marked as auxiliary information by adding. すると CirrusSearch は当該のコンテンツをメインの文から除去して、検索とスニペットの照合における優先度の低い任意の欄へ移動させます. This distinction is used for items such as image thumbnail descriptions, 'see also' sections, etc.

フィルター
A filter will have multiple instances, or negated instances, or it can run as a standalone filtering a search domain. A query is formed as terms that filter a search domain.

Adding another word, phrase, or parameter filters more. A highly refined search result may have very many Y/N filters when every page in the results will be addressed. (In this case ranking is largely irrelevant.) Filtering applies critically to adding a regex term; you want as few pages as possible before adding a regex (because it can never have a prepared index for its search).

A namespace is a specified search domain but not a filter because a namespace will not run standalone. A prefix will negate so it is a filter. The search parameters below are filters for which there may be multiple instances.

Insource (covered above) is also a filter, but insource:/regexp/ is not a filter. Filters and all other search parameters are lowercase. (Namespaces are an exception, being case insensitive.)

タイトル内、カテゴリ内
Word and phrase searches match in a title and match in the category box on bottom of the page. But with these parameters you can select titles only or category only.
 * cow*
 * Find articles whose title or text contains words that start with cow
 * intitle:foo
 * Find articles whose title contains foo. Stemming is enabled for foo.
 * intitle:"fine line"
 * Find articles whose title contains fine line. Stemming is disabled.
 * intitle:foo bar
 * Find articles whose title contains foo and whose title or text contains bar.
 * -intitle:foo bar
 * foo がタイトルに含まれず、かつ、bar がタイトルまたは本文に含まない記事を検索します.
 * incategory:Music
 * Category:Music に属する記事を検索します.
 * incategory:"music history"
 * Category:Music_history に属する記事を検索します.
 * incategory:"musicals" incategory:"1920"
 * Find articles that are in both Category:Musicals and Category:1920
 * -incategory:"musicals" incategory:"1920"
 * Find articles that are not in Category:Musicals but are in Category:1920

Intitle and incategory are old search parameters. Incategory no longer searches any subcategory automatically, but you can now add multiple category pagenames manually.

Since Regular expression searches are supported for intitle:
 * intitle:/regex/, intitle:/regex/i

Everything written in the #Regular expression searches is also valid for these searches, including warnings.

Deepcategory
詳細カテゴリ検索ではカテゴリおよびすべての下位カテゴリが検索対象です. ツリーの深さは現在5段階（設定可能）、カテゴリ数は256段階（設定可能）でそれぞれ制限されています. ディープサーチはWDQSのSPARQLカテゴリサービスを使用します. キーワードはdeepcategory またはdeepcat です. 例:


 * deepcat:"musicals"
 * Category:Musicalsまたはいずれかの下位カテゴリにある記事を探す

The DeepCat gadget that previously implemented the parameter was sunsetted in January 2020.

Note that some deepcat searches return incomplete results. See bug for more details.

Linksto
Linksto はコンテンツ ではなく指定したname の内部リンクを探します. ページ名 の入力は正規表現で大文字小文字を識別します. コンテンツページの題名とは、文字種ケースにいかなる改変も加えない状態で正しく合致する必要があります (たとえばのように{ {FULLPAGENAME}}と合致. )

Linksto はリダイレクトを対象にしません. テンプレートで出力されても、[ [wikilinks]]を検索します. URL がたとえウィキの内部リンクであっても、それにより生成されたリンクは検索しません.

"Help:Cirrus Search"に対する"Help:Searching"や"H:S"のリダイレクト先である内部リンクすべてを検索する方法は以下のとおりです.
 * 1) linksto: "Help:Cirrus Search"
 * 2) linksto: Help:Searching
 * 3) linksto: H:S

は"CirrusSearch"に言及しても内部リンクされていない記事を検出します.

Hastemplate
はテンプレートの使用を指定できます. 正規表現でページ名を入力すると特定のテンプレートを使うすべての例 を検出、リダイレクトのページ名のうちどれかを入力するとその名のみ 検出します. 名前検索1回で名前空間の別名も受け付け、大文字はまったく考慮せずリダイレクトは検出します. (既定の名前空間を指定しないboost-template で比較した場合. linksto は名前空間名の別名を除外、大文字小文字を識別、リダイレクトは除外. intitle はリダイレクトを除外. )

Hastemplate finds secondary (or meta-template) usage on a page: it searches the post-expansion inclusion. This is the same philosophy as for words and phrases from a template, but here it's for templates from a template. The page will be listed as having that content even though that content is not seen in the wikitext.


 * hastemplate: "quality image", finds "Template:Quality image" usage in your default search domain (namespaces).
 * hastemplate: portal:contents/tocnavbar, finds mainspace usage of a "Contents/TOCnavbar" template in the Portal namespace.

For installations with the Translate extension, hastemplate searches get interference wherever Template:Translatable template name wraps the template name of a translatable template. Use insource instead.

Inlanguage
inlanguage は翻訳拡張機能のインストールとの併用では、高度な検索やページカウントにとって重要です.


 * inlanguage: 言語コード

の指定により、検索結果をその言語に限定します.

例えば


 * そのウィキにある日本語ページをすべて数える
 * all: inlanguage: ja


 * ヘルプ名前空間からドイツ語とスペイン語のページを抽出
 * help: -inlanguage: de -inlanguage: es


 * Translate を無視し英語を基本言語に指定して、次を追加.
 * inlanguage:en

Contentmodel
contentmodel: キーワードにより、検索範囲を特定のコンテンツ型に制限します. Content handlersの使える型を示します. 例：


 * JSON ページのみ表示：
 * contentmodel:json

subpageof
下位ページを検出.
 * subpageof: 親ページ

例


 * CirrusSearch の下位ページをすべて検出.
 * subpageof:CirrusSearch


 * 親ページのページ名に空白スペースが含まれる場合は、「"」で挟む.


 * subpageof:"Requests for comment"

Articletopic
The articletopic: keyword allows filtering search results by topic. For possible topics see. E.g. articletopic:books will filter the search results to articles about books. articletopic:books|films will filter to articles about books or films. articletopic:books articletopic:films will filter to articles which are about both books and films.

Only mainspace articles belong into topics, and topics are only available on Wikipedias. Unlike other filters, articletopic also does page weighting: articles which are a stronger match for a topic will be higher in the search results (while articles which aren't about that subject at all will be removed from the result set completely).

Topic models are derived via machine learning from ORES. Any given article receives a score on dozens of different topics, and therefore may appear under different keywords. For instance, the article on Albert Einstein may appear as a "physics" article and a "biography" article. All Wikipedias have scores available -- some have local-language topic models that have coverage on all articles. Other languages do not have local ORES models, and are using English-language scores assigned to articles in the local language that also exist in English Wikipedia. The languages with such "cross-wiki" scores do not have 100% coverage -- depending on the language, it may only be something like 60% of articles that have topics available.

Topic-related search data is updated weekly, so recently created articles might not show up in topic-based search queries.

ページの重み
Weighting determines snippet, suggestions, and page relevance. The normal weight is one. Additional weighting is given through multipliers.

If the query is just words, pages that match them in order are given a boost. If you add any explicit phrases to your search, or for certain other additions, this "prefer phrase" feature is not applied.

Morelike

 * morelike:page name 1|page name 2|...|page name n
 * 指定した記事と文章がもっとも似たものを探す.
 * morelike:wasp|bee|ant
 * Find articles about stinging insects.
 * morelike:template:search|template:regex|template:usage
 * Find templates about regex searching for template usage on the wiki.

morelike is a "greedy" keyword, meaning that it cannot be combined with other search queries. If you want to use other search queries, use morelikethis in your search:


 * morelikethis:bee hastemplate:"featured article"
 * Find articles about bees that also have the "featured article" template.

morelike: 照会を使えるのは入力する記事から文節を選んだときで、その文節で照会をかけます. 動作を調整するには、検索結果の URL に以下のパラメータを追加します:

これらの設定を永続化するには システム メッセージ の   を無効にする.
 * cirrusMltMinDocFreq : 文書 (分割データベースごと) で、判断に必要な用語を 1 つ要求するときの最小値.
 * cirrusMltMaxDocFreq : 文書 (分割データベースごと) で、判断に必要な用語を 1 つ要求するときの最大値.
 * cirrusMltMaxQueryTerms : 判断する用語の最大値.
 * cirrusMltMinTermFreq : 判断すべき docの入力について用語が出現する最小値. フィールドが小さい場合は . 既定値は必ず 1.
 * cirrusMltMinWordLength : 判断すべき用語の長さの最小値. 既定値は 0.
 * cirrusMltMaxWordLength : 単語を無視する場合の上限値. 既定値は無限 (0).
 * cirrusMltFields (コンマで区切った値のリスト): これらをフィールドとして使用. 許容フィールドは title 、 text 、 auxiliary_text 、 opening_text 、 headings 、 all.
 * cirrusMltUseFields ( | ): 使用はフィールドデータに限定.  既定値: システムは   の内容からフィールドを抽出、照会を作成.
 * cirrusMltPercentTermsToMatch : 一致する用語のパーセント. 既定値は 0.3 (30 %)
 * 例:

Prefer-recent
Adding prefer-recent: anywhere in the query gives recently edited articles a slightly larger than normal boost in the page-ranking rules. Prefer-recent is only applied when using the default  sort order.

It defaults to boost only 60% of the score, in a large, 160 day window of time, which can be entered in the query as prefer-recent:0.6,160. This plays well with other page ranking rules, and is intended for most searches.

You can manipulate the rules: prefer-recent:boost,recent Technically "boost" is the proportion of score to scale, and "recent" is the half life in days. The boost is more than the usual multiplier, it is an exponential boost. The factor used in the exponent is the time since the last edit.

例えば


 * prefer-recent:,7

Pages older than 7 days are boosted half as much, and pages older than 14 days are boosted half as much again, and so on. For a simple "sort by date" in highly refined search results, where page ranking and boosting are largely meaningless, just boost the entire score.
 * prefer-recent:1,7 (weeks)
 * prefer-recent:1,1 (days)
 * prefer-recent:1,0.0007 (minutes)
 * prefer-recent:1,0.0001 (8.64 seconds)
 * prefer-recent:1,0.00001 (seconds)

Boost-templates
You can boost pages' scores based on what templates they contain. This can be done directly in the search via  or you can set the default for all searches via the   message. replaces the contents of  if the former is specified. The syntax is a bit funky but was chosen for simplicity. Like prefer-recent, boost-templates is only applied when using the default  sort order. Some examples:


 * File:boost-templates:"Template:Quality Image|200%" incategory:china
 * Find files in the China category sorting quality images first.


 * File:boost-templates:"Template:Quality Image|200% Template:Low Quality|50%" incategory:china
 * Find files in the China category sorting quality images first and low quality images last.


 * File:boost-templates:"Template:Quality Image|200% Template:Low Quality|50%" popcorn
 * Find files about popcorn sorting quality images first and low quality images last. Remember that through the use of the  message this can be reduced to just.

Don't try to add decimal points to the percentages. They don't work and search scoring is such that they are unlikely to matter much.

一例として英語版ウィキペディアで特集記事の評価値を虚偽に100万%に操作したと仮定します. すると検索子がその記事内で使用された単語と同じ場合、単語そのものを含む記事名はヒットせず、その特定の特集記事がヒットしてしまいます. 複数単語検索も同様に異常になり、 で検索しても正しい結果のBrave New Worldはヒットせず、前述の特定の特集記事が検索結果として表示され、実状は検索子の単語がそれぞれ記事内のバラバラの位置に記述されているだけという状態になりかねません.

正規表現の検索
A basic indexed-search finds words rendered visible on a page. Hyphenation and punctuation marks and bracketing, slash and other math and computing symbols, are merely boundaries for the words. It is not possible to include them in an indexed search.

正規表現の検索ドメインを検索子基準の検索結果の1、2例に限定すると、検索結果はほんとうにかなり 早く出力されます.

An "exact string" regexp search is a basic search; it will simply "quote" the entire regexp, or "backslash-escape" all non-alphanumeric characters in the string. All regexp searches also require that the user develop a simple filter to generate the search domain for the regex engine to search:


 * insource:"debian.reproducible.net" insource: / debian\.reproducible\.net / 
 * insource:"c:\program files (x86)" insource: / C\:\\Program Files \(x86\) /i 
 * insource:"{ {template}}" insource: / "{ {template}}<\/tag>" /
 * insource:"[ [title|link label]]'s" insource: / "[ [title|link label]]'s" /
 * insource: / regexp / prefix:{ {FULLPAGENAME}}

The last example works from a link on a page, but { {FULLPAGENAME}} doesn't function in the search box.

For example: Special:Search/insource:/regex/ prefix: finds the term regex on this page.

名前空間と接頭辞を特定しないクエリは、利用者の既定の検索ドメイン (設定はSpecial:Search などどの検索結果ページでも可能) を対象にします. 利用者の中には既定の検索ドメインを「すべての名前空間」つまりウィキ全体に指定しています. 大規模なウィキでこのような利用者が無条件の正規表現検索を実行すると、おそらく検索を完了する前にHTMLタイムアウトが発生して処理に失敗します.

正規表現検索は実際には検索ドメイン内の各ページを1文字ずつ精査します. インデックス検索はそれとは対照的に、実際はウィキデータベースとは別に維持されるデータベースにいくつかのレコードを問い合わせることで、ほぼ即座に結果を提供します. そのため、insource://（あらゆる種類の正規表現）を使用する場合、他の検索用語を1つ作成して、正規表現検索ドメインをできるだけ制限することを検討します. 多くの検索用語がインデックスを使用しており、/regexp/に対して、即座により検索ドメインを絞り込んで提供します. 一般的な効果の順に紹介します:


 * insource:"" with quotation marks, duplicating the regexp except without the slashes or escape characters, is ideal.
 * intitle (without regex search), incategory, and linksto are excellent filters.
 * hastemplate: is a very good filter.
 * "word1 word2 word3", with or without the quotation marks, are good.
 * namespace: is practically useless, but may enable a slow regexp search to complete.

無条件の正規表現検索を使用するには、テストパターンを記入したページを作成して保存、その完全なページ名に接頭辞パラメタprefix を使います. The match will be highlighted. It searches that page (in the database) and its subpages.

正規表現検索の効率性向上に役立たないのは、morelike、 boost-template、prefer-recentなどのページスコア演算子です.

メタ文字
この節ではメタ文字が使われた正規表現検索の回避法を取上げます. メタ文字の実際の意味は構文の解説をご参照ください.

例:


 * to search a namespace, gauge the number of pages with a single term that is a namespace. This will list the number of pages in that namespace.
 * starting out to find again what you may have seen, like "wiki-link" or "(trans[in]clusion)" start with namespace and insource filters.

文字列を限定して絞込み

 * 実行中の検索プロセスは、たとえば「2 + 2 = 4」や「site」など期待する値で絞り込みができます. これはregexの最良の使用法で、唯一の正規表現の単語として検索の絞り込みに用いると、正規表現がクロールするページ数を制限することから理想的です.

You can start out intending an exact string search, but keep in mind:


 * regex only search the wikitext not the rendered text, so there are some differences around the markup, and even the number of space characters must match precisely.
 * You are obligated to supply an accompanying filter.
 * You must learn how to escape regex metacharacters.

There are two ways to escape metacharacters. They are both useful at times, and sometimes concatenated side-by-side in the escaping of a string.


 * \charでその1つをバックスラッシュエスケープします. insource:/regexp/ は正規表現をスラッシュ「/」で制限解除します. /reg/exp/の入力はあいまいなので、/reg\/exp/と入力してください.
 * それらの文字列を"文字列"のように二重引用符で囲んでください. 文字をエスケープしても問題はなく、含まれているかもしれないメタ文字とともに、任意の文字をエスケープしてかまいません. 引用符でエスケープすると、もっときれいです.
 * 検索方法の混在はできませんが、連続処理はできます.

Double-quotes escaping using insource:/"regexp"/ is an easy way to search for many kinds of strings, but you can't backslash-escape anything inside a double-quoted escape.


 * instead of
 * is as good as
 * But  always.
 * And .  It finds the   literally, which is not the   you probably wanted.

insource:/regexp/ を使用するバックスラッシュ・エスケープで区切り文字「"」と「/」をエスケープできるものの、メタ文字を考慮しエスケープ範囲を下記に限定するべきです.


 * To match a  delimiter character use.
 * To match a  delimiter character use.
 * The escaped metacharacters would be.
 * The equivalent expression escaped with double-quotes is.

基本的な文字列の検索表現に insource:/"regexp"/を用いる場合、もっとも単純なアルゴリズムは「"」と「/」にのみ気をつければ、メタ文字を考慮に入れる必要は必ずしもありません.
 * 1) Write   out. (The /" delimiters "/ are not shown.)
 * 1) Replace   with   (previous double-quote: stop, concatenate, quote restart).
 * 1) Replace   with   (stop, concatenate, start).
 * 1) You get , showing concatenation of the two methods.

The square-bracket notation for creating your own character-class also escapes its metacharacters. To target a literal right square bracket in your character-class pattern, it must be backslash escaped, otherwise it can be interpreted as the closing delimiter of the character-class pattern definition. The first position of a character class will also escape the right square bracket. Inside the delimiting square brackets of a character class, the dash character also has special meaning (range) but it too can be included literally in the class the same way as the right square bracket can. For example both of these patterns target a character that is either a dash or a right square bracket or a dot:  or.

For general examples using metacharacters:


 * insource:"2+2=4" insource:/"2+2=4"/ matches "2 + 2 = 4", with zero spaces between the characters.
 * insource:"2 + 2 = 4" insource:/2 ?\+ ?2 ?= ?4\./ match with zero or one space in between. The equals = sign is not a metacharacter, but the plus + sign is.
 * insource:"[ [link|2\3?]]\" insource:/"[ [link|2\3?]]< "\/" tag>"/

There are some notable differences from standard regex metacharacters:


 * newline検索に や をもっぱら当てることはありません. To search for a string that contains a newline, you can do a search like   which means not a curly brace, then two curly braces, then any two characters except a curly brace, space, or pipe, then a  tag. The "any character except" will include a newline in the search. Note thas this search was designed only to match to the following string:


 * The dot . metacharacter stands for any character including a newline, so .* matches across lines.
 * The number # sign means something, and must be escaped.
 * The ^ and $ are not needed. Like "grep" (global per line, regular expression, print each line), each insource:// is a "global per document, regular expression, search-results-list each document" per document.
 * and  support a multi-digit numeric range like   does, but without regard to the number of character positions, or the range in each position, so   works, and even   works.

Regex on titles
The insource keyword does only search the page source content. To run regex searches on the title strings intitle:/regex/ can be used.

高度な例
For example, using metacharacters to find the usage of a template called Val having, inside the template call, an unnamed parameter containing a possibly signed, three to four digit number, possibly surrounded by space characters, and on the same page, inside a template Val call, a named argument  having any allowable spaces around it, (it could be the same template call, or a separate one):



Note that the = sign in "fmt commas" is not needed but that adding it would not change the search results. フィルタを2件使用しregexpがクロールするどのページでも最高の可能性が出るため検索が速いのです.

制限値
特定の地理座標の近くにあるとわかっている事物のページに検索対象を限定することができます. 座標は、緯度と経度の組を直接指定することも、座標の元となるページ名を入力することもできます. 検索する範囲を限定したい場合は、最初にその範囲を入力します. 例:


 * neartitle:"San Francisco"
 * neartitle:"100km,San Francisco"
 * nearcoord:37.77666667,-122.39
 * nearcoord:42km,37.77666667,-122.39

boosted
You can alternatively increase the score of pages within a specified geographic area. 構文は 制限値検索と同じですが、キーワードに重みづけをしてあります. これにより検索範囲のページのスコアを効率的に倍増し、近似の検索結果を上位近くに配置する確率が高くなります.


 * boost-neartitle:"San Francisco"
 * boost-neartitle:"100km,San Francisco"
 * boost-nearcoord:37.77666667,-122.39
 * boost-nearcoord:42km,37.77666667,-122.39

ファイルの属性を検索
MediaWiki 1.28 以降、CirrusSearch は 名前空間でファイルの属性を索引化した検索をサポートしています. 次の操作ができます.
 * ファイルのメディアの種類
 * MIME タイプ
 * データサイズ
 * 幅と高さの数値
 * 解像度
 * 該当する場合はビットの深さ

ファイルの種別
ファイルの種類に基づく検索は分類を指定でき、事務文書や動画、画像がラスタかベクターかなどが使えます. 現在、次の分類が利用できます.



この一覧は将来的に拡張されるかもしれません. 関連情報は の を参照してください.

検索の構文例は、 filetype:{type}. 例:

filetype:video - 検索対象は動画

ファイルタイプ検索は大文字小文字を区別しません.

filemime
MIME 形式のファイル. 構文の記述：

filemime:{MIMEtype} - この MIME 形式のファイルを検索

引数を引用符ではさむと、完全一致検索を指定できます. 引用符がない場合、MIME タイプの要素の部分一致も適用されます.

例:


 * filemime:"image/png" - MIME 形式で  と完全一致するファイルを検索
 * filemime:pdf - PDF 文書をすべて検索
 * -filemime:pdf - PDF 形式の文書はすべて除外（Commonsに特異的）

The MIME 形式の検索では大文字と小文字は識別しません.

ファイルサイズ
指定のサイズをKB換算して照合し、ファイルを検索 （KBとは 1024 バイト相当）. 文の例は次のとおり.


 * filesize:{number} または filesize:>{number} - サイズが指定の数値以上のファイル
 * filesize:<{number} - file with size no more than given number
 * filesize:{number},{number} - サイズが指定の数値の範囲内のファイル

例:


 * filesize:>20 または filesize:20 - 20KB 以上のファイル
 * filesize:<1024 - 1MB 以下のファイル
 * filesize:100,500 - サイズが100KB から 500KB のファイル

ファイルの大きさ
大きさを指定した検索が可能です. 幅、高さ、解像度 (w高さと幅の乗数のルート)、ビット深度です. これらの属性を与えられていないファイルもあります. 次の構文を使います.


 * {measure}:{number} - サイズが指定の数値と一致するファイル
 * {measure}:>{number} - サイズが指定の数値以上のファイル
 * {measure}:<{number} - サイズが指定の数値以下のファイル
 * {measure}:{number},{number} - サイズが指定の数値の範囲内のファイル

の値は次のいずれかに当たります.

$fileh1または$fileh2 - 画像ファイルの幅

fileh または fileheight - 画像ファイルの高さ

fileres - 画像解像度（前述参照）

filebits - ファイルの bit 深度

例:

filew:>800 fileh:>600 - 画像サイズが 800x600 px 以上のファイル

filebits:16 - 色深度が 16-bit の画像ファイル

fileheight:100,500 - 画像の高さが100 - 500 px のファイル

Wikibase 検索
拡張機能は 複数の検索キーワードを指定し、特定の Wikibase 項目を検索しやすくします. その他の Wikibase サイト群で利用でき、たとえばWikimedia Commonsから画像に構造化データのあるものを検索する場合を含みます. 詳細は を参照してください.

ウィキ間検索の結果
Wikimedia プロジェクト群を対象とした串刺し検索には、改良型のウィキ間検索結果（別称はインターウィキ検索結果または姉妹プロジェクト検索結果）があります）.

直観的な 並べ替え
既定では適合順の 並べ替えに加え、CirrusSearchではその他の直観的な並べ替え順の指定ができます. 並べ替え順に 以外を指定すると、スコアを左右する検索キーワードをすべて無効にし、たとえば や の場合です. キーワードも処理されますが、効果はありません.

並べ替えの選択肢は MediaWiki API から利用でき、  パラメータを指定します.

並べ替えのオプションは検索 URL にたとえばhttps://www.mediawiki.org/w/index.php?search=foo&sort=last_edit_descなどの を書き加え、手動で設定できます.

有効な並べ替え順には以下を含みます.

高度なオプション用インターフェース


AdvancedSearch拡張機能は検索ページに改良型のインターフェースを補い、前述のオプションを利用者にわかりやすく使えるようにします. 詳細はこちらのユーザーマニュアルを参照してください.

関連項目

 * Completion Suggester - CirrusSearchの増分的な検索機能
 * Wikimedia Discovery/Search/Glossary - 定義、文脈、検索関連の語句のリンク.
 * CirrusSearch の開発と発表の詳細は Search/Oldをご参照ください.
 * MWSearch の詳細はHelp:検索をご参照ください. 独自に検索拡張機能を備えていない多くのウィキで使われています.
 * MWSearch の詳細はHelp:検索をご参照ください. 独自に検索拡張機能を備えていない多くのウィキで使われています.

外部リンク

 * From Lucene - クエリの概念を的確に解説
 * (as of 2017-12-06)
 * Extension:CirrusSearch/Profiles – 索引作りにさまざまな影響を与える調整可能なパラメータのセット
 * Wikimedia blog articles related to search