Help:CirrusSearch/de

CirrusSearch is a MediaWiki extension that uses Elasticsearch to provide enhanced search features over the default MediaWiki search. The Wikimedia Foundation uses CirrusSearch for all Wikimedia projects. This page describes the features of CirrusSearch. Falls deine Frage hier nicht beantwortet wird, stelle sie auf der Diskussionsseite. Jemand wird dir dann darauf antworten.

Für Informationen zur MediaWiki-Erweiterung siehe Extension:CirrusSearch.

Was wurde verbessert?
Die neue Suchmaschine weist drei wesentliche Verbesserungen gegenüber der alten Suchmaschine auf, namentlich:
 * Bessere Unterstützung für Suchanfragen in unterschiedlichen Sprachen.
 * Schnellere Aktualisierungen für den Suchindex, d. h. Änderungen an Artikeln werden viel schneller in den Suchergebnissen sichtbar.
 * Ausklappen von Vorlagen, d. h. der gesamte Vorlageninhalt von Artikeln wird in den Suchergebnissen angezeigt.

Wie oft wird der Suchindex aktualisiert?
Der Suchindex wird nahezu in Echtzeit aktualisiert. Du solltest nach deinen Änderungen suchen können, sobald du sie gemacht hast. Veränderungen an Templates sollten in den Artikeln, die sie enthalten, innerhalb von "Minuten" wirksam werden. Da Veränderungen an Templates in einer Warteliste abgearbeitet werden, kann die Performance variieren. Ein null edit an dem Artikel wird die Veränderung erzwingen, dies sollte aber nicht nötig sein, solange alles normal verläuft.

Suchvorschläge
Wenn du etwas in das Suchfeld eingibst, das dir mögliche Seiten zur Auswahl gibt, dann sind die Ergebnisvorschläge, die du erhältst, inhaltlich dieselben wie die Artikel, sortiert nach der Anzahl der eingehenden Links. Suchvorschläge können übersprungen werden und Anfragen werden direkt zu den Suchergebnissen weitergeleitet. Schreibe eine Tile  vor die Suchanfrage. Beispiel "~Frida Kahlo". Die Suchvorschläge werden trotzdem noch erscheinen, aber durch Drücken der Eingabetaste kommst du wieder auf die Ergebnisseite. ASCII/Akzente/Diakritika sind für englische Texte aktiviert, doch es gibt beim Ergebnis ein paar Formatierungsprobleme. Siehe.

Volltextsuche
Eine "Volltextsuche" ist eine "indizierte Suche". Alle Seiten werden in der Wiki-Datenbank gespeichert und alle darin enthaltenen Wörter werden in der Datenbank der Suche gespeichert, die ein Index zum Volltext des Wikis ist. Jedes sichtbare Wort wird indiziert zu der Liste der Seiten, wo es gefunden wurde, daher ist die Suche nach einem Wort so schnell wie einen einzelnen Eintrag nachzuschlagen. Weiterhin wird der Suchindex binnen Sekunden aktualisiert, falls Formulierungen geändert wurden. Es gibt viele Indexe zum "Volltext" eines Wikis, um die vielen benötigten Arten von Suchen zu erleichtern. Der gesamte Wikitext wird mehrmals zu vielen speziellen Indexen indiziert, während jeder davon den Wikitext so ausliest wie es gerade optimal ist. Beispiel-Indexe beinhalten: Tausende von Formaten werden erkannt. Es gibt Übersetzungen für dutzende Sprachen, aber es werden alle gebraucht. Es gibt eine Liste der momentan unterstützten Sprachen unter elasticsearch.org; siehe Dokumentation für Unterstützer, um Anfragen oder Patches beizutragen. CirrusSearch optimiert deine Anfrage und führt sie aus. Die ausgegebenen Titel werden nach Relevanz sortiert und stark nachbearbeitet, jedes Mal 20, für die Seite mit den Suchergebnissen. Beispielsweise werden Beispielausschnitte aus dem Artikel gesammelt und Suchbegriffe werden in Fettschrift hervorgehoben.
 * "Hilfs-"text, einschließlich Notizen, Unterschriften, ToC, und alle Wikitexte, die mit dem HTML-Attribut class=searchaux versehen wurden
 * "Einleitungs-"text ist der Wikitext zwischen dem Anfang der Seite und der ersten Überschrift.
 * Der "Kategorie"-Text indiziert die Listen im unteren Bereich.
 * Vorlagen werden indiziert. Wenn sich mit einbezogene Worte einer Vorlage ändern, dann werden alle Seiten aktualisiert, die es einbeziehen. (Das kann eine lange Zeit in Anspruch nehmen, abhängig von der Warteschleife.) Wenn die Untervorlagen von einer Vorlagenänderung betroffen sind, wird der Index aktualisiert.
 * Dokumenteninhalte, die in dem Datei/Medien-Namensraum gespeichert sind, werden jetzt indiziert.

Suchergebnisse werden oft von verschiedenen vorläufigen Berichten begleitet. Diese beinhalten "Meinten Sie" (Rechtschreibkorrektur), und, falls sonst keine Ergebnisse gefunden werden würden, lautet die Ausgabe "Zeige Ergebnisse für" (Korrektur der Anfrage) und "Suche stattdessen nach" (deine Anfrage).

Suchmerkmale beinhalten auch:
 * Sortieren von Navigationsvorschlägen nach Anzahl der eintreffenden Links
 * Beginnen mit dem Tilde-Zeichen, um Navigation und Vorschläge so zu deaktivieren, dass der Seitenrang beibehalten wird.
 * Smart-matching von Zeichen durch Normalisierung (oder "Folding") von Nicht-Keyboard-Zeichen zu Keyboard-Zeichen.* Wörter und Phrasen, die zutreffen, werden auf der Seite der Suchergebnisse in Fett hervorgehoben.

Wörter, Phrasen und Modifikatoren
Der grundlegende Suchbegriff ist ein Wort oder eine "Phrase in Anführungszeichen". Die Suche erkennt ein "Wort" als: Ein "Stoppwort" ist ein Wort, das ignoriert wird (weil es häufig auftritt, oder aus anderen Gründen). Ein gegebener Suchbegriff stimmt mit dem "Inhalt" überein (der auf der Seite angezeigt wird). Um stattdessen nach Übereinstimmungen mit dem Wikitext zu suchen, wird der insource Suchparameter benötigt (Siehe section unten). Jeder Suchparameter hat seinen eigenen Index und interpretiert den gegebenen Begriff auf seine eigene Art.
 * ein Ziffernfolge
 * eine Buchstabenfolge
 * Unterwörter zwischen Übergängen von Buchstaben/Ziffern, wie z. B. in txt2regex
 * Unterwörter innerhalb eines compoundName mithilfe von camelCase

Abstände zwischen Wörtern, Phrasen, Parametern und Eingaben zu Parametern können großzügige Mengen an Leerzeichen und "Greyspace-Zeichen". "Greyspace-Zeichen" sind alle nicht-alphanumerischen Zeichen ~!@#$%^&*_+-={}|[]\:";'<>?,./ . Eine gemischte Folge von "Greyspace-Zeichen" und Leerzeichen ist "Greyspace" und wird wie eine große Wortgrenze behandelt. Indexe werden mit Greyspace gebildet und Anfragen werden interpretiert.

Zwei Ausnahmen sind 1) wo ein embedded:colon ein Wort ist (wenn es als Buchstabe behandelt wird) und 2) wo ein eingebettetes Komma, so wie in 1,2,3, wie eine Zahl behandelt wird. Greyspace-Zeichen werden sonst ignoriert, außer sie können aufgrund der Syntax einer Anfrage als modifizierende Zeichen interpretiert werden.

Die Modifikatoren sind ~ * \? - " ! . Je nach Platzierung in der Syntax, können sie auf einen Begriff zutreffen, auf einen Parameter oder eine gesamte Anfrage. Wort- und Phrasenmodifikatoren sind Wildcard-, Verwandtschafts- und ungenaue Suchen. Jeder Parameter kann seine eigenen Modifikatoren haben, aber allgemein gilt:
 * Eine ungenaue Wort- oder Phrasensuche kann ein Tilde  Zeichen (und eine Zahl mit Angabe des Grades) mit einem Suffix versehen
 * Ein Tilde  Zeichen, das eine Anfrage mit Präfix versieht, garantiert Suchergebnisse anstatt von irgendeiner möglichen Navigation.
 * Ein Wildcard-Zeichen innerhalb eines Wortes kann ein (entwischtes) Frage \? zeichen sein für ein Zeichen oder ein Asterisk * Zeichen für mehr.
 * Die Wahrheitslogik kann AND und OR interpretieren, Parameter jedoch nicht.
 * Die Wahrheitslogik versteht - oder ! als Präfixe für einen Begriff, um die gewöhnliche Bedeutung des Begriffes von "Übereinstimmung" und "Ausschließen" umzukehren.
 * Anführungszeichen kennzeichnen die Suche nach einem "genauen Ausdruck". Bei Parametern werden sie auch benutzt, um Eingaben mit mehreren Wörtern zu begrenzen.
 * Stemming ist automatisch, kann aber durch die Benutzung eines "genauen Ausdrucks" ausgeschaltet werden.

Eine Phrasensuche kann von verschiedenen Hinweisen an die Suchmaschine initiiert werden. Jede Methode des Hinweisens hat einen Nebeneffekt dahingehend, wie tolerant die Übereinstimmung mit der Wortsequenz sein wird. Bei greyspvce, camelCase, oder txt2number sind die Hinweise wie folgt: Ein Bericht einer "Suche stattdessen nach" wird ausgelöst, wenn ein allgemein unbekanntes Wort in einem Ausdruck ignoriert wird.
 * über words-joined_by_greyspace(characters) oder wordsJoinedByCamelCaseCharacters wird words joined by gefunden ... characters, in reiner Form oder in Form von Greyspace.
 * zu txt2number wird eine Übereinstimmung mit  oder   gefunden.
 * Stoppwörter werden für Grenzfälle aktiviert (in der Peripherie) eines grey_space oder camelCase Ausdrucks. Ein Beispiel mit the, of , und a ist die Übereinstimmung von the_invisible_hand_of_a mit.

Jede der folgenden Arten des Phrasen-Abgleichs enthält und erweitert die Toleranzen der vorherigen: Eine Wortsuche findet "zusätzlich" überall auf der Seite Wörter.
 * Ein "genauer Ausdruck" "in Anführungszeichen" toleriert (die Übereinstimmung mit) Greyspace. Über "exact_phrase" oder "exact phrase" wird eine Übereinstimmung mit  gefunden.
 * Ein greyspace_phrase initiiert Stemming und die Überprüfung von "Stoppwörtern".
 * Über CamelCase wird "zusätzlich"  gefunden, alles kleingeschrieben. CirrusSearch legt keinen Wert auf Groß- und Kleinschreibung.

Einige Parameter interpretieren Greyspace-Ausdrücke, dagegen interpretieren andere Parameter wie "insource" lediglich den normalen "Ausdruck in Anführungszeichen".

Bitte beachte, dass Groß- und Kleinschreibung bei Stemming keine Rolle spielt.

Beachte, wie die Suche nach einem "genauen Ausdruck" das embedded:colon-Zeichen als Buchstabe interpretiert hat, aber nicht das embedded_underscore Zeichen. Ein ähnlicher Fall tritt auf bei einem Komma, Zeichen innerhalb einer Zahl.

Über  findet CirrusSearch im Kontext eines "genauen Ausdrucks" (der den Kontext des "insource"-Parameters beinhaltet) keine Übereinstimmung mit ,   oder  , sondern nur eine mit.

Andernfalls sei daran erinnert, dass für CirrusSearch Wörter Buchstaben, Zahlen oder ein Kombination von beiden ist und Groß- und Kleinschreibung keine Rolle spielen.

Die normale Wortsuche benutzt Leerzeichen und ist agressiv mit Stemming und wenn die gleichen Wörter mit Greyspace-Zeichen oder camelCase verbunden werden, sind sie agressiv mit Phrasen und Unterwörtern.

Wenn häufige Wörter wie "von" oder "der" in einem Greyspace-Ausdruck vorkommen, werden sie ignoriert, um eine bessere Übereinstimmung zu finden.

Ein greyspace_phrase Suchbegriff oder camelCase oder ein txt2number Begriff stimmt mit den angegebenen Wörtern gleichermaßen überein. Man kann jede dieser drei Formen benutzen. Jetzt stimmt camelcase mit camelCase überein, weil die Suche nicht auf Groß- und Kleinschreibung achtet, aber camelCase stimmt mit camelcase überein, weil camelCase agressiver ist. Wie der Rest der Suche, wird die Groß- und Kleinschreibung bei "Unterwörtern" nicht beachtet. Im Vergleich dazu orientiert sich der "genaue Ausdruck" am Greyspace und ignoriert Übergänge von Zahlen oder Buchstaben und Stemming. "Phrasen mit Anführungszeichen" achten nicht auf Groß- und Kleinschreibung.

Aus der Tabelle können wir annehmen, dass die grundlegende Suche parser_function -"parser function" die Summe aus den grundlegenden Suchen  und   darstellt.

Wenn man Anfragen mit Zahlen macht, würde es zu folgenden Ergebnissen kommen: Die Stern * Wildcard passt zu einer Abfolge von Buchstaben und Ziffern innerhalb eines ausgegebenen Wortes, "aber nie zu einem Anfangszeichen". Ein oder mehr Zeichen, ein Prozent des Wortes, muss vor dem * Zeichen stehen. Die \? Wildcard stellt einen Buchstaben oder eine Zahl dar; *\? wird auch akzeptiert, aber \?* wird nicht erkannt.
 * Plan9 oder Plan_9 passt zu:,  ,  ,  ,
 * "plan9" passt nur zu  (ungeachtet von Groß- und Kleinschreibung)
 * Plan*9 passt zu  oder.
 * Wenn der führende Teil nur aus Buchstaben besteht, wird der Abgleich auf eine Folge von (null oder mehr) Buchstaben begrenzt.
 * Wenn es sich nur um Zahlen handelt, wird der Abgleich auf eine Sequenz von (null oder mehr) Zahlen begrenzt, einschließlich Ordinalbuchstaben (st, nd, rd), Großbuchstaben, oder Zeitabkürzungen (am oder pm); und wird nur mit der Gesamtheit (beider Seiten) von Dezimalzahlen übereinstimmen.
 * Andernfalls wird das Komma als Teil einer Zahl gesehen, doch der Dezimalpunkt wird als Greyspace-Zeichen gesehen und trennt zwei Zahlen voneinander.
 * Innerhalb eines "genauen Ausdrucks" stimmt er überein mit Stemming plus Komposita.

Die Wildcards dienen als grundlegende Wort-, Phrasen- und Insource-Suchen und können auch eine Alternative zu (einigen) fortgeschrittenen Regex-Suchen sein (werden später noch behandelt).

Ein Tilde ~ Zeichen hinter ein Wort oder eine Phrase zu setzen, aktiviert eine ungenaue Suche.
 * For a phrase it is termed a proximity search, because proximal words are tolerated to an approximate rather than exact phrase.
 * For example, "exact one two phrase"~2 matches .
 * For a word it means extra characters or changed characters.
 * For a phrase a fuzzy search requires a whole number telling it how many extra words to fit in, but for a word a fuzzy search can have a decimal fraction, defaulting to word~0.5 ( word~.5 ), where at most two letters can be found swapped, changed, or added, but never the first two letters.
 * For a proximity phrase, a large number can be used, but that is an "expensive" (slow) search.
 * For a word word~.1 is most fuzzy, and word~.9 is least fuzzy, and word~1 is not fuzzy at all.

For the closeness value necessary to match in reverse (right to left) order, count and discard all the extra words, then add twice the total count of remaining words minus one. (In other words, add twice the number of segments). For the full proximity algorithm, see Elasticsearch slop. An explicit AND is required between two phrases because otherwise the two "inner" "quotation marks" are confused. Quotes turn off stemming, "but appending"~ the tilde reactivates the stemming.

Insource
Insource searches can be used to find any one word rendered on a page, but it's made for finding any phrase you might find - including MediaWiki markup. This phrase completely ignores greyspace: insource: "state state autocollapse" matches. Insource complements itself. On the one hand it has full text search for any word in the wikitext, instantly. On the other hand it can process a regexp search for any string of characters. Regex scan all the textual characters in a given list of pages; they don't have a word index to speed things up, and the process is interrupted if it must run more than twenty seconds. Regex run last, so to limit needless character-level scanning, you advance it a list of pages (a search domain) selected by an indexed search added to the query as a "clause", and you do this to every single regex query. . Insource can play both roles, and the best candidate for insource:/arg/ is often insource: arg, where arg is the same.

The syntax for the regexp is insource: no space, and then /regexp/. (No other parameter disallows a space. All the parameters except insource:/regexp/ generously accept space after their colon. )

Insource indexed-search and regexp-search roles are similar in many respects: But indexed searches all ignore greyspace; wildcards searches do not match greyspace, so regex are the only way to find an exact string of any characters, for example a sequence of two spaces. Regex are an entirely different class of search tool that make matching a literal string in a regexp exact string search, a basic, easy search. Advanced regex are an entirely different endeavor than matching a literal string. See below.
 * Both search wikitext only.
 * Neither finds things "sourced" by a transclusion.
 * Neither does stemmed, fuzzy, or proximity searches.
 * Both want the fewest results, and both work faster when accompanied by another clause.

Prefix and namespace
One namespace can be specified at the beginning of a search. Two or more namespaces may be set from the search results page, Special:Search, in the Advanced pane of the search bar. Furthermore, this search domain "profile" can be set and remembered as a user preference there. Setting a namespace in the search box overrides all search bar settings or indications. Enter a namespace name, or enter, or enter a colon    for mainspace. Namespace aliases are accepted. When the the file namespace, is involved a namespace modifier  has an effect, otherwise it is ignored. You can now use an interwiki prefix as a namespace to search other projects. The prefix: syntax in its current form is relied upon for a great deal of functionality so it's been recreated as exactly as possible.

Note that the old rule of having to put prefix: at the end of the query still applies.

Prefix and namespace are used to set the initial search domain, but each is also a query. Like prefix, namespace can run alone, and it will return the the top twenty pages, and show the number of total pages.

Filters
Filters are required to accompany a bare regex search. Any word or phrase is a filter because a filter returns a Y/N for every page in its given search domain. The filters can run as a standalone, a filter is also a query.

Intitle and incategory
Word and phrase searches match in a title and match in the category box on bottom of the page. But with these parameters you can select titles only or category only.

Intitle and incategory are old search parameters. Incategory no longer searches any subcategory automatically, but you can now add multiple category pagenames manually. To get the search parameter [//wikitech.wikimedia.org/wiki/Nova_Resource:Catgraph/Deepcat deepcat], to automatically add up to 70 subcategories onto an incategory parameter, incategory:category1|category2|...|category70 , you can add a line to your user-customized javascript.
 * cow*
 * Find articles whose title or text contains words that start with cow
 * intitle:foo
 * Find articles whose title contains foo. Stemming is enabled for foo.
 * intitle:"fine line"
 * Find articles whose title contains fine line. Stemming is disabled.
 * intitle:foo bar
 * Find articles whose title contains foo and whose title or text contains bar.
 * -intitle:foo bar
 * Find articles whose title does not contain foo and whose title or text contains bar.
 * incategory:Music
 * Find articles that are in Category:Music
 * incategory:"music history"
 * Find articles that are in Category:Music_history
 * incategory:"musicals" incategory:"1920"
 * Find articles that are in both Category:Musicals and Category:1920
 * -incategory:"musicals" incategory:"1920"
 * Find articles that are not in Category:Musicals but are in Category:1920

Linksto
Linksto finds wikilinks to a given name, not links to content. The input is the canonical, case sensitive, page name. It must match the title line of the content page, exactly, before any title modifications of the letter-case. (It must match its { {FULLPAGENAME}}, e.g. .)

Linksto does not find redirects. It only finds [ [wikilinks]], not internal URL links. It does find wikilinks made by a template.

To find all wikilinks to a "Help:Cirrus Search", if "Help:Searching" and "H:S" are redirects to it:


 * 1) linksto: "Help:Cirrus Search"
 * 2) linksto: Help:Searching
 * 3) linksto: H:S

finds articles that mention "CirrusSearch" but not in a wikilink.

Hastemplate
You can specify template usage with. Input the canonical pagename to find all usage of the template, but use any of its redirect pagenames finds just that naming. Namespace aliases are accepted, capitalization is entirely ignored, and redirects are found, all in one name-search. The namespace defaults to Template. (Compare boost-template no default namespace; linksto no namespace aliases, case-sensitive, no redirects; intitle no redirects.)

Hastemplate finds secondary (or meta-template) usage on a page: it searches the post-expansion inclusion. This is the same philosophy as for words and phrases from a template, but here it's for templates from a template. The page will be listed as having that content even though that content is not seen in the wikitext.


 * hastemplate: "quality image", finds "Template:Quality image" usage in your default search domain (namespaces).
 * : hastemplate: portal:contents/tocnavbar, finds mainspace usage of a "Contents/TOCnavbar" template in the Portal namespace.

Page weighting
Weighting determines snippet, suggestions, and page relevance. The normal weight is one. Additional weighting is given through multipliers.

If the query is just words, pages that match them in order are given a boost. If you add any explicit phrases to your search, or for certain other additions, this "prefer phrase" feature is not applied.

Morelike
The morelike: query works by choosing a set of words in the input articles and run a query with the chosen words. You can tune the way it works by adding the following parameters to the search results URL: These settings can be made persistent by overriding  in Special:MyLanguage/Help:System message.
 * morelike:page name 1|page name 2|...|page name n
 * Find articles whose text is most similar to the text of the given articles.
 * morelike:wasp|bee|ant
 * Find articles about stinging insects.
 * morelike:template:search|template:regex|template:usage
 * Find templates about regex searching for template usage on the wiki.
 * cirrusMltMinDocFreq : Minimum number of documents (per shard) that need a term for it to be considered.
 * cirrusMltMaxDocFreq : Maximum number of documents (per shard) that have a term for it to be considered.
 * cirrusMltMaxQueryTerms : Maximum number of terms to be considered.
 * cirrusMltMinTermFreq : Minimum number of times the term appears in the input to doc to be considered. For small fields ( title ) this value should be 1.
 * cirrusMltMinWordLength : Minimal length of a term to be considered. Defaults to 0.
 * cirrusMltMaxWordLength : The maximum word length above which words will be ignored. Defaults to unbounded (0).
 * cirrusMltFields (comma separated list of values): These are the fields to use. Allowed fields are title, text , auxiliary_text , opening_text , headings and all.
 * cirrusMltUseFields ( | ): use only the field data. Defaults to : the system will extract the content of the   field to build the query.
 * cirrusMltPercentTermsToMatch : The percentage of terms to match on. Defaults to 0.3 (30 percent).
 * Example:

Prefer-recent
You can give recently edited articles a boost in the search results.
 * prefer-recent: anywhere in the query.
 * prefer-recent:recent,boost

prefer-recent: goes anywhere in the query. It defaults to 160 days as recent. If you're interested in the last week, use 7 instead. All articles older than seven days are boosted half as much, and all articles older than 14 days are boosted half as much again, and so on. The boost is more than the usual multiplier, it is exponential. The factor used in the exponent is the time since the last edit.

It takes a comma-separated pair of numbers defining "recent" and the boost. The default behavior for a bar adding "prefer-recent:" to the beginning of your search. By default this will scale 60% of the score exponentially with the time since the last edit, with a half life of 160 days. This can be modified like this: prefer-recent:proportion_of_score_to_scale,half_life_in_days


 * Proportion_of_score_to_scale must be a number between 0 and 1 inclusive.
 * Half_life_in_days must be greater than 0 but allows decimal points.

The Half_life_in_days number works well if very small. I've tested it around .0001, which is 8.64 seconds.

This will eventually be on by default for Wikinews, but there is no reason why you can't activate it in any of your searches.

Boost-templates
You can boost pages' scores based on what templates they contain. This can be done directly in the search via  or you can set the default for all searches via the new   message. replaces the contents of  if the former is specified. The syntax is a bit funky but was chosen for simplicity. Some examples:


 * File:boost-templates:"Template:Quality Image|200%" incategory:china
 * Find files in the China category sorting quality images first.


 * File:boost-templates:"Template:Quality Image|200% Template:Low Quality|50%" incategory:china
 * Find files in the China category sorting quality images first and low quality images last.


 * File:boost-templates:"Template:Quality Image|200% Template:Low Quality|50%" popcorn
 * Find files about popcorn sorting quality images first and low quality images last. Remember that through the use of the  message this can be reduced to just.

Don't try to add decimal points to the percentages. They don't work and search scoring is such that they are unlikely to matter much.

A word of warning about : if you add really really big or small percentages they can poison the full text scoring. Think, for example, if enwiki boosted featured articles by a million percent. Then searches for terms mentioned in featured articles would find the featured articles before exact title matches of the terms. Phrase matching would be similarly blown away so a search like w:Brave New World would find a featured article with those words scattered throughout it instead of the article for Brave New World.

Regular expression searches
A basic indexed-search finds words rendered visible on a page. Hyphenation and punctuation marks and bracketing, slash and other math and computing symbols, are merely boundaries for the words. It is not possible to include them in an indexed search.

These return much much faster when you limit the regexp search-domain to the results of one or more index-based searches.

Warning: Do not run a bare insource:/regexp/ search. It will probably timeout after 20 seconds anyway, while blocking responsible users.

An "exact string" regexp search is a basic search; it will simply "quote" the entire regexp, or "backslash-escape" all non-alphanumeric characters in the string. All regexp searches also require that the user develop a simple filter to generate the search domain for the regex engine to search:
 * insource:"debian.reproducible.net" insource: / debian\.reproducible\.net / 
 * insource:"c:\program files (x86)" insource: / C\:\\Program Files \(x86\) /i 
 * insource:"{ {template}}" insource: / "{ {template}}<\/tag>" /
 * insource:"[ [title|link label]]'s" insource: / "[ [title|link label]]'s" /
 * insource: / regexp / prefix:{ {FULLPAGENAME}}

The last example works from a link on a page, but { {FULLPAGENAME}} doesn't function in the search box.

For example: ' [[Special:Search/insource:/regex/ prefix:| finds the term regex'' on this page ]].

Any search with no namespace specified (or prefix specified) searches your default search domain, settable on any search-results page, i.e. settable at Special:Search. The default search domain is commonly reset by power users to All namespaces, i.e. the entire wiki, but if this occurs for a bare regexp search, then on a large wiki it will probably incur an HTML timeout before completing the search.

A regex search actually scours each page in the search domain character-by character. By contrast, an indexed search actually queries a few records from a database separately maintained from the wiki database, and provides nearly instant results. So when using using an insource:// (a regexp of any kind), consider creating one the other search terms that will limit the regex search domain as much as possible. There are many search terms that use an index and so instantly provide a more refined search domain for the /regexp/. In order of general effectiveness: The prefix operator is especially useful with a { {FULLPAGENAME}} in a search template, a search link, or an input box, because it automatically searches any subdirectories. To develop a new regexp, or refine a complex regexp, use  on a page with a sample of the target data.
 * insource:"" with quotation marks, duplicating the regexp except without the slashes or escape characters, is ideal.
 * intitle, incategory, and linksto are excellent filters.
 * hastemplate: is a very good filter.
 * "word1 word2 word3", with or without the quotation marks, are good.
 * namespace: is practically useless, but may enable a slow regexp search to complete.

Search terms that do not increase the efficiency of a regexp search are the page-scoring operators: morelike, boost-template, and prefer-recent.

Metacharacters
This section covers how to escape metacharacters used in rexexp searches For the actual meaning of the metacharacters see the explanation of the syntax.

For example: Refining with an exact string. You can start out intending an exact string search, but keep in mind: There are two ways to escape metacharacters. They are both useful at times, and sometimes concatenated side-by-side in the escaping of a string. Double-quotes escaping using insource:/"regexp"/ is an easy way to search for many kinds of strings, but you can't backslash-escape anything inside a double-quoted escape. Backslash-escape using insource:/regexp/ allows escaping the " and / delimiters, but requires taking into account metacharacters, and escaping any: The simplest algorithm to create the basic string-finding expression using insource:/"regexp"/, need not take metacharacters into account except for the " and / characters:
 * to search a namespace, gauge the number of pages with a single term that is a namespace. This will list the number of pages in that namespace.
 * starting out to find again what you may have seen, like "wiki-link" or "(trans[in]clusion)" start with namespace and insource filters.
 * refinining an ongoing search process with what you want to see, like "2 + 2 = 4", or "site.org" This is ideally the best use of regex, because it adds it as a single regexp term while refining a search, the limited number of pages the regexp must crawl is can be seen.
 * regex only search the wikitext not the rendered text, so there are some differences around the markup, and even the number of space characters must match precisely.
 * You are obligated to supply an accompanying filter.
 * You must learn how to escape regex metacharacters.
 * Backslash-escape one of them \char. The insource:/regexp/ uses slashes to delimit the regexp. Giving /reg/exp/ is ambiguous, so you must write /reg\/exp/.
 * Put a string of them in double quotes "string". Because escaping a character can't hurt, you can escape any character along with any possible metacharacters in there. Escaping with quotes is cleaner.
 * You can't mix methods, but you can concatenate them.
 * instead of
 * is as good as
 * But  always.
 * And .  It finds the   literally, which is not the   you probably wanted.
 * To match a  delimiter character use.
 * To match a  delimiter character use.
 * The metacharacters would be.
 * The equivalent expression is.
 * 1) Write   out. (The /" delimiters "/ are not shown.)
 * 2) Replace   with   (previous double-quote: stop, concatenate, quote restart).
 * 3) Replace   with   (stop, concatenate, start).
 * 4) You get , showing concatenation of the two methods.

The square-bracket notation for creating your own character-class also escapes its metacharacters. To target a literal right square bracket in your character-class pattern, it must be backslash escaped, otherwise it can be interpreted as the closing delimiter of the character-class pattern definition. The first position of a character class will also escape the right square bracket. Inside the delimiting square brackets of a character class, the dash character also has special meaning (range) but it too can be included literally in the class the same way as the right square bracket can. For example both of these patterns target a character that is either a dash or a right square bracket or a dot:  or.

For general examples using metacharacters: There are some notable differences from standard regex metacharacters:
 * insource:"2+2=4" insource:/"2+2=4"/ matches "2 + 2 = 4", with zero spaces between the characters.
 * insource:"2 + 2 = 4" insource:/2 ?\+ ?2 ?= ?4\./ match with zero or one space in between. The equals = sign is not a metacharacter, but the plus + sign is.
 * insource:"[ [link|2\3?]]\" insource:/"[ [link|2\3?]]< "\/" tag>"/.
 * The dot . metacharacter stands for any character including a newline, so .* matches across lines.
 * The number # sign means something, and must be escaped.
 * The ^ and $ are not needed. Like "grep" (global per line, regular expression, print each line), each insource:// is a "global per document, regular expression, search-results-list each document" per document.
 * support a multi-digit numeric range like [0-9] does, but without regard to the number of character positions, or the range in each position, so <9-10> works, and even <1-111> works.

Advanced example
For example, using metacharacters to find the usage of a template called Val having, inside the template call, an unnamed parameter containing a possibly signed, three to four digit number, possibly surrounded by space characters, AND on the same page, inside a template Val call, a named argument having any allowable spaces around it, (it could be the same template call, or a separate one):

It is fast because it uses two filters so that every page the regexp crawls has the highest possible potential. Assuming your search domain is set to ALL, it searches the entire wiki, because it offers no namespace or prefix.

bounded
You can limit search to pages identified as being near some specified geographic coordinates. The coordinates can either be specified as a, pair, or by providing a page title from which to source the coordinates. A distance to limit the search to can be prepended if desired. Examples:


 * neartitle:"San Francisco"
 * neartitle:"100km,San Francisco"
 * nearcoord:37.77666667,-122.39
 * nearcoord:42km,37.77666667,-122.39

boosted
You can alternatively increase the score of pages within a specified geographic area. The syntax is the same as bounded search, but with boost- prepended to the keyword. This effectively doubles the score for pages within the search range, giving a better chance for nearby search results to be near the top.


 * boost-neartitle:"San Francisco"
 * boost-neartitle:"100km,San Francisco"
 * boost-nearcoord:37.77666667,-122.39
 * boost-nearcoord:42km,37.77666667,-122.39

File properties search
Since MediaWiki 1.28, CirrusSearch supports indexing and searching of properties of files in the  namespace. This includes:
 * file media type
 * MIME type
 * size
 * width & height
 * resolution
 * bit depth for files that support these

filetype
Searching for file type allows to retrieve files according to their classification, such as office documents, videos, raster images, vector images, etc. The following types currently exist:

This list may be extended in the future. See also  constants in.

The syntax of the search is: filetype:{type}. Example:

filetype:video - looks for all videos

The filetype search is not case-sensitive.

filemime
Matches file MIME type. The syntax is:

filemime:{MIMEtype} - look for files of this MIME type

The argument can be quoted to specify exact match. Without quotes, partial matches to components of MIME type will be accepted too.

Examples:

filemime:"image/png" - look for files with MIME type exactly

filemime:pdf - look for all PDF documents

The MIME type search is not case sensitive.

filesize
Search for file of given size, in kilobytes (kilobyte means 1024 bytes). The syntax is:

filesize:{number} or filesize:>{number} - file with size at least given number

filesize:<{number} - file with size no more than given number

filesize:{number},{number} - file with size between given numbers

Examples:

filesize:>20 or filesize:20 - files 20Kb and bigger

filesize:<1024 - files smaller than 1Mb

filesize:100,500 - files with sizes between 100kb and 500kb

File measures
It is possible to search for specific file measures: width, height and resolution, which is defined as square root of height, width, and bit depth. Not all files may have these properties. The syntax is:

{measure}:{number} - file with measure that equals to given number

{measure}:>{number} - file with measure that is at least given number

{measure}:<{number} - file with measure that is no more than given number

{measure}:{number},{number} - file with measure that is between given numbers

Where  can be:

filew or filewidth - file widh

fileh or fileheight - file height

fileres - file resolution (see above)

filebits - file bit depth

Examples:

filew:>800 fileh:>600 - files that are bigger than 800x600

filebits:16 - files with 16-bit color depth

fileheight:100,500 - file between 100 and 500 pixels high

Siehe auch

 * Completion Suggester - the incremental search feature of CirrusSearch
 * See Search/Old for more on the development and debut of of CirrusSearch.
 * See Help:Searching for MWSearch, used by the many wikis that don't have a search extension.
 * See Help:Searching for MWSearch, used by the many wikis that don't have a search extension.