Help:MediaSearch/de

Special:MediaSearch ist ein neues Back-End und Front-End für die Suche nach Dateien auf Commons, wobei Bilder in einer regalähnlichen Ansicht erscheinen, die von Bildsuchmaschinen im Internet genutzt wird. Rückmeldungen zu MediaSearch können auf der Diskussionsseite auf Commons hinterlassen werden.

Tue folgendes, um die Wahrscheinlichkeit zu erhöhen, dass Dateien über Special:MediaSearch gefunden werden:
 * Füge einen relevanten und beschreibenden Titel hinzu
 * Füge in so vielen Sprachen wie möglich Beschreibungen hinzu, mit denen du beschreibst, was die Datei darstellt
 * Füge eine detaillierte Beschreibung hinzu, die erklärt, was die Datei darstellt und relevante Zusammenhänge aufzeigt
 * Füge die Datei zu relevanten Kategorien hinzu
 * Füge alle Aussagen zu Motiven hinzu, die deine Datei darstellt

Unten findet sich ein Überblick der Arten von Daten, die genutzt werden und wie sie dazu beitragen, Dateien zu finden. Es gibt zwei Hauptarten von Daten, die genutzt werden, um Dateien zu finden:
 * 1) Vollständiger Text
 * 2) Aussagen und strukturierte Daten

Wie
Dies ist eine traditionelle text-basierte Suche: Wenn der Text das Wort enthält, nach dem gesucht wird, ist die Datei ein Treffer.

Der Rang wird auf zwei Arten beeinflusst:
 * Häufigkeit der Begriffe
 * Position der Begriffe
 * Häufigkeit der Begriffe

Der Suchalgorithmus wird versuchen, anhand der Häufigkeit der Suchbegriffe festzustellen, wie relevant ein Ergebnis ist.

Je häufiger der Suchbegriff in einem Dokument auftaucht, desto relevanter scheint er zu sein (Beispiel: Wenn ein Dokument häufiger "Mona Lisa" erwähnt, als ein anderes, ist es wahrscheinlich relevanter).

Je häufiger der Suchbegriff in allen Dokumenten auftaucht, desto weniger relevant wird der Begriff sein (Beispiel: Häufige Wörter wie "tut" werden zu der Platzierung nicht viel beitragen, da diese Wörter in sehr vielen Dokumenten vorkommen).

Für den Suchbegriff "Mona Lisa" im Wikitext der englischsprachigen Wikipedia hilft uns dies dabei, zu erkennen, dass der Artikel "Mona Lisa" (184 Erwähnungen des Begriffs) wahrscheinlich ein besseres Ergebnis ist, als der Artikel "Louvre museum" (7 Erwähnungen).

Auf Commons ergibt sich jedoch das Problem, dass diese Häufigkeit häufig nur von geringer Bedeutung ist, wenn es um den Vergleich der Relevanz geht: Es handelt sich nicht um lange Artikel, sondern kurze Beschreibungen. Begriffe kommen meist nicht häufiger als ein oder zwei Mal vor und es gibt nur wenig anderen Inhalt, mit dem verglichen werden kann. Daher berücksichtigen wir bei dem Ranking auch die Position der Begriffe.


 * Position der Begriffe

Es gibt mehrere Wege, um Informationen zu einer Datei einzugeben. Alle tragen zur Relevanzeinstufung bei, jedoch auf unterschiedliche Art und Weise.

Wikitext-Beschreibungen werden traditionell als das wichtigste Mittel betrachtet, um Dateiinformationen zu präsentieren, jedoch enthalten sie manchmal so viele Informationen, dass die bedeutsamen Begriffe in der Suchrelevanz kaum hervorstehen. Manchmal enthalten sie hingegen so wenig Information, dass die Suche kaum die Möglichkeit hat, mit ihr zu arbeiten, um die Relevanz zu bestimmen.

Beispielsweise sind Details wie der Autor, der Ort oder das Datum, an dem die Mediendatei erstellt wurde, zu welchem Museum sie gehört oder unter welcher Lizenz sie veröffentlicht wurde – obwohl sie wichtig sind – häufig nicht die Begriffe, nach denen Personen suchen werden. Darüber hinaus sind wesentliche Teile der Beschreibung häufig "kontextbezogene" Informationen, die nicht direkt zum Hauptthema gehören.

Obwohl Beschreibungen häufig viele Informationen enthalten, die sehr wichtig sein könne, um die Datei zu finden, kann es schwierig sein, einzig anhand der Begriffe in der Beschreibung herauszufinden, was die Datei darstellt. Beschreibungen können lang sein (und in mehreren Sprachen vorliegen, sowie Informationen enthalten, die für den Suchbegriff irrelevant sind). Anders gesagt ist es schwierig, die Relevanz anhand der Beschreibungen festzustellen.

Additional data that describes things in a more succinct way (such as titles, captions, categories) is often focused on highly specific information, which helps determine what's important in a media file–in other words, this data makes determining relevance easier. This is why the position of terms is important.

For example: when searching for "Mona Lisa," a file that contains "Mona Lisa" in the description alone will usually be ranked lower in search results' than one that also includes that term as part of the title and/or caption, and/or is added to (one of) the Mona Lisa categories.

However, note that duplicating information across fields in wikitext also may have the unintended consequence of lowering frequency-based relevance scores - so be sure to accurately describe the file by adding a relevant title, a detailed description, a caption (ideally in multiple languages), and the appropriate categories, without repeating the same information in multiple places.

Einschränkungen
The aforementioned full-text search algorithm is very good, but has some issues as well - especially in our context:

In a traditional text-based search, users likely don't want to see results in other languages than the one they are searching in (the assumption is that the user wouldn't understand other languages). That's different on Commons, because people are not really looking for the descriptions –they want the file.
 * Sprache

So if a user searches for pictures of cars, ideally search would also find and return files that match in other languages, such as auto in Dutch or voiture" in French. But unless every image's descriptions and/or captions have translations for every language, text-based search will not find results in other languages.

An additional issue here is that while some words look the same in multiple languages, they may have different meanings. For example "gift" in English versus German, or "chat" in English as compared to French; these differences in language will return wildly different results in text-based search due to the change in meaning.

Similarly, when searching for a bat in text-based search, search will not find images where they're referred to by their scientific name: Chiroptera. This would also apply to acronyms, such as NYC when searching for New York City.
 * Synonyms

Similarly, a text description might contain a lot more implicit information that simply cannot be captured by scanning wikitext.
 * Word matches, not concepts

A British shorthair is also a cat and a Volvo V40 is a car, but unless their descriptions also explicitly mention cat or car, they won't be found under those terms in a traditional text-based search.

Statements and structured data
Wikidata statements have the potential of solving many of the aforementioned caveats of traditional text-based searches: they are multilingual, have aliases, and are linked to all sorts of related concepts.

Wie
Since the addition of the "Structured data" tab on file pages, it has been possible to attach Wikidata entities to a file, including statements about what the file "depicts."

Given a search term (like "anaconda"), we'll also search Wikidata for relevant entities. In this case, here are some of the top results:
 * Anaconda (Q483539): town in Montana
 * Eunectes (Q188622): genus of snakes
 * "Anaconda" (Q17485058): Nicki Minaj song

In addition to full text matching, search will also include results that have a "depicts" statement of (one or multiple of) these entities. It will also include results that have a "digital representation of" statement, used for artwork.

This has the potential of drastically expanding the amount of results returned, because entities already cover synonyms (via Wikidata aliases) and language differences (via labels & aliases in multiple languages): a file only needs to be tagged with one depicts statement per item, and search will be able to find that statement and any of its aliases or translations.

And when translations or aliases get added to those entities later on, files tagged with them will automatically benefit from it by now being discoverable under those terms as well. This is why it’s important to continue to enrich the entities added to depicts statements on Commons with more aliases, labels, and other information on Wikidata.

Note: not all entities are considered equally in search ranking. When searching for "iris", users are likely expecting to find multimedia that depicts the genus of plants (Q156901), or maybe the part of an eye (Q178748), but probably not Iris Murdoch, the British writer and philosopher (Q217495).

Based on the similarity to the search term and the importance/popularity of the entity, Media Search will boost multimedia with certain entities more than others.

Einschränkungen
Wikidata entities are an excellent signal to help discover additional relevant multimedia:
 * there is less noise (e.g. text descriptions often contain false-positives like "iris" being the first name of the photographer, not the subject of the file).
 * they contain a lot more information (aliases & translations) than individual file descriptions ever can.
 * they can be enriched in one central location (Wikidata)

But they are also a poor indicator for relative ranking:
 * In a file with multiple depicts statements, it's hard to know which statements are the most important or relevant
 * Wikidata has many entities at varying levels of detail

In a file with multiple depicts statements, it's hard to know which statements are the most important or relevant.
 * Relative ranking

Are both equally important, or is one of them the obvious subject and the other a less relevant background detail? If so, which? Is a depicts statement on one file more prominent than the same depicts statement on another?

Consider the "Pale Blue Dot" photographs: even though the earth makes up less than a pixel in the image set, it's a significant feature of the images.

Statements essentially only have two states: something is in the file, or it is not. There is no further detail about just how relevant something is in that file.

The “mark as prominent” feature for statements is provided to address some of these issues, but it is not currently being used consistently. Additionally, the use of qualifiers like 'applies to part' could help improve ranking, but those qualifiers are currently rarely used at all on Commons, though they have precedent on Wikidata. For example, on the Wikidata item for Mona Lisa, the depicted elements have 'applies to part' qualifiers that specify foreground or background, which could provide additional signals to the search ranking algorithm if used on Commons.

While depicts statements are tremendously useful in helping surface additional relevant results, it's hard to use them as a ranking signal: textual descriptions often convey the relative importance of subjects better than these simple statements can.

Wikidata has many entities at varying levels of detail. While we are currently working towards being able to include "child concepts" in search results, it’s important to be careful in the weight we give to certain entities, especially when compared to full text search.
 * Level of detail

For example, the statements bridge (Q12280), suspension bridge (Q12570), Golden Gate Bridge (Q44440) or tourist attraction (Q570116) could probably all be used to describe a picture of the Golden Gate Bridge, but the Golden Gate Bridge (Q44440) statement already implies all of the others via its various related entities.

However, there are examples where it's not this simple.

German Shepherd dog (Q38280) is a subclass of dog (Q144), which is a subclass of pet (Q39201) - in theory, we should be able to find pictures tagged with "German Shepherd dog" when one searches for "pet."

However, some photos tagged as "German Shepherd dog" likely depict working dogs (Q1806324), not pets.