Oberon space

General Category => Общий раздел => Тема начата: valexey_u от Январь 21, 2013, 03:54:49 pm

Название: ЦЕРН, Яндекс и машинное обучение.
Отправлено: valexey_u от Январь 21, 2013, 03:54:49 pm: Оказывается теперь Яндекс участвует в проектах ЦЕРН'а: http://habrahabr.ru/company/yandex/blog/166497/

Цитировать
Тем не менее, люди которые идут в ЦЕРН, имеют научно-физический бэкграунд. Они знают, что такое стандартная модель, уравнение Шрёдингера, лагранжиан стандартной модели и так далее. Но это не значит, что они имеют хорошую подготовку в computer science.

Собственно яндекс помогает в фильтрации экспериментальных данных. Фильтрация идет посредством алгоритмов машинного обучения.

То есть со стороны Яндекса предоставляется во-первых "кластер" для рассчетов, вычислительные мощности. А во-вторых сама алгоритмика основанная на машинном обучении. Сам ЦЕРН пока это не умеет.

PS. Свои алгоритмы Яндекс пишет не на фортране и не на Обероне :-)
Название: Re: ЦЕРН, Яндекс и машинное обучение.
Отправлено: Geniepro от Январь 21, 2013, 04:31:19 pm: Цитировать
Для обработки данных сначала строится модель того, как событие должно выглядеть. Мы идём от идеального результата. Модель строится с помощью симулятора квантовых событий, в котором, кстати, в том числе участвует наш GRID, сервера Яндекса. В эмуляции указывается, какие данные должны быть зарегистрированы на детекторах после распада и как выглядят эти события.

Эти данные накапливаются. Потом они проходят такую же обработку, что и обычные события, которые вышли из детектора. Поэтому мы можем использовать их как некоторый эталон для сравнения. Для того чтобы понять, был этот распад или не было, смотрим на это событие и с помощью какого-то алгоритма должны сказать: похоже ли то, что было в реальном детекторе на то, что мы смогли каким-то образом себе представить, вычислить и записать. Сравниваем. Если похоже — значит это оно.

Чота я не понял -- не получится ли у них так, что они данные, подходящие под их теории, оставляют, а то что не укладывается в их модели (и, возможно, просто-напросто в пух и прах опровергают их теории) они просто выбрасывают как неимеющие интереса???
Название: Re: ЦЕРН, Яндекс и машинное обучение.
Отправлено: Geniepro от Январь 22, 2013, 07:22:48 am: с баша:
Цитировать
_DoZa_: если бы квантмеховцы строли дома, то логика была бы такой: так земля у нас не двигается, а если и двигается, то очень мало, значит фундаментом, впринципе, можно пренебречь, так ну и кому захочется жить с кем-то вместе в одной квартире, пренебрежем семьей, значит можно все квартиры делать однокомнатными, да и кто де себе готовит? все берут пиццу! помещения под кухни не делаем, а теперь возьмем и из множества людей выберем тех, кто нам подходит, вселим их и че-нить скоректируем...
Название: Re: ЦЕРН, Яндекс и машинное обучение.
Отправлено: Губанов Сергей Юрьевич от Январь 23, 2013, 02:53:51 pm: Цитата: Geniepro от Январь 21, 2013, 04:31:19 pm
Чота я не понял -- не получится ли у них так, что они данные, подходящие под их теории, оставляют, а то что не укладывается в их модели (и, возможно, просто-напросто в пух и прах опровергают их теории) они просто выбрасывают как неимеющие интереса???
На сколько я понимаю, они заявляют об открытии когда думают, что могут объяснить 99.999% зарегистрированных реакций. Оставшиеся 0.0001% необъяснимых реакций теоретически могут всё опровергнуть, но вероятность этого мала. Вполне логично. Числа для примера я с потолка взял.
Название: Re: ЦЕРН, Яндекс и машинное обучение.
Отправлено: Geniepro от Январь 23, 2013, 03:17:12 pm: Для бозона хиггса им вроде три сигмы понадобились, 99.7%...
Название: Re: ЦЕРН, Яндекс и машинное обучение.
Отправлено: Geniepro от Январь 23, 2013, 03:20:46 pm: Цитата: Губанов Сергей Юрьевич от Январь 23, 2013, 02:53:51 pm
На сколько я понимаю, они заявляют об открытии когда думают, что могут объяснить 99.999% зарегистрированных реакций. Оставшиеся 0.0001% необъяснимых реакций теоретически могут всё опровергнуть, но вероятность этого мала. Вполне логично. Числа для примера я с потолка взял.

Но как они обнаружат, что есть, скажем, 10% данных, которые не укладываются в их теорию? Они же заранее все неподходящие данные выкидывают, аргументируя тем, что из (скажем) миллиона значений только одно полезно для их теорий...