Форум: Проблемы искусственного интеллекта

Регистрация | Вход

Все темы | Новая тема Стр.8 (19) << < Пред. | След. > >> Поиск:

Автор Тема: На: ML battle

гость во лбу гвоздь
Сообщений: 670

На: ML battle
Добавлено: 01 дек 16 6:42

Обьяснил бы кто, зачем это все. 47% это что? Это типа когда я смотрю на тарелку, то один раз вижу ее пустой, а второй раз вижу в ней еду? Или это типа модный вид времяпровождения такой, раньше был футбол а теперь дрочка с сетками

[Ответ][Цитата]

Калитеран
Сообщений: 585

На: ML battle
Добавлено: 01 дек 16 7:08

Цитата:
Автор: гость во лбу гвоздь

Обьяснил бы кто, зачем это все. 47% это что?
2 класса, нужно предсказать какой будет, соответственно рандом будет 50% ошибки, к примеру монетку Вы кинули 100 000 раз, и ставите только на орла, будет у Вас примерно 50% ошибки +-0.5%, 47% не получите никак, нужна кривая монетка, инсайд

[Ответ][Цитата]

гость
199.249.223.*

На: ML battle
Добавлено: 06 дек 16 3:32

Цитата:
Автор: data

Ну вот нам всем горячий челенж

мммда....

а я думал что стандартные ML тулзы в R, рулят на все случаи жизни, но даже 0.69100 не прошел((, а у чувака 0.59216, это пипец, ~<15% ошибки на тесте, на данных которые вообще по идее рандомные

в общем, есть к чему стремиться

[Ответ][Цитата]

data
Сообщений: 109

На: ML battle
Добавлено: 07 дек 16 5:38

Цитата:
Автор: гость

мммда....

а я думал что стандартные ML тулзы в R, рулят на все случаи жизни, но даже 0.69100 не прошел((, а у чувака 0.59216, это пипец, ~<15% ошибки на тесте, на данных которые вообще по идее рандомные

в общем, есть к чему стремиться
Ага, фантастика просто XARIX 0.55536
у меня даже на лерне если обучать и тестировать, столько и близко не выходило, видимо есть робастные алгоритмы для работы с такими грязными данными, но Вы правы, важный момент в этом что все таки такие алгоритмы ЕСТЬ у кого то

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: ML battle
Добавлено: 07 дек 16 8:21
Изменено: 07 дек 16 8:23

Цитата:
Автор: data

это не так, если кинуть им ихний же экзэмпл, то получается примерно 0.6915, это я так понимаю ихний бэйслайн, его переплюнуть легко на чучуть(50-100 пунктов(0.00001)), а "хороший результат" это <0.68

Просветите, я сильно не в теме, а как logloss подсчитывается? Или они сами его вычисляют, а потом выводят в суммарную табличку... И ещё - набор данных как я понял меняется, и с какой периодичностью? А данные для обучения тоже меняются или нет?
А вот еще вопрос - минимальный logloss это сколько вообще?

[Ответ][Цитата]

data
Сообщений: 109

На: ML battle
Добавлено: 07 дек 16 9:00

Цитата:
Автор: dr2chek

Просветите, я сильно не в теме, а как logloss подсчитывается? Или они сами его вычисляют, а потом выводят в суммарную табличку... И ещё - набор данных как я понял меняется, и с какой периодичностью? А данные для обучения тоже меняются или нет?
А вот еще вопрос - минимальный logloss это сколько вообще?
https://www.kaggle.com/wiki/LogarithmicLoss
Меняются и лерн и тест, я так понял примерно раз в неделю, минимальный логлос - 0, рандом примерно возле 0.693

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: ML battle
Добавлено: 07 дек 16 9:58

Спасибо. Стало яснее, но туману меньше не стало притом
Вот еще куча ламерских вопросов созрела...
1. t_id меняется синхронно с новым датасетом, или вообще не меняется? (конечно можно подождать 10 часов и ответ придет автоматически, но все-же...)
2. Файлик с примером при обновлении данных также обновляется?
3. Посмотрел я эту logloss формулу. Честно не понял, могу ли я сам вычислить logloss по своим предсказаниям, и если да, то как (разжуйте пожалуйста)

[Ответ][Цитата]

data
Сообщений: 109

На: ML battle
Добавлено: 07 дек 16 10:35
Изменено: 07 дек 16 10:37

Цитата:
Автор: dr2chek

1. t_id меняется синхронно с новым датасетом, или вообще не меняется? (конечно можно подождать 10 часов и ответ придет автоматически, но все-же...)
2. Файлик с примером при обновлении данных также обновляется?
3. Посмотрел я эту logloss формулу. Честно не понял, могу ли я сам вычислить logloss по своим предсказаниям, и если да, то как (разжуйте пожалуйста)

1 да
2 да
3 там же есть формула и пример с кодом

на C# для мультиклассов

public static double LogLoss(double[][] predict, double[][] outputs)
{
var setCount= outputs.Length;
var classCount = outputs[0].Length;
double logLoss = 0;

for (int sample = 0; sample < setCount; sample++)
{
for (int @class = 0; @class < classCount; @class++)
logLoss += outputs[sample][@class]*predict[sample][@class].Log();
}

return -logLoss/setCount;
}

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: ML battle
Добавлено: 07 дек 16 11:07

Цитата:
Автор: data

3 там же есть формула и пример с кодом

на C# для мультиклассов

Спасибо.
Вот в этом-то и вопрос.
Давайте прямо по примеру, т.е. файлу "example_predictions.csv"
Вы можете сказать что из этого файла нужно подставить в:
1. outputs[..][..]
2. predict[..][..]
Чему будет равен для этого файла параметр:
1. setCount
2. classCount

Или я что-то не так понимаю?

[Ответ][Цитата]

data
Сообщений: 109

На: ML battle
Добавлено: 07 дек 16 11:40
Изменено: 07 дек 16 11:42

Цитата:
Автор: dr2chek

Спасибо.
Вот в этом-то и вопрос.
Давайте прямо по примеру, т.е. файлу "example_predictions.csv"
Вы можете сказать что из этого файла нужно подставить в:
1. outputs[..][..]
2. predict[..][..]
Чему будет равен для этого файла параметр:
1. setCount
2. classCount

Или я что-то не так понимаю?
В данном случае два класса, которые можно одним числом описать, так как если вероятность первого p, то второго 1-p, то есть у вас ряд из id и вероятности первого класса, вероятность второго определяется первым.

Что бы посчитать логлос нужно иметь предсказания(predict) и известные ответы(output), для одного класса складываете по всем семплам output*Log(predict) + (1- output)Log(1 - predict) и потом делите на количество семплов(setCount) и всё это со знаком минус…

Чтобы по их примеру посчитать логлос нужны ещё правильные ответы, а их нет. При обучении нужно самому разбивать лерн на новый лерн и тест и на тесте считать логлос зная там ответы.

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: ML battle
Добавлено: 07 дек 16 11:50

Ну да, я тоже подумал, что classCount вроде д. быть = 2...

А в целом, большое спасибо за вводный курс, буду разбираться

[Ответ][Цитата]

data
Сообщений: 109

На: ML battle
Добавлено: 08 дек 16 4:49

Цитата:
Автор: dr2chek

Ну да, я тоже подумал, что classCount вроде д. быть = 2...

А в целом, большое спасибо за вводный курс, буду разбираться
Не за что, развлекайтесь

[Ответ][Цитата]

гость
5.196.66.*

На: ML battle
Добавлено: 10 дек 16 8:59

А зачем этот logarithmic loss нужен? Чем плох процент ошибок на тесте(accuracy)?

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: ML battle
Добавлено: 12 дек 16 10:16

Немного про эту контору Numerai на страницах журнала Wired - тут

[Ответ][Цитата]

dr2chek
Сообщений: 871

На: ML battle
Добавлено: 12 дек 16 12:02

Ну, отписались те, кто пробовал и честно сообщил об этом А сколько пробовало и не сообщило нам о своих успехах? А в целом, я еще обдумываю как к этой задачке подступиться, прочувствовать нутром, как бы... Какие-то вещи непонятны. Скажем, у нас есть большая куча векторов 21-размерности - для обучения, с заданным значением 0 или 1. Не пойму, почему на предлагаемых потом данных величина предсказания располагается близко к 0,5... То есть, как это математически происходит. Или у них данные такие "хитрые" ?

[Ответ][Цитата]

Стр.8 (19): 1 ... 4 5 6 7 [8] 9 10 11 12 ... 19 << < Пред. | След. > >>

Главная | Материалы | Справочник | Гостевая книга | Форум | Ссылки | О сайте

Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net