GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.8 (19)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: ML battle
гость во лбу гвоздь
Сообщений: 670
На: ML battle
Добавлено: 01 дек 16 6:42
Обьяснил бы кто, зачем это все. 47% это что? Это типа когда я смотрю на тарелку, то один раз вижу ее пустой, а второй раз вижу в ней еду? Или это типа модный вид времяпровождения такой, раньше был футбол а теперь дрочка с сетками
[Ответ][Цитата]
Калитеран
Сообщений: 585
На: ML battle
Добавлено: 01 дек 16 7:08
Цитата:
Автор: гость во лбу гвоздь

Обьяснил бы кто, зачем это все. 47% это что?
2 класса, нужно предсказать какой будет, соответственно рандом будет 50% ошибки, к примеру монетку Вы кинули 100 000 раз, и ставите только на орла, будет у Вас примерно 50% ошибки +-0.5%, 47% не получите никак, нужна кривая монетка, инсайд
[Ответ][Цитата]
гость
199.249.223.*
На: ML battle
Добавлено: 06 дек 16 3:32
Цитата:
Автор: data

Ну вот нам всем горячий челенж

мммда....

а я думал что стандартные ML тулзы в R, рулят на все случаи жизни, но даже 0.69100 не прошел((, а у чувака 0.59216, это пипец, ~<15% ошибки на тесте, на данных которые вообще по идее рандомные

в общем, есть к чему стремиться
[Ответ][Цитата]
data
Сообщений: 109
На: ML battle
Добавлено: 07 дек 16 5:38
Цитата:
Автор: гость

мммда....

а я думал что стандартные ML тулзы в R, рулят на все случаи жизни, но даже 0.69100 не прошел((, а у чувака 0.59216, это пипец, ~<15% ошибки на тесте, на данных которые вообще по идее рандомные

в общем, есть к чему стремиться
Ага, фантастика просто XARIX 0.55536
у меня даже на лерне если обучать и тестировать, столько и близко не выходило, видимо есть робастные алгоритмы для работы с такими грязными данными, но Вы правы, важный момент в этом что все таки такие алгоритмы ЕСТЬ у кого то
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 07 дек 16 8:21
Изменено: 07 дек 16 8:23
Цитата:
Автор: data

это не так, если кинуть им ихний же экзэмпл, то получается примерно 0.6915, это я так понимаю ихний бэйслайн, его переплюнуть легко на чучуть(50-100 пунктов(0.00001)), а "хороший результат" это <0.68

Просветите, я сильно не в теме, а как logloss подсчитывается? Или они сами его вычисляют, а потом выводят в суммарную табличку... И ещё - набор данных как я понял меняется, и с какой периодичностью? А данные для обучения тоже меняются или нет?
А вот еще вопрос - минимальный logloss это сколько вообще?
[Ответ][Цитата]
data
Сообщений: 109
На: ML battle
Добавлено: 07 дек 16 9:00
Цитата:
Автор: dr2chek


Просветите, я сильно не в теме, а как logloss подсчитывается? Или они сами его вычисляют, а потом выводят в суммарную табличку... И ещё - набор данных как я понял меняется, и с какой периодичностью? А данные для обучения тоже меняются или нет?
А вот еще вопрос - минимальный logloss это сколько вообще?
https://www.kaggle.com/wiki/LogarithmicLoss
Меняются и лерн и тест, я так понял примерно раз в неделю, минимальный логлос - 0, рандом примерно возле 0.693
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 07 дек 16 9:58
Спасибо. Стало яснее, но туману меньше не стало притом
Вот еще куча ламерских вопросов созрела...
1. t_id меняется синхронно с новым датасетом, или вообще не меняется? (конечно можно подождать 10 часов и ответ придет автоматически, но все-же...)
2. Файлик с примером при обновлении данных также обновляется?
3. Посмотрел я эту logloss формулу. Честно не понял, могу ли я сам вычислить logloss по своим предсказаниям, и если да, то как (разжуйте пожалуйста)
[Ответ][Цитата]
data
Сообщений: 109
На: ML battle
Добавлено: 07 дек 16 10:35
Изменено: 07 дек 16 10:37
Цитата:
Автор: dr2chek

1. t_id меняется синхронно с новым датасетом, или вообще не меняется? (конечно можно подождать 10 часов и ответ придет автоматически, но все-же...)
2. Файлик с примером при обновлении данных также обновляется?
3. Посмотрел я эту logloss формулу. Честно не понял, могу ли я сам вычислить logloss по своим предсказаниям, и если да, то как (разжуйте пожалуйста)

1 да
2 да
3 там же есть формула и пример с кодом

на C# для мультиклассов

public static double LogLoss(double[][] predict, double[][] outputs)
{
var setCount= outputs.Length;
var classCount = outputs[0].Length;
double logLoss = 0;

for (int sample = 0; sample < setCount; sample++)
{
for (int @class = 0; @class < classCount; @class++)
logLoss += outputs[sample][@class]*predict[sample][@class].Log();
}

return -logLoss/setCount;
}
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 07 дек 16 11:07
Цитата:
Автор: data


3 там же есть формула и пример с кодом

на C# для мультиклассов

Спасибо.
Вот в этом-то и вопрос.
Давайте прямо по примеру, т.е. файлу "example_predictions.csv"
Вы можете сказать что из этого файла нужно подставить в:
1. outputs[..][..]
2. predict[..][..]
Чему будет равен для этого файла параметр:
1. setCount
2. classCount

Или я что-то не так понимаю?
[Ответ][Цитата]
data
Сообщений: 109
На: ML battle
Добавлено: 07 дек 16 11:40
Изменено: 07 дек 16 11:42
Цитата:
Автор: dr2chek


Спасибо.
Вот в этом-то и вопрос.
Давайте прямо по примеру, т.е. файлу "example_predictions.csv"
Вы можете сказать что из этого файла нужно подставить в:
1. outputs[..][..]
2. predict[..][..]
Чему будет равен для этого файла параметр:
1. setCount
2. classCount

Или я что-то не так понимаю?
В данном случае два класса, которые можно одним числом описать, так как если вероятность первого p, то второго 1-p, то есть у вас ряд из id и вероятности первого класса, вероятность второго определяется первым.

Что бы посчитать логлос нужно иметь предсказания(predict) и известные ответы(output), для одного класса складываете по всем семплам output*Log(predict) + (1- output)Log(1 - predict) и потом делите на количество семплов(setCount) и всё это со знаком минус…

Чтобы по их примеру посчитать логлос нужны ещё правильные ответы, а их нет. При обучении нужно самому разбивать лерн на новый лерн и тест и на тесте считать логлос зная там ответы.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 07 дек 16 11:50
Ну да, я тоже подумал, что classCount вроде д. быть = 2...

А в целом, большое спасибо за вводный курс, буду разбираться
[Ответ][Цитата]
data
Сообщений: 109
На: ML battle
Добавлено: 08 дек 16 4:49
Цитата:
Автор: dr2chek

Ну да, я тоже подумал, что classCount вроде д. быть = 2...

А в целом, большое спасибо за вводный курс, буду разбираться
Не за что, развлекайтесь
[Ответ][Цитата]
гость
5.196.66.*
На: ML battle
Добавлено: 10 дек 16 8:59
А зачем этот logarithmic loss нужен? Чем плох процент ошибок на тесте(accuracy)?
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 12 дек 16 10:16
Немного про эту контору Numerai на страницах журнала Wired - тут
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 12 дек 16 12:02
Ну, отписались те, кто пробовал и честно сообщил об этом А сколько пробовало и не сообщило нам о своих успехах? А в целом, я еще обдумываю как к этой задачке подступиться, прочувствовать нутром, как бы... Какие-то вещи непонятны. Скажем, у нас есть большая куча векторов 21-размерности - для обучения, с заданным значением 0 или 1. Не пойму, почему на предлагаемых потом данных величина предсказания располагается близко к 0,5... То есть, как это математически происходит. Или у них данные такие "хитрые" ?
[Ответ][Цитата]
 Стр.8 (19)1  ...  4  5  6  7  [8]  9  10  11  12  ...  19<< < Пред. | След. > >>