GotAI.NET

Форум: Проблемы искусственного интеллекта

 

Регистрация | Вход

 Все темы | Новая тема Стр.10 (19)<< < Пред. | След. > >>   Поиск:  
 Автор Тема: На: ML battle
Вольфрамовый клaпaн
Сообщений: 13070
На: ML battle
Добавлено: 14 дек 16 9:39
Изменено: 14 дек 16 9:39
Цитата:
Автор: NO.
Ну и чего тут видно? Какую интуицию можно приобрести на таких картинках?
По-моему ничего не видно. Диагональ можно вообще не рисовать, понятно, что там 1. А остальное просто общая статистика насколько велики точки, структуры никакой.

Да, не очень понятно как это поможет. А еще в неявном предполагается участие порядкового номера. А это как раз один из самых важных вопросов - можно ли эту последовательность перемешивать? И почему у них в примерном индексе id не совпадает с i? Хотя id_max = i_max.

У меня пока результаты аховые, минимальный logloss на классификационных данных - 0.69155 и 0.07 заработанных денег. На тестовых данных удавалось получить и 0.67, но за счет переобучения.
[Ответ][Цитата]
гость
82.145.220.*
На: ML battle
Добавлено: 14 дек 16 9:44
Цитата:
Автор: Калитеран
PS: только смотрю они у нас разные с гостем который в R считал, что странно, кто то ошибся...

Цитата:
Автор: Калитеран
PS: только смотрю они у нас разные с гостем который в R считал, что странно, кто то ошибся...

Здорово. Оперативно.
Я тоже наборчик обновил - сейчас совпадут Только, почему предикторы по-порядку?Вся соль теряется.
См. 2 рисунок.
http://img.uploads.su/v.php?id=zw6y8.jpg
http://img.uploads.su/v.php?id=2g32xdtt.jpg
[Ответ][Цитата]
гость
82.145.222.*
На: ML battle
Добавлено: 14 дек 16 10:43
Цитата:
Автор: гость

имхо гавеные данные, не ясно почему, возможно просто гавеные, нет связи входа с выходом, например брали большие таймфреймы, часы, дни и только цены одного активы, а признаки от него ряд усреднений с разными окнами, при таких данных даже Иисус буть он иишником ничего не вытянул бы, а может они взяли нормальные фичи с HFT и так их обфусцировали что сломалась вся структура


Понятно, что говенные. Потому и на выходе - ..оно.
Я сначала думал, что они отбутстрэпили какой-то небольшой наборчик, но сейчас в этом почти уверен.
Но сделали это хитро
[Ответ][Цитата]
NO.
Сообщений: 10700
На: ML battle
Добавлено: 14 дек 16 11:20
Там написано данные зашифрованы, они типа очень дорогие, а мужик их закодировал гомоморфным кодом, это который позволяет складывать и умножать коды не зная сами числа, выложил и теперь делайте с ними что хотите.
[Ответ][Цитата]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 14 дек 16 11:20
Цитата:
Автор: гость

Что значит "сессия" в Вашем разумении?

Ну хорошо, не сессия, пусть будет датасет (dataset). Но процесс обжевывания датасета напоминает сессию (как по продолжительности, так и по процессу)
[Ответ][Цитата]
NO.
Сообщений: 10700
На: ML battle
Добавлено: 14 дек 16 11:28
циферка там полезная фигурирует - 30млрд сделанных предсказаний цен
чтобы хоть представлять с чем связались и что в этих данных искать
[Ответ][Цитата]
Калитеран
Сообщений: 585
На: ML battle
Добавлено: 14 дек 16 16:21
Изменено: 14 дек 16 16:22
Цитата:
Автор: гость

Тут ковариационная матрица не поможет, зависимость существенно нелинейная.
Да это я просто так, виджет понравился, но вообще проверить стоит, кто знает может зависимость линейной окажется.
Цитата:
Автор: гость

Только, почему предикторы по-порядку?Вся соль теряется.

Супер! Идея кластеризации по корреляции ясна, сам пробовал предикторы уплотнять PCA, результата не дало, точность ~47.7% логлос 0.6909, такое ощущение что стандартные методы ML далее 0.69 идти не хотят, нужны какие то ухищрения связанные со спецификой именно этого датасета, но глубинно ковыряться увы нет времени

[Ответ][Цитата]
NO.
Сообщений: 10700
На: ML battle
Добавлено: 14 дек 16 21:39
Кстати про умножение в гогоморфном коде чего-то не верится. В сложении единичный элемент ноль, а в умножении единица, её можно найти и из нее получить все остальные числа.
[Ответ][Цитата]
гость
194.88.143.*
На: ML battle
Добавлено: 15 дек 16 9:11
XGB: maxDepth = 3, learningRate = 0.01, nEstimators = 100, silent = true, objective = "binary:logistic", nThread = -1, gamma = 0, minChildWeight = 0, maxDeltaStep = 0, subsample = 0.1, colSampleByTree = 1, colSampleByLevel = 1, regAlpha = 0.5, regLambda = 1, scalePosWeight = 1, baseScore = 0.5, seed = 0

ошибка 48.2 , log loss 0.69240

ИМХО XGB самый крутой из всех
[Ответ][Цитата]
data
Сообщений: 109
На: ML battle
Добавлено: 15 дек 16 15:44
Цитата:
Автор: Egg


Да, не очень понятно как это поможет. А еще в неявном предполагается участие порядкового номера. А это как раз один из самых важных вопросов - можно ли эту последовательность перемешивать? И почему у них в примерном индексе id не совпадает с i? Хотя id_max = i_max.

У меня пока результаты аховые, минимальный logloss на классификационных данных - 0.69155 и 0.07 заработанных денег. На тестовых данных удавалось получить и 0.67, но за счет переобучения.
0.69155 - ну вот почти догнали Теперь осталось невозможное

Думаю через недельку освобожусь, хочу рассмотреть этот сет "микроструктурно" так сказать, взять окрестность вокруг какой то точки, в <1000 отчетов и посмотреть что там "творится", какого фига такая ошибка, почему распределения на лерне и тесте так отличаются, это нужно глазами узреть, время перебора параметров классификаторов кончилось.
[Ответ][Цитата]
Сергей Гаврилов
Сообщений: 197
На: ML battle
Добавлено: 16 дек 16 4:14
Цитата:
Автор: data

0.69155
Я так понимаю log loss это в отличии от accuracy дает количественную меру схожести\различия плотностей распределений, а не только сумарный XOR или argmax как с accuracy, но эта мера деформированная логарифмом, что сбивает с толку, это как если скорость машины логарифмировать, что бы видеть ВО сколько раз быстрее, а не НА сколько
[Ответ][Цитата]
Сергей Гаврилов
Сообщений: 197
На: ML battle
Добавлено: 16 дек 16 4:51
Naive Byes 49,5% accuracy log loss 0.69290, почти рандом
[Ответ][Цитата]
гость
185.38.14.*
На: ML battle
Добавлено: 16 дек 16 11:00
черта позора на новом датасете 0.68991, на ихнем экземпле
[Ответ][Цитата]
Вольфрамовый клaпaн
Сообщений: 13070
На: ML battle
Добавлено: 16 дек 16 11:32
На новых данных получилось 0.68988, в трех тысячных от позора.
[Ответ][Цитата]
Калитеран
Сообщений: 585
На: ML battle
Добавлено: 16 дек 16 12:14
Я в одной 0.68990 Бэйзлайн становится всё круче
[Ответ][Цитата]
 Стр.10 (19)1  ...  6  7  8  9  [10]  11  12  13  14  ...  19<< < Пред. | След. > >>