GotAI.NET
Форум: Проблемы искусственного интеллекта
Регистрация
|
Вход
Все темы
|
Новая тема
Стр.10 (19)
<<
< Пред.
|
След. >
>>
Поиск:
Автор
Тема: На: ML battle
Вольфрамовый клaпaн
Сообщений: 13070
На: ML battle
Добавлено: 14 дек 16 9:39
Изменено: 14 дек 16 9:39
Цитата:
Автор: NO.
Ну и чего тут видно? Какую интуицию можно приобрести на таких картинках?
По-моему ничего не видно. Диагональ можно вообще не рисовать, понятно, что там 1. А остальное просто общая статистика насколько велики точки, структуры никакой.
Да, не очень понятно как это поможет. А еще в неявном предполагается участие порядкового номера. А это как раз один из самых важных вопросов - можно ли эту последовательность перемешивать? И почему у них в примерном индексе id не совпадает с i? Хотя id_max = i_max.
У меня пока результаты аховые, минимальный logloss на классификационных данных - 0.69155 и 0.07 заработанных денег.
На тестовых данных удавалось получить и 0.67, но за счет переобучения.
[
Ответ
][
Цитата
]
гость
82.145.220.*
На: ML battle
Добавлено: 14 дек 16 9:44
Цитата:
Автор: Калитеран
PS: только смотрю они у нас разные с гостем который в R считал, что странно, кто то ошибся...
Цитата:
Автор: Калитеран
PS: только смотрю они у нас разные с гостем который в R считал, что странно, кто то ошибся...
Здорово. Оперативно.
Я тоже наборчик обновил - сейчас совпадут
Только, почему предикторы по-порядку?Вся соль теряется.
См. 2 рисунок.
http://img.uploads.su/v.php?id=zw6y8.jpg
http://img.uploads.su/v.php?id=2g32xdtt.jpg
[
Ответ
][
Цитата
]
гость
82.145.222.*
На: ML battle
Добавлено: 14 дек 16 10:43
Цитата:
Автор: гость
имхо гавеные данные, не ясно почему, возможно просто гавеные, нет связи входа с выходом, например брали большие таймфреймы, часы, дни и только цены одного активы, а признаки от него ряд усреднений с разными окнами, при таких данных даже Иисус буть он иишником ничего не вытянул бы, а может они взяли нормальные фичи с HFT и так их обфусцировали что сломалась вся структура
Понятно, что говенные. Потому и на выходе - ..оно.
Я сначала думал, что они отбутстрэпили какой-то небольшой наборчик, но сейчас в этом почти уверен.
Но сделали это хитро
[
Ответ
][
Цитата
]
NO.
Сообщений: 10700
На: ML battle
Добавлено: 14 дек 16 11:20
Там написано данные зашифрованы, они типа очень дорогие, а мужик их закодировал гомоморфным кодом, это который позволяет складывать и умножать коды не зная сами числа, выложил и теперь делайте с ними что хотите.
[
Ответ
][
Цитата
]
dr2chek
Сообщений: 871
На: ML battle
Добавлено: 14 дек 16 11:20
Цитата:
Автор: гость
Что значит "сессия" в Вашем разумении?
Ну хорошо, не сессия, пусть будет датасет (dataset). Но процесс обжевывания датасета напоминает сессию (как по продолжительности, так и по процессу)
[
Ответ
][
Цитата
]
NO.
Сообщений: 10700
На: ML battle
Добавлено: 14 дек 16 11:28
циферка там полезная фигурирует - 30млрд сделанных предсказаний цен
чтобы хоть представлять с чем связались и что в этих данных искать
[
Ответ
][
Цитата
]
Калитеран
Сообщений: 585
На: ML battle
Добавлено: 14 дек 16 16:21
Изменено: 14 дек 16 16:22
Цитата:
Автор: гость
Тут ковариационная матрица не поможет, зависимость существенно нелинейная.
Да это я просто так, виджет понравился, но вообще проверить стоит, кто знает может зависимость линейной окажется.
Цитата:
Автор: гость
Только, почему предикторы по-порядку?Вся соль теряется.
Супер! Идея кластеризации по корреляции ясна, сам пробовал предикторы уплотнять PCA, результата не дало, точность ~47.7% логлос 0.6909, такое ощущение что стандартные методы ML далее 0.69 идти не хотят, нужны какие то ухищрения связанные со спецификой именно этого датасета, но глубинно ковыряться увы нет времени
[
Ответ
][
Цитата
]
NO.
Сообщений: 10700
На: ML battle
Добавлено: 14 дек 16 21:39
Кстати про умножение в гогоморфном коде чего-то не верится. В сложении единичный элемент ноль, а в умножении единица, её можно найти и из нее получить все остальные числа.
[
Ответ
][
Цитата
]
гость
194.88.143.*
На: ML battle
Добавлено: 15 дек 16 9:11
XGB: maxDepth = 3, learningRate = 0.01, nEstimators = 100, silent = true, objective = "binary:logistic", nThread = -1, gamma = 0, minChildWeight = 0, maxDeltaStep = 0, subsample = 0.1, colSampleByTree = 1, colSampleByLevel = 1, regAlpha = 0.5, regLambda = 1, scalePosWeight = 1, baseScore = 0.5, seed = 0
ошибка 48.2 , log loss 0.69240
ИМХО XGB самый крутой из всех
[
Ответ
][
Цитата
]
data
Сообщений: 109
На: ML battle
Добавлено: 15 дек 16 15:44
Цитата:
Автор: Egg
Да, не очень понятно как это поможет. А еще в неявном предполагается участие порядкового номера. А это как раз один из самых важных вопросов - можно ли эту последовательность перемешивать? И почему у них в примерном индексе id не совпадает с i? Хотя id_max = i_max.
У меня пока результаты аховые, минимальный logloss на классификационных данных - 0.69155 и 0.07 заработанных денег.
На тестовых данных удавалось получить и 0.67, но за счет переобучения.
0.69155 - ну вот почти догнали
Теперь осталось невозможное
Думаю через недельку освобожусь, хочу рассмотреть этот сет "микроструктурно" так сказать, взять окрестность вокруг какой то точки, в <1000 отчетов и посмотреть что там "творится", какого фига такая ошибка, почему распределения на лерне и тесте так отличаются, это нужно глазами узреть, время перебора параметров классификаторов кончилось.
[
Ответ
][
Цитата
]
Сергей Гаврилов
Сообщений: 197
На: ML battle
Добавлено: 16 дек 16 4:14
Цитата:
Автор: data
0.69155
Я так понимаю log loss это в отличии от accuracy дает количественную меру схожести\различия
плотностей распределений
, а не только сумарный XOR или argmax как с accuracy, но эта мера деформированная логарифмом, что сбивает с толку, это как если скорость машины логарифмировать, что бы видеть ВО сколько раз быстрее, а не НА сколько
[
Ответ
][
Цитата
]
Сергей Гаврилов
Сообщений: 197
На: ML battle
Добавлено: 16 дек 16 4:51
Naive Byes 49,5% accuracy log loss 0.69290, почти рандом
[
Ответ
][
Цитата
]
гость
185.38.14.*
На: ML battle
Добавлено: 16 дек 16 11:00
черта позора на новом датасете 0.68991, на ихнем экземпле
[
Ответ
][
Цитата
]
Вольфрамовый клaпaн
Сообщений: 13070
На: ML battle
Добавлено: 16 дек 16 11:32
На новых данных получилось 0.68988, в трех тысячных от позора.
[
Ответ
][
Цитата
]
Калитеран
Сообщений: 585
На: ML battle
Добавлено: 16 дек 16 12:14
Я в одной 0.68990
Бэйзлайн становится всё круче
[
Ответ
][
Цитата
]
Стр.10 (19)
:
1
...
6
7
8
9
[10]
11
12
13
14
...
19
<<
< Пред.
|
След. >
>>
Главная
|
Материалы
|
Справочник
|
Гостевая книга
|
Форум
|
Ссылки
|
О сайте
Вопросы и замечания направляйте нам по
Copyright © 2001-2022, www.gotai.net