новости  материалы  справочник  форум  гостевая  ссылки  
Новости
Материалы
  Логические подходы
  Нейронные сети
  Генетические алгоритмы
  Разное
  Публикации
  Алгоритмы
  Применение
Справочник
Форум
Гостевая книга
Ссылки
О сайте
 

Применение самоорганизующихся нейронных сетей для классификации заёмщиков.


Автор: Подлесный Сергей Юрьевич,
Организация: ООО «МДЦ-консалтинг»
Оригинал: http://www.mdco.ru/content/886
Краткое описание: Статья посвящена практическому опыту визуализации данных по должникам банка с помощью карт Кохонена.

 

В одной из предыдущих публикаций автор предложил минимальный состав информационных полей для оценки портфелей просроченной задолженности по потребительским кредитам. Было бы интересно проверить прогнозную силу этого набора информационных полей альтернативными математическими средствами, а также обобщить методику такой проверки для задач мониторинга розничного долгового портфеля кредитной организации (не обязательно просроченных кредитов).

Напомним, что для оценки качества портфелей просроченной задолженности оказалось возможным ограничиться лишь сведениями о сумме и сроке просрочки, оценкой степени риска мошенничества и(или) неплатежеспособности, полученной по косвенным признакам (взаимосвязи между заёмщиками, совпадение дат выдачи кредита и т.п.) и соотношением между ссудной задолженностью и задолженностью по процентам, комиссиям и штрафам.

Для проверки предсказательной силы такого набора данных сформируем выборку, включающую следующие показатели по каждому должнику:

  • Нормированное в диапазон {0, 1} значение срока просрочки платежа
  • Нормированное в диапазон {0, 1} значение отношения суммы задолженности по процентам к сумме ссудной задолженности
  • Оценку степени риска мошенничества
  • Степень принадлежности суммы задолженности к категории «большая задолженность»
  • Степень принадлежности суммы задолженности к категории «малая задолженность».

Обратите внимание, что в этой выборке нет никаких обучающих данных, свидетельствующих о фактическом качестве каждого заемщика (например, здесь нет данных о сумме и сроке погашения). Применим к этим данным методику построения самоорганизующихся карт Кохонена.

Самоорганизующаяся карта Кохонена (англ. Self-organizing map — SOM) — соревновательная нейронная сеть с обучением без учителя, выполняющая задачу визуализации и кластеризации. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего, двумерное), применяется также для решения задач моделирования, прогнозирования и др. Является одной из версий нейронных сетей Кохонена. Самоорганизующиеся карты Кохонена служат, в первую очередь, для визуализации и первоначального («разведывательного») анализа данных. Каждая точка данных отображается соответствующим кодовым вектором из решётки. Так получают представление данных на плоскости («карту данных»). Принципиальное свойство карты данных в следующем: на карте данных близкие объекты обладают близкими свойствами. С помощью карты данных можно визуализировать данные, одновременно нанося на подложку сопровождающую информацию (подписи, аннотации, атрибуты, информационные раскраски).

Википедия

На рис. 1 представлена карта Кохонена размерностью 40х40, полученная для выборки данных из реестра просроченной задолженности, проданного в цессию. Размер выборки 797 записей. В ней представлены должники, проживающие в Московской, Новосибирской и Ростовской областях. Цветовая раскраска подложки свидетельствует о том, что алгоритмически была выделена одна область, соответствующая какому-то классу должников (эта область показана черным цветом).

Рис. 1. Результаты погашения просроченной задолженности на карте Кохонена

Данный реестр можно кратко охарактеризовать как почти безнадежный. Сроки просрочки по всем долгам составили не менее 365 дней. Тем не менее, в результате работы коллекторского агентства часть долгов была частично или полностью погашена. Результаты погашения нанесены на подложку в виде точек разного цвета. Каждая точка обозначает попадание одного или нескольких кредитных дел в данную область карты Кохонена. Цветовая кодировка точек следующая:

  • Красным цветом обозначены должники, погашение задолженности которых в течение 180 дней после передачи реестра в цессию не превысило 5%
  • Зеленым цветом обозначены должники, погасившие задолженность полностью или, по согласованию с Агентством, погасившие значительную сумму своей задолженности
  • Желтым цветом обозначены промежуточные категории должников, сумма погашения от которых незначительна, но, например, поступает регулярно.

Еще раз подчеркнем, что выборка, использованная для построения карты Кохонена (рис. 1) не содержала никаких сведений о погашении задолженности. Цветные точки нанесены на карту ПОСЛЕ ее построения. Тем не менее видно, что зеленые точки сконцентрированы в основном в одной области карты, соответствующей выделенному классу входных данных. Значит, нейронная сеть Кохонена самостоятельно выделила во входных данных класс должников, для которых погашение задолженности наиболее вероятно, что и подтвердилось впоследствии!

Проверим, не содержит ли полученная карта Кохонена ещё какой-либо ценной информации. Очевидно, что помимо вопроса «Какие должники скорее всего погасят долг?» нас интересует также, с какими должниками хотя бы удастся связаться по телефону, а какие контакты потеряны.

На рис. 2 на подложку той же карты Кохонена, полученной на основе анализа 797 «очень плохих» должников, нанесены сведения о контактности соответствующих заёмщиков:

  • Красным цветом обозначены кредитные дела, для которых в течение 180 дней не удалось (или не состоялось) ни одного контакта Агентства непосредственно с лицом, отвечающим по кредитному договору.
  • Желтым цветом обозначены дела, по которым состоялся ровно один контакт c самим должником.
  • Зеленым цветом обозначены кредитные дела, по которым состоялось 2 и более контакта с должником.
Рис. 2. Right Person Contacts (RPC) - успешные контакты с должниками на карте Кохонена

Картина складывается несколько парадоксальная: в области «хороших» прогнозов успешных контактов с должниками вообще не было. Зеленые и желтые точки равномерно рассыпаны по остальной площади карты Кохонена.

О чем это свидетельствует? Можно сделать два вывода.

Первое: входные данные не содержат сведений, по которым можно судить о вероятности установления контакта с должником. Об этом говорит равномерное распределение разноцветных точек по всему полю рис. 2 за исключением одной области.

Второе: отсутствие контактов с оплатившими задолженность клиентами объясняется технологическими причинами. Оказывается, большая часть клиентов, оплативших задолженность, совершили этот поступок в первые недели после продажи задолженности в цессию, вероятно, испугавшись письменного уведомления от банка с текстом «Ваш долг продан» (и это неудивительно). По остальным кредитным делам, по которым было погашение задолженности, переговоры велись с третьими лицами (родственниками и работодателями), поэтому в информационной системе коллекторского агентства эти контакты не отразились как контакты с лицом, отвечающим по кредиту.

Здесь опять следует вспомнить, что исследуемый реестр был продан банком после длительных безуспешных попыток досудебного взыскания задолженности собственными силами. Контактные должники оставались столь же безучастны к просьбам погасить задолженность перед банком, как и впоследствии перед агентством. Это и отражает картина равномерной россыпи зеленых точек (успешных контактов с заёмщиками) по всему полю рис. 2. Если что и привело к погашению застарелого долга, то не телефонные переговоры агентства (область красных точек на черном фоне рис. 2, соответствующая области погашения задолженности перед агентством).

Таким образом, зная параметры задолженности, сеть Кохонена не смогла ответить на вопрос, до кого из должников можно дозвониться. Однако, глядя на рис. 1, трудно отделаться от мысли: «На месте банка я бы не стал продавать задолженность по кредитным делам, расположенным в правом верхнем углу карты Кохонена, а попытался бы взыскать задолженность своими силами».

А что, если загрузить в нейронную сеть Кохонена данные, соответствующие «хорошим» долговым портфелям? К каким вывода можно прийти, имея достоверную информацию о поведении обучающей выборки и как можно использовать полученную карту для работы с неизвестными выборками по текущему долговому портфелю? На эти вопросы мы попытаемся ответить во следующей публикации.

Для анализа данных использован программный продукт Collect Advantage производства ООО «МДЦ-консалтинг». Помимо анализа данных, Collect Advantage позволяет манипулировать реестрами, например, выделять интересующие области на карте Кохонена мышью и наглядным образом формировать реестр в графической среде.