новости  материалы  справочник  форум  гостевая  ссылки  
Новости
Материалы
  Логические подходы
  Нейронные сети
  Генетические алгоритмы
  Разное
  Публикации
  Алгоритмы
  Применение
Справочник
Форум
Гостевая книга
Ссылки
О сайте
 

Дополнения

Постановка и решение задачи классификации существительных немецкого языка, по способу образования множественного числа, описанным методом


Предметная область - множество существительных немецкого языка, представленных в падеже Nominativ, единственном числе, с определенным артиклем.

Классы объектов:

  1. "Окончание во множественном числе, падеже Nominativ, -e"
  2. "Окончание во множественном числе, падеже Nominativ, -(e)n"
  3. "Окончание во множественном числе, падеже Nominativ, -er"
  4. "Не имеет окончания во множественном числе, падеже Nominativ"

Обучающая выборка состоит из 228-ми существительных, в том числе:

  • 66 существительных 1-го класса

  • 107 существительных 2-го класса

  • 9 существительных 3-го класса

  • 46 существительных 4-го класса

Состав обучающей выборки дан в Приложении А, данной работы.

Тестовая выборка состоит из 52-х существительных, в том числе:

  • 16 существительных 1-го класса

  • 21 существительных 2-го класса

  • 4 существительных 3-го класса

  • 11 существительных 4-го класса

Состав тестовой выборки дан в Приложении Б, данной работы.

Рассмотрим объектную модель. Каждое слово - суть объект-контейнер объектов класса "буква". Причем слово - контейнер позиционный (т.к. здесь важна последовательность букв слова) открытый (т.к. существует единственный объект "буква", являющийся началом цепочки - началом слова). Состав признаков объекта "буква" может быть довольно широк, но мы ограничимся лишь одним признаков - номером буква в используемом алфавите символов. Данный признак имеет следующие состояния - "a","b","c","d" и т.д.

Таким образом, получаем:

img1

Рис.1. Полученная объектная модель


Количество возможных состояния объекта "буква" равно, в данном случае, количеству используемых символов, но данный объект будет всегда находиться только в одном из состояний - т.к. он не может, например, быть одновременно и буквой 'a' и буквой 'b'.

Количество возможных состояний объекта "буквы слова", среди которых есть состояния, в которых некоторые признаки данного объекта могут быть в любом состоянии (т.е. некоторые элементы описаний таких состояний равны нолю), равно:

img2

Где, SC - количество символов в используемом алфавите, а MWL - максимальная длина слова, среди слов обучающей и тестовой выборки.

Для данной задачи мы будем использовать все множество возможных состояний, из которого исключены следующие состояния:

  • Состояние, элементами описания которого являются одни ноли - т.е. это состояние "Любое слово"

  • Состояния, в описаниях которых присутствует два и более элементов равных нолю и расположенных подряд и следующих непосредственно за элементом, не равным нолю. Этот вид состояний мы исключаем т.к. например, состояние А, описанное как «0  1  0  0  2» будет эквивалентно состоянию Б, описанному как «0  0  1  0  2». Поэтому одно из состояний мы исключаем из рассмотрения (это будет состояние А, как содержащее два нулевых элемента, расположенных подряд и следующих непосредственно после не нулевого элемента - 1).

Таком образом, получаем, что объект "Буквы слова" может находиться одновременно в нескольких состояниях, например: "Начинается на букву 'd'", "Содержит 'ie'", "Заканчивается на 'ien'" и т.п. Число состояний, в которых одновременно находится данный объект, может быть довольно велико - например, объект "der oberbefehlshaber", из обучающей выборки данной задачи, находится одновременно в более чем 66 миллионов состояний.

Множество состояний объекта "Слово" будет в данной задаче эквивалентным множеству состояний объекта "Буквы слова" т.к. этот контейнер является единственным признаком объекта "Слово".

Решение задачи.

Была поставлена серия из десяти опытов. В каждом из опытов, в обучающую выборку  входили первые N объектов из каждой десятки объектов полной обучающей выборки, приведенной в Приложении А, где N - номер опыта. Например, во втором опыте в обучающую выборку входили слова из полной выборки, имеющие следующие порядковые номера: 1,2,11,12,21,22,31,32 и т.д. Тестовая выборка была во всех опытах одна и та же, приведенная в Приложении Б вместе с результатами классификации каждого объекта тестовой выборки, полученными в каждом из опытов.


Приведем диаграммы полученных коэффициентов точности, доверия и качества.

img3
img4
img5

Одним из способов повысить качество распознавания в данной задаче является, как представляется автору,  введение таких дополнительных признаков объекта "буква", как: "Это - гласная", "Это - согласная", "Это - глухая согласная", "Это - звонкая согласная" и т.п. Такое изменение приведет к возрастанию числу состояний объектов задачи, что позволит среди них находить больше уникальных, для каждого класса, состояний.


Приложение А - обучающая выборка

Состав полной обучающей выборки. После точки дан номер класса.


  1. der aal.1
  2. das aas.1
  3. die abart.2
  4. das abbild.3
  5. die abbildung.2
  6. der auszeg.1
  7. die auszeichnung.2
  8. der autobus.1
  9. der automat.2
  10. die axt.1
  11. der bach.1
  12. die backe.2
  13. der backer.4
  14. die backerei.2
  15. der backfisch.4
  16. der bursche.2
  17. die burste.2
  18. der busch.1
  19. der busen.4
  20. die buste.2
  21. der charakter.1
  22. der chauffeur.1
  23. die chaussee.2
  24. der chinese.2
  25. der chirurg.2
  26. der chor.2
  27. der christ.2
  28. das dach.3
  29. die dame.2
  30. der damm.1
  31. die dammerung.2
  32. der dampf.1
  33. der durchschlag.1
  34. der durchschnitt.1
  35. die durchsicht.2
  36. die durre.2
  37. das dutzend.1
  38. die ebbe.2
  39. die ebene.2
  40. der eber.4
  41. die ecke.2
  42. der effekt.1
  43. das euter.4
  44. das examen.4
  45. das exil.1
  46. die existenz.2
  47. die explosion.2
  48. die fabel.2
  49. die fabrik.2
  50. das fach.3
  51. der facher.4
  52. der fachmann.3
  53. die furche.2
  54. der furst.2
  55. die furt.2
  56. die fus.1
  57. das futter.4
  58. die gabe.2
  59. die gabel.2
  60. die galerie.2
  61. der galgen.4
  62. die galle.4
  63. die gruppe.2
  64. die grutze.2
  65. der gurtel.4
  66. der gus.1
  67. das gut.3
  68. das haar.1
  69. die habe.4
  70. die habgier.4
  71. der habicht.1
  72. die hacke.2
  73. der hund.1
  74. die hurde.2
  75. der hut.1
  76. die hutte.2
  77. die hymne.2
  78. die idee.2
  79. der igel.4
  80. der iltis.1
  81. der imbis.1
  82. der imker.4
  83. die intervention.2
  84. die investirung.2
  85. der irrtum.3
  86. der islander.4
  87. der italiener.4
  88. die jacht.2
  89. die jacke.2
  90. das jackett.1
  91. die jagd.2
  92. der jager.4
  93. das joch.1
  94. der jugoslawe.2
  95. der junge.2
  96. der jungling.1
  97. das juwel.2
  98. die kabale.2
  99. die kachel.2
  100. der kafer.4
  101. der kafig.1
  102. der kahn.1
  103. der kurschner.4
  104. die kurve.2
  105. die kurzung.2
  106. der kus.1
  107. die kuste.2
  108. das laboratorium.2
  109. der lachs.1
  110. der laden.4
  111. die ladung.2
  112. die lage.2
  113. der lugner.4
  114. der lump.2
  115. die lunge.2
  116. die lust.1
  117. die macht.1
  118. das madchen.4
  119. die magd.1
  120. der magen.4
  121. die mahd.2
  122. das muster.4
  123. die mutter.4
  124. das muttermal.3
  125. das muttersohnchen.4
  126. die mutze.2
  127. die nabe.2
  128. der nabel.4
  129. der nachbar.2
  130. der nachfolger.4
  131. der nackdruck.1
  132. die notiz.2
  133. die null.2
  134. die nummer.2
  135. die nus.1
  136. der nutzen.4
  137. der oberbefehlshaber.4
  138. der oberst.2
  139. das objekt.1
  140. die obrigkeit.2
  141. der ochs.2
  142. der orkan.1
  143. der ort.1
  144. die orthographie.2
  145. der osterreicher.4
  146. der ozean.1
  147. das paar.1
  148. der pachter.4
  149. der pack.1
  150. das paket.1
  151. der palast.1
  152. die prufung.2
  153. das pulver.4
  154. die pumpe.2
  155. der punkt.1
  156. die puppe.2
  157. die qual.2
  158. die qualitat.2
  159. die quantitat.2
  160. das quantum.2
  161. die quelle.2
  162. die quergasse.2
  163. die quittung.2
  164. die runde.2
  165. der russe.2
  166. der russel.4
  167. die rustung.2
  168. die rute.2
  169. der saal.1
  170. die saat.2
  171. der sabel.4
  172. die sachen.2
  173. der sack.1
  174. das substantiv.1
  175. die subtraktion.2
  176. das suffix.1
  177. die sunde.2
  178. die suppe.2
  179. die tabelle.2
  180. der tadel.4
  181. die tafel.2
  182. der tag.1
  183. die tagung.2
  184. das tuch.3
  185. die tugend.2
  186. die tur.2
  187. der turke.2
  188. der turm.1
  189. das ubel.4
  190. das uberbleibsel.4
  191. der uberblick.1
  192. die uberfahrt.2
  193. der uberfall.1
  194. die urkunde.2
  195. der urlaub.1
  196. die ursache.2
  197. der ursprung.1
  198. das urteil.1
  199. die varanderung.2
  200. der vater.4
  201. das veilchen.4
  202. die verabredung.2
  203. die veranlagung.2
  204. der vorwand.1
  205. das vorwort.1
  206. der vorwurf.1
  207. das vorzimmer.4
  208. der vorzug.1
  209. die waage.2
  210. die wache.2
  211. das wachs.1
  212. die wacht.2
  213. der wachter.4
  214. der wurm.3
  215. die wurst.1
  216. das wurstchen.4
  217. die wurzel.2
  218. die wuste.2
  219. die zacke.2
  220. die zahl.2
  221. der zahler.4
  222. die zahlung.2
  223. der zahn.1
  224. die zweibel.2
  225. der zwicker.4
  226. der zwieback.1
  227. der zwirn.1
  228. der zwist.1

Таблица 1. Размер обучающей выборки в каждом из опытов.


Класс Номер опыта
1 2 3 4 5 6 7 8 9 10
1 10 17 24 27 34 44 49 56 61 66
2 8 19 28 43 53 62 75 87 100 107
3 0 1 1 5 6 6 7 8 8 9
4 5 9 16 17 22 26 30 33 37 46

Приложение Б - тестовая выборка

Таблица 2. Состав тестовой выборки и классификация, по опытам.

Объект, фактический класс объекта Номер опыта
1 2 3 4 5 6 7 8 9 10
das abmas
der alarm
das begrabnis
der besatz
das dickicht
der eingang
der erlas
der genitiv
das gerat
die haut
der hecht
der hieb
das konsulat
der mist
der sperling
der umstand
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
4
4
1
4
4
4
1
2
1
1
1
1
4
4
1
1
4
4
1
4
4
4
4
2
1
1
4
1
4
3
1
1
4
1
1
4
1
4
4
2
1
1
4
1
4
1
1
1
3
1
3
4
4
4
4
2
1
1
3
1
4
1
1
3
3
1
3
4
1
4
4
2
1
1
3
1
4
1
1
3
3
1
3
1
1
4
4
2
1
1
3
1
4
1
3
3
3
1
3
1
1
4
3
2
1
1
3
1
4
1
3
3
3
1
3
1
1
4
3
2
1
1
3
1
4
1
3
1
3
1
3
1
1
4
3
2
1
1
3
1
4
1
3
1
3
4
3
4
1
4
3
2
1
1
3
1
4
1
die ader
die amme
die besatzung
die direktion
die division
die eingabe
die einheit
die fohre
die gattin
die generation
die katze
der knabe
die leiche
die leine
die mappe
das ministerium
die rente
die strecke
der tourist
der vetter
die welle
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
4
2
2
2
4
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
4
2
2
2
4
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
4
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
3
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
3
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
3
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
1
2
2
2
3
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
4
2
2
2
3
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
4
2
2
2
3
2
2
1
4
2
2
2
2
2
2
2
2
2
2
2
2
4
2
2
2
3
2
2
1
4
2
das eigentum
das glas
das glied
das schlos
3
3
3
3
4
1
2
1
4
1
4
1
4
1
4
1
4
1
3
3
3
1
3
3
3
1
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
der belgier
der diener
der fehler
das feuer
der flugel
das gewitter
der japaner
das kissen
das leben
der trager
der zugel
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4
4

Приложение В - полученные результаты

Таблица 3. Коэффициент точности(%), по опытам.

Класс Номер опыта
1 2 3 4 5 6 7 8 9 10
1
2
3
4
50.0
81.0
0.0
100.0
37.5
81.0
0.0
100.0
56.3
81.0
0.0
100.0
43.8
81.0
50.0
100.0
43.8
81.0
75.0
100.0
50.0
81.0
75.0
100.0
43.8
81.0
100.0
100.0
43.8
81.0
100.0
100.0
50.0
81.0
100.0
100.0
37.5
81.0
100.0
100.0

Таблица 4. Коэффициент доверия(%), по опытам.

Класс Номер опыта
1 2 3 4 5 6 7 8 9 10
1
2
3
4
88.9
94.4
0.0
52.4
66.7
94.4
0.0
45.8
69.2
94.4
0.0
52.4
70.0
94.4
33.3
61.1
70.0
94.4
37.5
68.8
72.7
94.4
37.5
73.3
77.8
94.4
36.4
78.6
87.5
94.4
36.4
73.3
88.9
94.4
40.0
73.3
85.7
94.4
40.0
64.7

Таблица 5. Коэффициент качества, по опытам.

Класс Номер опыта
1 2 3 4 5 6 7 8 9 10
1
2
3
4
88.9
94.4
0.0
52.4
66.7
94.4
0.0
45.8
69.2
94.4
0.0
52.4
70.0
94.4
33.3
61.1
70.0
94.4
37.5
68.8
72.7
94.4
37.5
73.3
77.8
94.4
36.4
78.6
87.5
94.4
36.4
73.3
88.9
94.4
40.0
73.3
85.7
94.4
40.0
64.7







Построение объектной модели задачи распознавания изображений


Попробуем представить примерную объектную модель данной задачи:

img6

Рис.2 Примерная объектная модель задачи распознавания изображений


Изображение – это множество окрестностей точек. Каждая окрестность характеризуется цветом точки и сведениями и пространстве вокруг этой точки.

Сведения о окружающем пространстве целесообразно представить в виде позиционного замкнутого контейнера («Соседние регионы» - на приведенном рисунке) т.к. в случае двух изображений, одно из которых является точной копией другого, повернутой на некоторый угол вокруг некоторой точки, то окрестности этой точки в обоих изображениях будут высокоподобны, что позволит заметить подобие самих изображений.

«Регион» - это позиционный открытый контейнер, объекты которого – сведения о частях региона. Сведения о регионе целесообразно представить в виде отрытого позиционного контейнера т.к. в случае двух изображений, одно из которых является копией другого, увеличенной (уменьшенной) вокруг некоторой точки, то порядок следования сведений о частях регионов окрестностей данной точки в обоих изображениях сохранится т.е. сведения о окрестностях этой точки в обоих изображениях будут высокоподобны, что позволит заметить подобие самих изображений.

img7

Рис.3 Сохранение порядка следования сведений о соседних регионах окрестностей некоторой точки в двух изображениях.Случай I – неискаженное изображение; случай II – изображение повернуто вокруг данной точки.


img8

Рис.4  Сохранение порядка следования сведений о частях региона окрестности точки в двух изображениях. Случай I – неискаженное изображение; случай II – изображение увеличено вокруг данной точки.


Сведения о частях региона достаточно, как представляется, ограничить простым признаком, описывающим степень подобия цвета части региона окрестности точки, цвету самой точки. Это позволит, в случае двух изображений, одно из которых является копией другого, но с инвертированными цветами, обнаружить высокое подобие окрестностей точек в обоих изображениях, а, следовательно, и высокое подобие самих изображений.

Следует заметить, что в состав сведений о точке изображения не входят сведения  что-либо говорящие о абсолютных координатах данной точки на рецепторном поле, поскольку такие сведения, как представляется автору, являются бесполезными. Действительно, в случае двух изображений, одно из которых является копией другого повернутой на некоторый угол; увеличенной в N раз (img9); зашумленной некоторыми посторонними вкраплениями и т.п. обнаружение в обоих изображениях точек с близкими абсолютными координатами и высоко подобными окрестностями представляется крайне маловероятным.

Таким образом, сведения о изображении – это набор сведений о окрестностях точек их (изображения) составляющих. На практике, например при программной реализации описанной объектной модели, достаточно для каждого класса изображений выделить некоторое число (например, пять или десять)  окрестностей точек, в наибольшей степени характерных для изображений данного класса и в наименьшей степени характерных для изображений других классов. Процесс отнесения к некоторому классу некоторого изображения будет, тогда, заключаться в поиске среди окрестностей точек, составляющих данное изображение, таких окрестностей, которые были бы наиболее подобны выделенным окрестностям изображений данного класса.

Конечно, предложенная объектная модель не является исчерпывающей, поскольку ряд важных деталей не определен (например: количество и степень наложения регионов и частей регионов; способ представления цвета точки и т.п.), но позволяет в общих чертах  представить возможный вид объектной модели задачи распознавания изображений.


Предыдущая Содержание