Обратитесь вон в OpenAI? Они вон тоже конструируют:
The corpus it was trained on, called WebText, contains slightly over 8 million documents for a total of 40 GB of text from URLs shared in Reddit submissions...
https://en.wikipedia.org/wiki/OpenAIТо есть они сначала находят текст, а потом меняют (насколько я понял) слова.
Здесь я бы хотел поговорить о публикациях в Computational Linguistics, MIT.