Крупнейший архив жизни людей того времени наконец доступен нам полностью.
Исследователи из Израиля надеются по-новому взглянуть на историю еврейских общин, подключив к работе над уникальным архивом средневековых рукописей систему автоматической расшифровки , обученную на основе нейросетей. Их цель — заставить машину прочитать Каирскую генизу — крупнейшее собрание еврейских документов Средневековья, которое больше ста лет изучают учёные всего мира. В коллекции свыше 400 тысяч фрагментов, но детально исследована лишь небольшая часть.
Гениза — это хранилище при синагоге, куда складывали важные бумаги, подлежащие последующему ритуальному погребению. Гениза синагоги Бен-Эзра в старом Каире оказалась особенным случаем: сухой климат и замкнутое помещение создали идеальные условия для сохранности пергамента и бумаги. В ней сохранилось всё — от религиозных текстов и писем до хозяйственных записок, судебных документов и черновиков, которые отражают жизнь еврейской общины на протяжении столетий. Среди авторов — даже Маймонид, знаменитый философ и врач семьи Саладина.
Хотя весь массив материалов уже оцифрован и размещён онлайн в виде изображений, большинство предметов до сих пор не получили ни описаний, ни связанной с ними информации. Многие страницы — это обрывки больших текстов, утративших структуру. Лишь около 10% материалов имеют расшифровки. Проект MiDRASH пытается изменить ситуацию, обучая нейросеть распознавать древние тексты на иврите, арабском, арамейском и идише, написанные множеством различных почерков.
Как объясняет Даниэль Стокль Бен-Эзра, один из руководителей проекта, команда постоянно улучшает способность алгоритмов распознавать почерк людей прошлого. Исследователи загружают всё больше данных, а самые сложные случаи дополнительно проверяют вручную, что помогает машине точнее понимать язык оригинала. В результате становится возможным искать в массиве имена, географические упоминания, формулы писем, сопоставлять разрозненные части и восстанавливать цельные тексты.
Команда уже расшифровала множество документов. Один из примеров — письмо XVI века на идише от женщины по имени Рахель, жившей в Иерусалиме, своему сыну в Египте. На полях сохранился его ответ, в котором он рассказывает о том, как пытается пережить чуму, охватившую Каир. Подобные находки превращают отдельные фрагменты в полноценные истории о жизни людей, проходящих через тяготы и радости своего времени.
Проект финансируется Европейским исследовательским советом и основан на цифровом архиве Национальной библиотеки Израиля. Над ним совместно работают специалисты из нескольких университетов и научных центров. По словам Стокля Бен-Эзры, комбинация машинного анализа и человеческой экспертизы может привести к настоящему прорыву: перед исследователями впервые появляется шанс систематически восстановить связи между людьми разных эпох, понять, как формировались сети общения и как развивались общины.
Учёные уверены, что такие инструменты способны буквально «собрать Средневековье заново» — восстановить социальные круги, экономические отношения и культурные влияния, скрытые в столетиях рукописных заметок и писем.
Исследователи из Израиля надеются по-новому взглянуть на историю еврейских общин, подключив к работе над уникальным архивом средневековых рукописей систему автоматической расшифровки , обученную на основе нейросетей. Их цель — заставить машину прочитать Каирскую генизу — крупнейшее собрание еврейских документов Средневековья, которое больше ста лет изучают учёные всего мира. В коллекции свыше 400 тысяч фрагментов, но детально исследована лишь небольшая часть.
Гениза — это хранилище при синагоге, куда складывали важные бумаги, подлежащие последующему ритуальному погребению. Гениза синагоги Бен-Эзра в старом Каире оказалась особенным случаем: сухой климат и замкнутое помещение создали идеальные условия для сохранности пергамента и бумаги. В ней сохранилось всё — от религиозных текстов и писем до хозяйственных записок, судебных документов и черновиков, которые отражают жизнь еврейской общины на протяжении столетий. Среди авторов — даже Маймонид, знаменитый философ и врач семьи Саладина.
Хотя весь массив материалов уже оцифрован и размещён онлайн в виде изображений, большинство предметов до сих пор не получили ни описаний, ни связанной с ними информации. Многие страницы — это обрывки больших текстов, утративших структуру. Лишь около 10% материалов имеют расшифровки. Проект MiDRASH пытается изменить ситуацию, обучая нейросеть распознавать древние тексты на иврите, арабском, арамейском и идише, написанные множеством различных почерков.
Как объясняет Даниэль Стокль Бен-Эзра, один из руководителей проекта, команда постоянно улучшает способность алгоритмов распознавать почерк людей прошлого. Исследователи загружают всё больше данных, а самые сложные случаи дополнительно проверяют вручную, что помогает машине точнее понимать язык оригинала. В результате становится возможным искать в массиве имена, географические упоминания, формулы писем, сопоставлять разрозненные части и восстанавливать цельные тексты.
Команда уже расшифровала множество документов. Один из примеров — письмо XVI века на идише от женщины по имени Рахель, жившей в Иерусалиме, своему сыну в Египте. На полях сохранился его ответ, в котором он рассказывает о том, как пытается пережить чуму, охватившую Каир. Подобные находки превращают отдельные фрагменты в полноценные истории о жизни людей, проходящих через тяготы и радости своего времени.
Проект финансируется Европейским исследовательским советом и основан на цифровом архиве Национальной библиотеки Израиля. Над ним совместно работают специалисты из нескольких университетов и научных центров. По словам Стокля Бен-Эзры, комбинация машинного анализа и человеческой экспертизы может привести к настоящему прорыву: перед исследователями впервые появляется шанс систематически восстановить связи между людьми разных эпох, понять, как формировались сети общения и как развивались общины.
Учёные уверены, что такие инструменты способны буквально «собрать Средневековье заново» — восстановить социальные круги, экономические отношения и культурные влияния, скрытые в столетиях рукописных заметок и писем.
- Источник новости
- www.securitylab.ru