№ 13 (2026): Международный журнал медиа и коммуникаций в Центральной Азии
Статьи

ИНТЕГРАЦИЯ МОБИЛОГРАФИИ И ДВИЖЕНИЙ КАМЕРЫ В НЕЙРОФОТОСЕССИИ: ПОВЫШЕНИЕ ВИЗУАЛЬНОГО РЕАЛИЗМА ЧЕРЕЗ ПРОМПТ-ИНЖИНИРИНГ

Гульшан Каюмова
Университет журналистики и массовых коммуникаций Узбекистана
Дилора Файзуллаевна
Университет журналистики и массовых коммуникаций Узбекистана
Бобурмирзо Йигиталиев
Университет журналистики и массовых коммуникаций Узбекистана

Опубликован 2026-05-22

Ключевые слова

  • визуальный реализм,
  • diffusion-модели,
  • движения камеры,
  • ракурсы камеры,
  • промпт-инжиниринг,
  • мобилография,
  • нейрофотосессия
  • ...Больше
    Меньше

Как цитировать

Каюмова , Г., Файзуллаевна , Д., & Йигиталиев , Б. (2026). ИНТЕГРАЦИЯ МОБИЛОГРАФИИ И ДВИЖЕНИЙ КАМЕРЫ В НЕЙРОФОТОСЕССИИ: ПОВЫШЕНИЕ ВИЗУАЛЬНОГО РЕАЛИЗМА ЧЕРЕЗ ПРОМПТ-ИНЖИНИРИНГ. Международный журнал медиа и коммуникаций в Центральной Азии, (13). https://doi.org/10.62499/ijmcc.vi13.296

Аннотация

В данной статье анализируется интеграция мобилографии, ракурсов камеры и движений камеры в системы искусственного интеллекта (AI) посредством промпт-инжиниринга в процессе нейрофотосессии. Несмотря на то, что современные diffusion-модели типа text-to-image обладают широкими возможностями создания визуального контента, качество результата во многом зависит от точности и структурированности вводимого промпта. В работе ракурсы камеры (eye-level, low angle, high angle и др.), а также движения камеры (pan, tilt, dolly, handheld) формализованы в виде структурированного промпта в сочетании с принципами мобилографии. Результаты показывают, что такой подход значительно повышает реализм, глубину и кинематографическое качество генерируемых изображений.

Библиографические ссылки

  1. Aitken, A. P., Ledig, C., Theis, L., Caballero, J., Wang, Z., & Shi, W. (2017). Checkerboard artifact free sub-pixel convolution: A note on sub-pixel convolution, resize convolution and convolution resize. arXiv preprint arXiv:1707.02937 https://doi.org/10.48550/.
  2. Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., Bernstein, M. S., Bohg, J., Bosselut, A., Brunskill, E., et al. (2021). On the opportunities and risks of foundation models. arXiv. https://arxiv.org/abs/2108.07258
  3. Bordwell, D., & Thompson, K. (2019). Film art: An introduction (12th ed.). McGraw-Hill Education.
  4. Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial nets. In Advances in Neural Information Processing Systems, 27. pp. 2672–2680. Retrieved May 07, 2026 from https://papers.nips.cc/paper/5423-generative-adversarial-nets
  5. Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. In Advances in Neural Information Processing Systems, 33. pp. 6840–6851). Retrieved May 07, 2026 from https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html
  6. Herrera, L., Schaefer, K. L., Benjamin, L. S. S., & Henderson, J. A. (2023). Flash On: Capturing Minoritized Engineering Students’ Persistence through Photovoice Research. Sustainability, 15(6), 5311. https://doi.org/10.3390/su15065311
  7. Haugsbaken, H. and Hagelia, M., (2024) A New AI Literacy For The Algorithmic Age: Prompt Engineering Or Eductional Promptization?, 4th International Conference on Applied Artificial Intelligence (ICAPAI), Halden, Norway, 2024, pp. 1-8, doi: 10.1109/ICAPAI61893.2024.10541229.
  8. Lu, C., Zhou, Y., Bao, F., Chen, J., Li, C., & Zhu, J. (2022). DPM-Solver: A fast ODE solver for diffusion probabilistic model sampling in around 10 steps. In Advances in Neural Information Processing Systems (Vol. 35, pp. 5775–5787). Retrieved May 07, 2026 from https://arxiv.org/abs/2206.00927
  9. Manovich, L. (2020). Cultural analytics. MIT Press. Retrieved May 07, 2026 from https://mitpress.mit.edu/9780262037105/cultural-analytics/
  10. Nichol, A. Q., & Dhariwal, P. (2021). Improved denoising diffusion probabilistic models. In Proceedings of the 38th International Conference on Machine Learning (pp. 8162–8171). Retrieved May 07, 2026 from https://proceedings.mlr.press/v139/nichol21a.html
  11. Odena, A., Dumoulin, V., & Olah, C. (2016). Deconvolution and checkerboard artifacts. Distill. https://doi.org/10.23915/distill.00003
  12. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. (2021). Learning transferable visual models from natural language supervision. In Proceedings of the 38th International Conference on Machine Learning (pp. 8748–8763). Retrieved May 07, 2026 from https://proceedings.mlr.press/v139/radford21a.html
  13. Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with CLIP latents. arXiv. Retrieved May 07, 2026 from https://arxiv.org/abs/2204.06125
  14. Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E., Ghasemipour, S. K. S., Ayan, B. K., Mahdavi, S. S., Lopes, R. G., et al. (2022). Photorealistic text-to-image diffusion models with deep language understanding. In Advances in Neural Information Processing Systems (Vol. 35). Retrieved May 07, 2026 from https://arxiv.org/abs/2205.11487
  15. Sohl-Dickstein, J., Weiss, E. A., Maheswaranathan, N., & Ganguli, S. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. In Proceedings of the 32nd International Conference on Machine Learning (pp. 2256–2265). Retrieved May 07, 2026 from https://proceedings.mlr.press/v37/sohl-dickstein15.html
  16. Shi, C. and Yang, S., (2023) LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for Vision-Language Models, IEEE/CVF International Conference on Computer Vision (ICCV), Paris, France, 2023, pp. 2920-2929, doi: 10.1109/ICCV51070.2023.00274.
  17. Zhang, R., Isola, P., Efros, A. A., Shechtman, E., & Wang, O. (2018). The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 586–595). Retrieved May 07, 2026 from https://openaccess.thecvf.com/content_cvpr_2018/html/Zhang_The_Unreasonable_Effectiveness_CVPR_2018_paper.html
  18. Zhan, ZZ., Xiong, YT., Wang, CY. et al. (2025). Utilizing GPT-4 to interpret oral mucosal disease photographs for structured report generation. Sci Rep 15, 5187 https://doi.org/10.1038/s41598-025-89328-y