论文标题
多模式的故事产生复数图像
Multimodal Story Generation on Plural Images
论文作者
论文摘要
传统上,文本生成模型以一系列文本为输入,并使用预训练的参数迭代生成下一个最可能的单词。在这项工作中,我们建议架构使用图像而不是文本作为文本生成模型的输入,称为StoryGen。在体系结构中,我们设计了一个关系文本数据生成器算法,该算法将不同的功能与多个图像相关联。来自模型的输出样本展示了生成有意义的文本段落的能力,该文本包含来自输入图像中提取的特征的能力。这是一份本科项目报告。 2019年12月在库珀联盟完成。
Traditionally, text generation models take in a sequence of text as input, and iteratively generate the next most probable word using pre-trained parameters. In this work, we propose the architecture to use images instead of text as the input of the text generation model, called StoryGen. In the architecture, we design a Relational Text Data Generator algorithm that relates different features from multiple images. The output samples from the model demonstrate the ability to generate meaningful paragraphs of text containing the extracted features from the input images. This is an undergraduate project report. Completed Dec. 2019 at the Cooper Union.