当前位置：首页 > article >正文

An Attention Free Transformer论文参考文献

article 2025/1/31 7:43:12

在这里插入图片描述

参考文献列表

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems, pages 5998–6008.
中文翻译：[1] 瓦斯瓦尼, A., 沙泽尔, N., 帕尔马, N., 乌斯基奥雷特, J., 琼斯, L., 戈麦斯, A. N., 凯撒, Ł., & 波洛苏金, I. (2017). 注意力就是一切。在神经信息处理系统进展中，第5998-6008页。
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
中文翻译：[2] 德夫林, J., 张, M.-W., 李, K., & 图特诺娃, K. (2018). BERT：用于语言理解的深度双向变换器的预训练。arXiv预印本arXiv:1810.04805。
Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.
中文翻译：[3] 拉德福德, A., 纳拉西姆汉, K., 萨利曼斯, T., & 苏茨克弗, I. (2018). 通过生成预训练改进语言理解。
Chen, M., Radford, A., Child, R., Wu, J., & Jun, H. (2020). Generative pretraining from pixels.
中文翻译：[4] 陈, M., 拉德福德, A., 奇尔德, R., 吴, J., & 俊, H. (2020). 从像素生成预训练。
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929.
中文翻译：[5] 多索夫斯基, A., 贝耶尔, L., 科尔斯基科夫, A., 魏森伯恩, D., 翟, X., 安特辛纳, T., 德赫尼, M., 明德勒, M., 海戈尔德, G., 格利, S., 等. (2020). 一张图片值16x16个词：大规模图像识别的变换器。arXiv预印本arXiv:2010.11929。
Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., & Jégou, H. (2020). Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877.
中文翻译：[6] 图弗龙, H., 科德, M., 杜兹, M., 马萨, F., 萨布劳罗尔斯, A., & 茹, H. (2020). 训练数据高效的图像变换器及通过注意力的蒸馏。arXiv预印本arXiv:2012.12877。
Child, R., Gray, S., Radford, A., & Sutskever, I. (2019). Generating long sequences with sparse transformers. CoRR, abs/1904.10509.
中文翻译：[7] 奇尔德, R., 格雷, S., 拉德福德, A., & 苏茨克弗, I. (2019). 用稀疏变换器生成长序列。CoRR, abs/1904.10509。
Kitaev, N., Kaiser, L., & Levskaya, A. (2020). Reformer: The efficient transformer. ArXiv, abs/2001.04451.
中文翻译：[8] 基塔耶夫, N., 凯撒, L., & 列夫斯卡娅, A. (2020). 改革者：高效的变换器。ArXiv, abs/2001.04451。
Rae, J. W., Potapenko, A., Jayakumar, S. M., & Lillicrap, T. (2020). Compressive transformers for long-range sequence modelling. ArXiv, abs/1911.05507.
中文翻译：[9] 雷, J. W., 波塔彭科, A., 杰亚库马尔, S. M., & 利利克拉普, T. (2020). 压缩变换器用于长程序列建模。ArXiv, abs/1911.05507。
Wang, S., Li, B. Z., Khabsa, M., Fang, H., & Ma, H. (2020). Linformer: Self-attention with linear complexity. ArXiv, abs/2006.04768.
中文翻译：[10] 王, S., 李, B. Z., 哈布萨, M., 方, H., & 马, H. (2020). Linformer：具有线性复杂度的自注意力。ArXiv, abs/2006.04768。
Katharopoulos, A., Vyas, A., Pappas, N., & Fleuret, F. (2020). Transformers are rnns: Fast autoregressive transformers with linear attention. In Proceedings of the International Conference on Machine Learning (ICML).
中文翻译：[11] 卡萨罗普洛斯, A., 维亚斯, A., 帕帕斯, N., & 弗勒雷特, F. (2020). 变换器是递归神经网络：具有线性注意力的快速自回归变换器。在国际机器学习会议（ICML）的论文集。
Tay, Y., Bahri, D., Metzler, D., Juan, D.-C., Zhao, Z., & Zheng, C. (2020). Synthesizer: Rethinking self-attention in transformer models.
中文翻译：[12] 泰, Y., 巴赫里, D., 梅茨勒, D., 胡安, D.-C., 赵, Z., & 郑, C. (2020). 合成器：重新思考变换器模型中的自注意力。
Choromanski, K., Likhosherstov, V., Dohan, D., Song, X., Gane, A., Sarlos, T., Hawkins, P., Davis, J., Mohiuddin, A., Kaiser, L., Belanger, D., Colwell, L., & Weller, A. (2020). Rethinking attention with performers.
中文翻译：[13] 科罗曼斯基, K., 利霍舍尔托夫, V., 多汉, D., 宋, X., 盖恩, A., 萨洛斯, T., 霍金斯, P., 戴维斯, J., 莫希乌丁, A., 凯撒, L., 贝兰杰, D., 科尔韦尔, L., & 韦勒, A. (2020). 用表演者重新思考注意力。
Peng, H., Pappas, N., Yogatama, D., Schwartz, R., Smith, N., & Kong, L. (2021). Random feature attention. In International Conference on Learning Representations.
中文翻译：[14] 彭, H., 帕帕斯, N., 约加塔马, D., 施瓦茨, R., 史密斯, N., & 孔, L. (2021). 随机特征注意力。在国际学习表示会议。
Bello, I. (2021). Lambdanetworks: Modeling long-range interactions without attention. In International Conference on Learning Representations.
中文翻译：[15] 贝洛, I. (2021). Lambda网络：无注意力的长程相互作用建模。在国际学习表示会议。
Tay, Y., Dehghani, M., Bahri, D., & Metzler, D. (2020). Efficient transformers: A survey.
中文翻译：[16] 泰, Y., 德赫尼, M., 巴赫里, D., & 梅茨勒, D. (2020). 高效变换器：综述。
Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, Ł., Shazeer, N., Ku, A., & Tran, D. (2018). Image transformer. arXiv preprint arXiv:1802.05751.
中文翻译：[17] 帕尔马, N., 瓦斯瓦尼, A., 乌斯基奥雷特, J., 凯撒, Ł., 沙泽尔, N., 库, A., & 特兰, D. (2018). 图像变换器。arXiv预印本arXiv:1802.05751。
Wang, H., Zhu, Y., Green, B., Adam, H., Yuille, A., & Chen, L.-C. (2020). Axial-deeplab: Stand-alone axial-attention for panoptic segmentation. ArXiv, abs/2003.07853.
中文翻译：[18] 王, H., 祝, Y., 格林, B., 亚当, H., 尤尔, A., & 陈, L.-C. (2020). 轴向深度实验室：用于全景分割的独立轴向注意力。ArXiv, abs/2003.07853。
Huang, Z., Wang, X., Huang, L., Huang, C., Wei, Y., & Liu, W. (2019). Ccnet: Criss-cross attention for semantic segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 603–612.
中文翻译：[19] 黄, Z., 王, X., 黄, L., 黄, C., 韦, Y., & 刘, W. (2019). CCNet：用于语义分割的交叉注意力。2019 IEEE/CVF国际计算机视觉会议，第603-612页。
Zhu, Z., Xu, M., Bai, S., Huang, T., & Bai, X. (2019). Asymmetric non-local neural networks for semantic segmentation. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), pages 593–602.
中文翻译：[20] 祝, Z., 徐, M., 白, S., 黄, T., & 白, X. (2019). 非对称非局部神经网络用于语义分割。2019 IEEE/CVF国际计算机视觉会议，第593-602页。
Huang, L., Yuan, Y., Guo, J., Zhang, C., Chen, X., & Wang, J. (2019). Interlaced sparse self-attention for semantic segmentation. ArXiv, abs/1907.12273.
中文翻译：[21] 黄, L., 元, Y., 郭, J., 张, C., 陈, X., & 王, J. (2019). 交错稀疏自注意力用于语义分割。ArXiv, abs/1907.12273。
Ramachandran, P., Parmar, N., Vaswani, A., Bello, I., Levskaya, A., & Shlens, J. (2019). Stand-alone self-attention in vision models. ArXiv, abs/1906.05909.
中文翻译：[22] 拉马钱德兰, P., 帕尔马, N., 瓦斯瓦尼, A., 贝洛, I., 列夫斯卡娅, A., & 施伦斯, J. (2019). 视觉模型中的独立自注意力。ArXiv, abs/1906.05909。
Sukhbaatar, S., Grave, E., Bojanowski, P., & Joulin, A. (2019). Adaptive attention span in transformers. In ACL.
中文翻译：[23] 苏赫巴塔尔, S., 格拉夫, E., 博扬诺夫斯基, P., & 朱林, A. (2019). 变换器中的自适应注意力跨度。在ACL。
Roy, A., Saffar, M., Vaswani, A., & Grangier, D. (2020). Efficient content-based sparse attention with routing transformers. ArXiv, abs/2003.05997.
中文翻译：[24] 罗伊, A., 萨法尔, M., 瓦斯瓦尼, A., & 格朗杰, D. (2020). 用路由变换器实现高效基于内容的稀疏注意力。ArXiv, abs/2003.05997。
Wu, F., Fan, A., Baevski, A., Dauphin, Y., & Auli, M. (2019). Pay less attention with lightweight and dynamic convolutions. ArXiv, abs/1901.10430.
中文翻译：[25] 吴, F., 范, A., 贝夫斯基, A., 多芬, Y., & 奥利, M. (2019). 用轻量级和动态卷积减少注意力。ArXiv, abs/1901.10430。
Tay, Y., Bahri, D., Yang, L., Metzler, D., & Juan, D. (2020). Sparse sinkhorn attention. ArXiv, abs/2002.11296.
中文翻译：[26] 泰, Y., 巴赫里, D., 杨, L., 梅茨勒, D., & 胡安, D. (2020). 稀疏Sinkhorn注意力。ArXiv, abs/2002.11296。
Tolstikhin, I., Houlsby, N., Kolesnikov, A., Beyer, L., Zhai, X., Unterthiner, T., Yung, J., Steiner, A., Keysers, D., Uszkoreit, J., Lucic, M., & Dosovitskiy, A. (2021). Mlp-mixer: An all-mlp architecture for vision.
中文翻译：[27] 托尔斯蒂希宁, I., 霍尔斯比, N., 科尔斯基科夫, A., 贝耶尔, L., 翟, X., 安特辛纳, T., 于恩, J., 施泰纳, A., 凯瑟斯, D., 乌斯基奥雷特, J., 卢西克, M., & 多索夫斯基, A. (2021). MLP-Mixer：一种全MLP的视觉架构。
Liu, H., Dai, Z., So, D. R., & Le, Q. V. (2021). Pay attention to mlps.
中文翻译：[28] 刘, H., 戴, Z., 苏, D. R., & 莱, Q. V. (2021). 关注MLPs。
Ba, J. L., Kiros, J. R., & Hinton, G. E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450.
中文翻译：[29] 巴, J. L., 基罗斯, J. R., & 希顿, G. E. (2016). 层归一化。arXiv预印本arXiv:1607.06450。
Loshchilov, I., & Hutter, F. (2019). Decoupled weight decay regularization.
中文翻译：[30] 洛什奇洛夫, I., & 胡特, F. (2019). 解耦权重衰减正则化。
Mahoney, M. (2011). Large text compression benchmark.
中文翻译：[31] 马霍尼, M. (2011). 大文本压缩基准。
Dai, Z., Yang, Z., Yang, Y., Carbonell, J., Le, Q. V., & Salakhutdinov, R. (2019). Transformer-xl: Attentive language models beyond a fixed-length context. ArXiv, abs/1901.02860.
中文翻译：[32] 戴, Z., 杨, Z., 杨, Y., 卡本内尔, J., 莱, Q. V., & 萨拉胡特迪诺夫, R. (2019). Transformer-XL：超越固定长度上下文的注意力语言模型。ArXiv, abs/1901.02860。
He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep residual learning for image recognition.
中文翻译：[33] 何, K., 张, X., 任, S., & 孙, J. (2015). 用于图像识别的深度残差学习。
Jang, E., Gu, S., & Poole, B. (2017). Categorical reparameterization with gumbel-softmax.
中文翻译：[34] 詹, E., 古, S., & 波尔, B. (2017). 用Gumbel-Softmax进行分类重参数化。