Welcome to SPRAT

Journal Papers

[2026] Ruoyu Wang, Jun Du, Shutong Niu, Gaobin Yang, Tian Gao, Jia Pan, Qingfeng Liu, "Three-Stage Modular Speaker Diarization Collaborating with Front-End Techniques in the CHiME-8 NOTSOFAR-1 Challenge." [PDF], Computer Speech & Language, 2026.

[2026] Shuhang Liu, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Qing Wang, Jianshu Zhang, Chenyu Liu, "See Then Tell: Enhancing Key Information Extraction with Vision Grounding." [PDF], Neurocomputing, 2026.

[2025] Zilu Guo, Jun Du, Sabato Marco Siniscalchi, Jia Pan, Qingfeng Liu, "Controllable Conformer for Speech Enhancement and Recognition." [PDF], IEEE Signal Processing Letters, 2025.

[2025] Yunfei Ling, Zijie Liu, Jun Du, Yao Huang, Yuehang Wang, Bingjia Xiao, Xin Fang, "PaMMA-Net: Plasmas Magnetic Measurement Evolution Based on Data-Driven Incremental Accumulative Prediction." [PDF], Nuclear Fusion, 2025.

[2025] Hanbo Cheng, Chenyu Liu, Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Jun Du, "Bidirectional Trained Tree-Structured Decoder for Handwritten Mathematical Expression Recognition." [PDF], Pattern Recognition, 2025.

[2025] Nimol Thuon, Jun Du, Panhapin Theang, Ranysakol Thuon, "Multi-Low Resource Languages in Palm Leaf Manuscript Recognition: Syllable-Based Augmentation and Error Analysis." [PDF], Pattern Recognition Letters, 2025.

[2025] Shutong Niu, Jun Du, Ruoyu Wang, Gaobin Yang, Tian Gao, Jia Pan, Yu Hu, "DCF-DS: Deep Cascade Fusion of Diarization and Separation for Speech Recognition Under Realistic Single-Channel Conditions." [PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2025.

[2025] Yi Han, Hang Chen, Lijuan Liu, Jun Du, "Dual-Branch Codec With Orthogonality Constraint and Knowledge Distillation for Noisy Environment." [PDF], IEEE Signal Processing Letters, 2025.

[2025] Kewei Li, Hang Chen, Jun Du, Hengshun Zhou, Sabato Marco Siniscalchi, Shutong Niu, Shifu Xiong, "Lightweight Audio-Visual Wake Word Spotting With Diverse Acoustic Knowledge Distillation." [PDF], IEEE Transactions on Circuits and Systems for Video Technology, 2025.

[2025] Nimol Thuon, Jun Du, Panhapin Theang, Ratana Thuon, "A Low-Intervention Dual-Loop Iterative Process for Efficient Dataset Expansion and Classification in Palm Leaf Manuscript Analysis." [PDF], International Journal on Document Analysis and Recognition, 2025.

[2025] Pengfei Hu, Jiefeng Ma, Zhenrong Zhang, Jun Du, Jianshu Zhang, "Count, Decompose and Correct: A New Approach to Handwritten Chinese Character Error Correction." [PDF], Pattern Recognition, 2025.

[2025] Hang Chen, Chenxi Wang, Qing Wang, Jun Du, Sabato Marco Siniscalchi, Genshun Wan, Jia Pan, Huijun Ding, "Cross-attention among spectrum, waveform and SSL representations with bidirectional knowledge distillation for speech enhancement." [PDF], Information Fusion, 2025.

[2025] Hang Chen, Chen-Yue Zhang, Qing Wang, Jun Du, Sabato Marco Siniscalchi, Shi-Fu Xiong, Gen-Shun Wan, "HPCNet: Hybrid Pixel and Contour Network for Audio-Visual Speech Enhancement With Low-Quality Video." [PDF], IEEE Journal of Selected Topics in Signal Processing, 2025.

[2025] Qing Wang, Yajian Wang, Hang Chen, Shuxian Wang, Jun Du, Chin-Hui Lee, "Video Segmentation and Tokenization for Model-Based Video Scene Classification." [PDF], IEEE Transactions on Multimedia, 2025.

[2024] Hang Chen, Qing Wang, Jun Du, Bao-Cai Yin, Jia Pan, Chin-Hui Lee, "Optimizing Audio-Visual Speech Enhancement Using Multi-Level Distortion Measures for Audio-Visual Speech Recognition." [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing, 2024.

[2024] Hang Chen, Qing Wang, Jun Du, Gen-Shun Wan, Shi-Fu Xiong, Bao-Ci Yin, Jia Pan, Chin-Hui Lee, "Collaborative Viseme Subword and End-to-end Modeling for Word-level Lip Reading." [PDF], IEEE Transactions on Multimedia, 2024.

[2024] Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Jianshu Zhang, Baocai Yin, Bing Yin, Cong Liu, "SEMv2: Table separation line detection based on instance segmentation." [PDF], Pattern Recognition, 2024.

[2023] Mao-Kui He, Jun Du, Qing-Feng Liu, Chin-Hui Lee, "ANSD-MA-MSE: Adaptive Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding." [PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023.

[2023] Shu-Tong Niu, Jun Du, Lei Sun, Yu Hu, Chin-Hui Lee, "QDM-SSD: Quality-aware Dynamic Masking for Separation-based Speaker Diarization." [PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2023.

[2023] Mobai Xue, Jun Du, Bin Wang, Bo Ren, Yu Hu, "Joint optimization for attention-based generation and recognition of Chinese characters using tree position embedding." [PDF], Pattern Recognition, 2023.

[2023] Shi Cheng, Jun Du, Shutong Niu, Alejandrina Cristia, Xin Wang, Qing Wang, Chin-Hui Lee, "Using iterative adaptation and dynamic mask for child speech extraction under real-world multilingual conditions." [PDF], Speech Communication, 2023.

[2022] Zirui Wang, Jun Du, "Fast writer adaptation with style extractor network for handwritten text recognition." [PDF], Neural Networks, 2022.

[2022] Chen Yang, Jun Du, Jianshu Zhang, Changjie Wu, Mingjun Chen, JiaJia Wu, "Tree-based data augmentation and mutual learning for offline handwritten mathematical expression recognition." [PDF], Pattern Recognition, 2022.

[2022] Zhenrong Zhang, Jianshu Zhang, Jun Du, Fengren Wang, "Split, embed and merge: An accurate table structure recognizer." [PDF], Pattern Recognition, 2022.

[2022] Yunqing Li, Jun Du, Jianshu Zhang, Changjie Wu, "A tree-structure analysis network on handwritten Chinese character error correction." [PDF], IEEE Transactions on Multimedia, 2022.

[2022] Zhenrong Zhang, Jiefeng Ma, Jun Du, Licheng Wang, Jianshu Zhang, "Multimodal pre-training based on graph attention network for document understanding." [PDF], IEEE Transactions on Multimedia, 2022.

[2021] Jiajia Wu, Jun Du, Fengren Wang, Chen Yang, Xinzhe Jiang, Jinshui Hu, Bing Yin, Jianshu Zhang, Lirong Dai, "A multimodal attention fusion network with a dynamic vocabulary for TextVQA." [PDF], Pattern Recognition, 2022.

[2021] Hang Chen, Jun Du, Yu Hu, Li-Rong Dai, Bao-Cai Yin, Chin-Hui Lee, "Correlating subword articulation with lip shapes for embedding aware audio-visual speech enhancement." [PDF], Neural Networks, 2021.

[2021] Hengshun Zhou, Jun Du, Yuanyuan Zhang, Qing Wang, Qing-feng Liu, Chin-Hui Lee, "Information Fusion in Attention Networks Using Adaptive and Multi-level Factorized Bilinear Pooling for Audio-visual Emotion Recognition." [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing, 2021.

[2021] Jie Zhang, Jun Du, Li-Rong Dai, "Sensor Selection for Relative Acoustic Transfer Function Steered Linearly-Constrained Beamformers." [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing, 2021.

[2021] Jiaming Wang, Jun Du, Jianshu Zhang, Bin Wang, Bo Ren. “Stroke constrained attention network for online handwritten mathematical expression recognition,” [PDF], Pattern Recognition, 2021.

[2020] Li Chai, Jun Du, Qing-Feng Liu, Chin-Hui Lee, “A Cross-Entropy-Guided Measure (CEGM) for Assessing Speech Recognition Performance and Optimizing DNN-Based Speech Enhancement,” [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing, 2020.

[2020] Jun Qi, Jun Du, Sabato Marco Siniscalchi, Xiaoli Ma, Chin-Hui Lee, “Analyzing upper bounds on mean absolute errors for deep neural network based vector-to-vector regression,” [PDF], IEEE Transactions on Signal Processing, 2020.

[2020] Yanhui Tu, Jun Du , Tian Gao, Chin-Hui Lee, “A multi-target SNR-progressive learning approach to regression based speech enhancement,” [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing, 2020.

[2020] Jianshu Zhang, Jun Du , Yongxin Yang, Yi-Zhe Song, Lirong Dai, “SRD: A tree structure based decoder for online handwritten mathematical expression recognition,” [PDF], IEEE Transactions on Multimedia, 2020.

[2020] Zi-Rui Wang, Jun Du , “Joint architecture and knowledge distillation in CNN for Chinese text recognition,” [PDF], Pattern Recognition, 2020.

[2020] Yixing Zhu, Jun Du , “TextMountain: accurate scene text detection via instance segmentation,” [PDF], Pattern Recognition, 2020.

[2020] Yixing Zhu, Jun Du , Xuqing Wu, “Adaptive period embedding for representing oriented objects in aerial images,” [PDF], IEEE Transactions on Geoscience and Remote Sensing, 2020.

[2020] Jia Pan, Genshun Wan, Jun Du , Zhongfu Ye, “Online speaker adaptation using memory-aware networks for speech recognition,” [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing, 2020.

[2020] Zi-Rui Wang, Jun Du*, Jiaming Wang, “Writer-aware CNN for parsimonious HMM-based offline handwritten Chinese text recognition,” [PDF], Pattern Recognition, (100) 2020.

[2020] Jun Qi, Jun Du, Sabato Marco Siniscalchi, Xiaoli Ma, Chin-Hui Lee, “On mean absolute error for deep neural network based vector-to-vector regression,” [PDF], IEEE Signal Processing Letters, 2020.

[2020] Jianshu Zhang, Jun Du , Lirong Dai, “Radical analysis network for learning hierarchies of Chinese characters,” [PDF], Pattern Recognition, 2020.

[2019] Tu Y H, Du J, Lee C H. "Speech Enhancement Based on Teacher–Student Deep Learning Using Improved Speech Presence Probability for Noise-Robust Speech Recognition." [PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(12): 2080-2091.

[2019] J. Qi, J. Du, S. M. Siniscalchi and C. Lee, "A Theory on Deep Neural Network Based Vector-to-Vector Regression With an Illustration of Its Expressive Power in Speech Enhancement," [PDF], in IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 27, no. 12, pp. 1932-1943, Dec. 2019.

[2019] Yixing Zhu, Chixiang Ma, Jun Du*, “Rotated cascade R-CNN: A shape robust detector with coordinate regression” [PDF], Pattern Recognition, 2019: 106964.

[2019] Li Chai, Jun Du*, Qing-feng Liu, Chin-Hui Lee, “Using Generalized Gaussian Distributions to Improve Regression Error Modeling for Deep Learning-Based Speech Enhancement”, [PDF], accepted in IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP).

[2019] Lei Sun, Jun Du*, Tian Gao, Yi Fang, Feng Ma, Chin-Hui Lee, “A Speaker-Dependent Approach to Separation of Far-Field Multi-Talker Microphone Array Speech for Front-End Processing in the CHiME-5 Challenge” [PDF], IEEE Journal of Selected Topics in Signal Processing, 2019, 13(4): 827-840.

[2019] Yan-Hui Tu, Jun Du*, Lei Sun, Feng Ma, Hai-Kun Wang, Jing-Dong Chen, Chin-Hui Lee, “An iterative mask estimation approach to deep learning based multi-channel speech recognition” [PDF], Speech Communication 106, 31-43.

[2018] Jianqing Gao, Jun Du*, Enhong Chen, “Mixed-Bandwidth Cross-Channel Speech Recognition via Joint Optimization of DNN-Based Bandwidth Expansion and Acoustic Modeling” [PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing 27 (3), 559-571.

[2018] Qing Wang, Jun Du^*, Li-Rong Dai, Chin-Hui Lee, “A Multiobjective Learning and Ensembling Approach to High-Performance Speech Enhancement With Compact Neural Network Architectures,” [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), 26(7), 1181-1193.

[2018] Zi-Rui Wang, Jun Du^*, Wen-Chao Wang, Jian-Fang Zhai and Jin-Shui Hu, "A comprehensive study of hybrid neural network hidden Markov model for offline handwritten Chinese text recognition" [PDF], International Journal on Document Analysis and Recognition (IJDAR), 1-11.

[2018] Jianshu Zhang, Jun Du^*, and Lirong Dai, “Track, Attend and Parse (TAP): An End-to-end Framework for Online Handwritten Mathematical Expression Recognition,” [PDF], IEEE Transactions on Multimedia, 2018, in press.

[2017] Jianshu Zhang, Jun Du^*, Shiliang Zhang, Dan Liu, Yulong Hu, Jinshui Hu, Si Wei, Lirong Dai, “Watch, attend and parse: An end-to-end neural network based approach to handwritten mathematical expression recognition,” [PDF], Pattern Recognition 71 (2017): 196-206.

[2017] Yan-Hui Tu, Jun Du^*, Qing Wang, Xiao Bao, Li-Rong Dai, Chin-Hui Lee，"An information fusion framework with multi-channel feature concatenation and multi-perspective system combination for the deep-learning-based robust recognition of microphone array speech."[PDF], Computer Speech and Language 46 (2017): 517-534.

[2017] Yannan Wang, Jun Du^*, Li-Rong Dai, Chin-Hui Lee，"A gender mixture detection approach to unsupervised single-channel speech separation based on deep neural networks."[PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing 25.7 (2017): 1535-1546.

[2017] Jun Du^*, Yong Xu，"Hierarchical deep neural network for multivariate regression."[PDF], Pattern Recognition 63 (2017): 149-157.

[2017] Lei Sun, Jun Du^*, Zhipeng Xie, Yong Xu, "Auxiliary Features from Laser-Doppler Vibrometer Sensor for Deep Neural Network Based Robust Speech Recognition."[PDF], Journal of Signal Processing Systems (2017): 1-9.

[2017] Yan-Hui Tu, Jun Du^*, Chin-Hui Lee, "A Speaker-Dependent Approach to Single-Channel Joint Speech Separation and Acoustic Modeling Based on Deep Neural Networks for Robust Recognition of Multi-Talker Speech."[PDF], Journal of Signal Processing Systems (2017): 1-11.

[2017] Jun Du, Jian-Fang Zhai and Jin-Shui Hu, "Writer adaptation via deeply learned features for online Chinese handwriting recognition."[PDF], International Journal on Document Analysis and Recognition (IJDAR) 20.1 (2017): 69-78.

[2017] Gao T, Du J, Dai L R, et al. "A unified DNN approach to speaker-dependent simultaneous speech enhancement and speech separation in low SNR environments."[PDF], Speech Communication, 2017, 95: 28-39.

[2016] Tian Gao, Jun Du^*, Yong Xu, Cong Liu, Li-Rong Dai, Chin-Hui Lee, "Joint training of DNNs by incorporating an explicit dereverberation structure for distant speech recognition."[PDF], EURASIP Journal on Advances in Signal Processing 2016.1 (2016): 86.

[2016] Jun Du^*, Yanhui Tu, Li-Rong Dai, Chin-Hui Lee, "A regression approach to single-channel speech separation via high-resolution deep neural networks."[PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing 24.8 (2016): 1424-1437.

[2015] Yong Xu, Jun Du^*, Li-Rong Dai, and Chin-Hui Lee, “A regression approach to speech enhancement based on deep neural networks,” [PDF], IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 23, No. 1, pp.7-19, 2015. (2018 IEEE Signal Processing Society Best Paper Award)

[2014] Yong Xu, Jun Du^*, Li-Rong Dai, and Chin-Hui Lee, “An experimental study on speech enhancement based on deep neural networks,” [PDF], Signal Processing Letters, Vol. 21, No. 1, pp.65-68, 2014.

[2014] Jun Du^* and Qiang Huo, “An irrelevant variability normalization approach to discriminative training of multi-prototype based classifiers and its applications for online handwritten Chinese character recognition,”[PDF], Pattern Recognition, Vol. 47, No. 12, pp.3959-3966, 2014.

[2014] Jun Du^* and Qiang Huo, "An improved VTS feature compensation using Mixture Models of distortion and IVN training for noisy speech recognition."[PDF], IEEE/ACM Transactions on Audio, Speech, and Language Processing 22.11 (2014): 1601-1611.

[2013] Jun Du^* and Qiang Huo, “A discriminative linear regression approach to adaptation of multi-prototype based classifiers and its applications for Chinese OCR,”[PDF], Pattern Recognition, Vol. 46, No. 8, pp.2313-2322, 2013.

[2011] Jun Du^* and Qiang Huo, "A feature compensation approach using high-order vector Taylor series approximation of an explicit distortion model for noisy speech recognition."[PDF], IEEE Transactions on Audio, Speech, and Language Processing 19.8 (2011): 2285-2293.

[2011] Jun Du^*, Yu Hu, Hui Jiang, "Boosted mixture learning of Gaussian mixture Hidden Markov models based on maximum likelihood for speech recognition."[PDF], IEEE Transactions on Audio, Speech, and Language Processing 19.7 (2011): 2091-2100.

[2011] Zhao Yang, Jun Du, Yu Hu, Qing-feng Liu, Li-Rong Dai, "Application of VTS Approximation Based Feature Compensation Approach to Speech Recognition [J]."[PDF], Journal of Chinese Computer Systems 4 (2011): 041.]

[2007] Jun Du, Peng Liu, Frank Soong, Jian-Lai Zhou, and Ren-Hua Wang, “Performance of discriminative HMM training in noise,”[PDF], International Journal of the Association for Computational Linguistics and Chinese Language Processing (IJCLCLP), Vol. 12, No. 3, pp.291-302, 2007.

[2006] Bo Liu, Li-Rong Dai, Ren-Hua Wang, Jun Du, and Jin-Yu Li, “Double Gaussian GMM based feature normalization and its application in speech recognition,”[PDF], Acta Automatica Sinica, Vol. 32, No. 4 , pp.519-525, 2006.

[2006] Jun Du, Peng Liu, Frank Soong, Jian-Lai Zhou, Ren-Hua Wang, "Noisy speech recognition performance of discriminative HMMs."[PDF], Chinese Spoken Language Processing. Springer, Berlin, Heidelberg, 2006. 358-369.

[2005] Jun Du, Yu Hu, and Ren-Hua Wang, “An optimized algorithm of feature normalization in robust speech recognition,”[PDF], Technical Acoustics, Vol. 24, pp. 196-200, 2005.

Conference Papers

[2026] Haotian Wang, Yuzhe Weng, Jun Du, Haoran Xu, Xiaoyan Wu, Shan He, Bing Yin, Cong Liu, Jianqing Gao, Qingfeng Liu, "READ: Real-Time and Efficient Asynchronous Diffusion for Audio-Driven Talking Head Generation." [PDF], Accepted by AAAI 2026.

[2026] Chunxia Qin, Chenyu Liu, Pengcheng Xia, Jun Du, Baocai Yin, Bing Yin, Cong Liu, "TDATR: Improving End-to-End Table Recognition via Table Detail-Aware Learning and Cell-Level Visual Alignment." [PDF], Accepted by CVPR 2026.

[2025] Shifu Xiong, Hengshun Zhou, Kai Shen, Shi Cheng, Hang Chen, Genshun Wan, Kewei Li, Jun Du, Lirong Dai, "Language Adaptation Wake Word Spotting via Latent Space from Pre-Trained Speech Models." [PDF], Accepted by APSIPA ASC 2025.

[2025] Jiajian Chen, Jiakang Chen, Hang Chen, Qing Wang, Yu Gao, Jun Du, "MEAN-RIR: Multi-Modal Environment-Aware Network for Robust Room Impulse Response Estimation." [PDF], Accepted by ASRU 2025.

[2025] Guirui Zhong, Qing Wang, Jun Du, Lei Wang, Mingqi Cai, Xin Fang, "An Enhanced Audio Feature Tailored for Anomalous Sound Detection Based on Pre-trained Models." [PDF], Accepted by ICANN 2025.

[2026] Fei Wu, Zhenrong Zhang, Qikai Chang, Jianshu Zhang, Quan Liu, Jun Du, "Step Potential Advantage Estimation: Harnessing Intermediate Confidence and Correctness for Efficient Mathematical Reasoning." [PDF], Accepted by ACL 2026 Findings. <\li>

[2026] An Yang, Chenyu Liu, Jun Du, Jianqing Gao, Jia Pan, Jinshui Hu, Baocai Yin, Bing Yin, Cong Liu, "Binary-Gaussian: Compact and Progressive Representation for 3D Gaussian Segmentation." [PDF], Accepted by AAAI 2026.

[2026] Qikai Chang, Zhenrong Zhang, Pengfei Hu, Jun Du, Jiefeng Ma, Yicheng Pan, Jianshu Zhang, Quan Liu, Jianqing Gao, "THOR: Tool-integrated hierarchical optimization via rl for mathematical reasoning." [PDF], Accepted by ICLR 2026.<\li>

[2025] Chang Li, Ruoyu Wang, Lijuan Liu, Jun Du, Yixuan Sun, Zilu Guo, Zhenrong Zhang, Yuan Jiang, Jianqing Gao, Feng Ma, "QA-MDT: Quality-Aware Masked Diffusion Transformer for Enhanced Music Generation." [PDF], Accepted by IJCAI 2025.

[2025] Yusheng Dai, Chenxi Wang, Chang Li, Chen Wang, Jun Du, Kewei Li, Ruoyu Wang, Jiefeng Ma, Lei Sun, Jianqing Gao, "Latent Swap Joint Diffusion for Long-Form Audio Generation." [PDF], Accepted by ICCV 2025.

[2025] Chenxi Wang, Yusheng Dai, Lei Sun, Jun Du, Jianqing Gao, "AudioAtlas: A Comprehensive and Balanced Benchmark Towards Movie-Oriented Text-to-Audio Generation." [PDF], Accepted by ACM MM 2025.

[2025] Yicheng Pan, Zhenrong Zhang, Pengfei Hu, Jiefeng Ma, Jun Du, Jianshu Zhang, Quan Liu, Jianqing Gao, Feng Ma, "Enhancing the Geometric Problem-Solving Ability of Multimodal LLMs via Symbolic-Neural Integration." [PDF], Accepted by ACM MM 2025.

[2025] Nimol Thuon, Jun Du, "KH-FUNSD: A Hierarchical and Fine-Grained Layout Analysis Dataset for Low-Resource Khmer Business Document." [PDF], Accepted by APSIPA ASC 2025.

[2025] Xiaoran Li, Zilu Guo, Jun Du, "Multi-Stage Speech Enhancement with Cascaded SNR Domain Shifts." [PDF], Accepted by APSIPA ASC 2025.

[2025] Zhongyuan Han, Jun Du, Pengfei Hu, Mobai Xue, "Adaptive Radical Similarity Learning for Chinese Character Recognition." [PDF], Accepted by ICDAR 2025.

[2025] Mobai Xue, Jun Du, Pengfei Hu, "SPS-CG: Shape, Pronunciation, and Semantic Joint Modeling for Chinese Character Generation." [PDF], Accepted by ICDAR 2025.

[2025] Nimol Thuon, Jun Du, Panhapin Theang, Ratana Thuon, "PALM-LAY: A Multi-Script Cross-Regional Dataset for Layout Analysis of Palm Leaf Manuscripts." [PDF], Accepted by ICDAR Workshop 2025.

[2025] Hang Chen, Jun Du, Qing Wang, Juan Xie, Shi-Fu Xiong, "A Study of Real-World Audio-Visual Corpus Design and Production: A Perspective from MISP Challenges." [PDF], Accepted by Interspeech 2025.

[2025] HangChen HangChen, Chao-Han Huck Yang, Jia-Chen Gu, Sabato Marco Siniscalchi, Jun Du, "MISP-Meeting: A Real-World Dataset with Multimodal Cues for Long-Form Meeting Transcription and Summarization." [PDF], Accepted by ACL 2025.

[2025] Ziyu Zhao, Zilu Guo, Jun Du, Feng Ma, Jia Pan, "An Investigation on Audio-Prompt and Structure Guided Long-Duration Music Generation Based on Diffusion Models." [PDF], Accepted by ICME 2025.

[2025] Qing Wang, Jun Du, Hengyi Hong, Maocheng Hu, Mingqi Cai, Xin Fang, "Incorporating Audio-Guided Visual Attention into Sound Event Localization and Detection with Source Distance Estimation." [PDF], Accepted by ICME 2025.

[2025] Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Shuhang Liu, Jun Du, Jianshu Zhang, "DocMamba: Efficient Document Pre-Training with State Space Model." [PDF], Accepted by AAAI 2025.

[2025] Kewei Li, Hengshun Zhou, Kai Shen, Yusheng Dai, Jun Du, "Phoneme-Level Contrastive Learning for User-Defined Keyword Spotting with Flexible Enrollment." [PDF], Accepted by ICASSP 2025.

[2025] Hang Chen, Chang Wang, Jun Du, Chao-Han Huck Yang, Jun Qi, "Projection Valued-Based Quantum Machine Learning Adapting to Differential Privacy Algorithm for Word-Level Lipreading." [PDF], Accepted by ICASSP 2025.

[2025] Chenyu Liu, Jinshui Hu, Baocai Yin, Jia Pan, Bing Yin, Jun Du, Qingfeng Liu, "Col-OLHTR: A Novel Framework for Multimodal Online Handwritten Text Recognition." [PDF], Accepted by ICASSP 2025.

[2025] Ruoyu Wang, Shutong Niu, Gaobin Yang, Jun Du, Shuangqing Qian, Tian Gao, Jia Pan, "Incorporating Spatial Cues in Modular Speaker Diarization for Multi-Channel Multi-Party Meetings." [PDF], Accepted by ICASSP 2025.

[2025] Qikai Chang, Mingjun Chen, Changpeng Pi, Pengfei Hu, Zhenrong Zhang, Jiefeng Ma, Jun Du, Baocai Yin, Jinshui Hu, "RFL: Simplifying Chemical Structure Recognition with Ring-Free Language." [PDF], Accepted by AAAI 2025.

[2025] Junhui Zhao, Hang Chen, Qing Wang, Jun Du, Yanhui Tu, Feng Ma, "TA-RIR: Topology-Aware Neural Modeling of Acoustic Propagation for Room Impulse Response Synthesis." [PDF], Accepted by Interspeech, 2025.

[2025] Yuzhe Weng, Haotian Wang, Tian Gao, Kewei Li, Shutong Niu, Jun Du, "Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention." [PDF], Accepted by ICASSP 2025.

[2025] Haotian Wang, Yuzhe Weng, Yueyan Li, Zilu Guo, Jun Du, Shutong Niu, Jiefeng Ma, Shan He, Xiaoyan Wu, Qiming Hu, Bing Yin, Cong Liu, Qingfeng Liu, "EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion." [PDF], Accepted by CVPR 2025.

[2025] Ya Jiang, Hongbo Lan, Qing Wang, Shutong Niu, "Multi-modal streaming ASR in cross-talk scenario for smart glasses." [PDF], Accepted by ICASSP 2025.

[2025] Ming Gao, Shilong Wu, Hang Chen, Jun Du, Chin-Hui Lee, Shinji Watanabe, Jingdong Chen, Sabato Marco Siniscalchi, Odette Scharenborg, "The Multimodal Information Based Speech Processing (MISP) 2025 Challenge: Audio-Visual Diarization and Recognition." [PDF], Accepted by Interspeech 2025.

[2024] Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, Chin-Hui Lee, "Enhancing VoiceWake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design." [PDF], Accepted by Interspeech 2024.

[2024] Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Ming Li, Chin-Hui Lee, "SUMMARY OF LOW-RESOURCE DYSARTHRIA WAKE-UP WORD SPOTTING CHALLENGE." [PDF], Accepted by 2024 IEEE Spoken Language Technology Workshop (SLT).

[2024] Yusheng Dai, Hang Chen, Jun Du, Chin-Hui Lee, et al., "A Study of Dropout-Induced Modality Bias on Robustness to Missing Video Frames for Audio-Visual Speech Recognition." [PDF], Accepted by CVPR 2024.

[2024] Ya Jiang, Qing Wang, Jun Du, Maocheng Hu, Pengfei Hu, Zeyan Liu, Shi Cheng, Zhaoxu Nian, Yuxuan Dong, Mingqi Cai, Xin Fang, Chin-Hui Lee, "Exploring Audio-Visual Information Fusion for Sound Event Localization and Detection In Low-Resource Realistic Scenarios." [PDF], Accepted by ICME 2024.

[2024] Yicheng Pan, Zhenrong Zhang, Jiefeng Ma, Pengfei Hu, Jun Du, Qing Wang, Jianshu Zhang, Dan Liu, Si Wei, "MATHS: Multimodal Transformer-Based Human-Readable Solver." [PDF], Accepted by ICME 2024.

[2024] Haotian Wang, Jun Du, Yusheng Dai, Chin-Hui Lee, Yuling Ren, Yu Liu, "Improving Multi-Modal Emotion Recognition Using Entropy-Based Fusion and Pruning-Based Network Architecture Optimization." [PDF], Accepted by ICASSP 2024.

[2024] Feng Ma, Yanhui Tu, Maokui He, Ruoyu Wang, Shutong Niu, Lei Sun, Zhongfu Ye, Jun Du, Jia Pan, Chin-Hui Lee, "A Spatial Long-Term Iterative Mask Estimation Approach for Multi-Channel Speaker Diarization and Speech Recognition." [PDF], Accepted by ICASSP 2024.

[2024] Minghui Wu, Haitao Tang, Jiahuan Fan, Ruoyu Wang, Hang Chen, Yanyong Zhang, Jun Du, Hengshun Zhou, Lei Sun, Xin Fang, et al., "Implicit Enhancement of Target Speaker in Speaker-Adaptive ASR through Efficient Joint Optimization." [PDF], Accepted by ICASSP 2024.

[2024] Shilong Wu, Chenxi Wang, Hang Chen, Yusheng Dai, Chenyue Zhang, Ruoyu Wang, Hongbo Lan, Jun Du, Chin-Hui Lee, Jingdong Chen, Sabato Marco Siniscalchi, Odette Scharenborg, Zhong-Qiu Wang, Jia Pan, Jianqing Gao, "The Multimodal Information Based Speech Processing (MISP) 2023 Challenge: Audio-Visual Target Speaker Extraction." [PDF], Accepted by ICASSP 2024.

[2024] Hongbo Lan, Tianyou Cheng, Maokui He, Hang Chen, Jun Du, "THE USTC SYSTEM FOR CADENZA 2024 CHALLENGE." [PDF], Accepted by ICASSP 2024.

[2024] Hanbo Cheng, Jun Du, Pengfei Hu, Jiefeng Ma, Zhenrong Zhang, Mobai Xue, "Viewing Writing as Video: Optical Flow based Multi-Modal Handwritten Mathematical Expression Recognition." [PDF], Accepted by ICASSP 2024.

[2024] Gaobin Yang, Maokui He, Shutong Niu, Ruoyu Wang, Yanyan Yue, Shuangqing Qian, Shilong Wu, Jun Du, Chin-Hui Lee, "Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding with Sequence-to-Sequence Architecture." [PDF], Accepted by ICASSP 2024.

[2023] Chang Wang, Jun Du, Hang Chen, Ruoyu Wang, Chao-Han Huck Yang, Jiangjiang Zhao, Yuling Ren, Qinglong Li, Chin-Hui Lee, "Enhancing Privacy Preservation with Quantum Computing for Word-Level Audio-Visual Speech Recognition." [PDF], Accepted by APSIPA ASC 2023.

[2023] Shi Cheng, Jun Du, Qing Wang, Ya Jiang, Zhaoxu Nian, Shutong Niu, Chin-Hui Lee, Yu Gao, Wenbin Zhang, "Improving Sound Event Localization and Detection with Class-Dependent Sound Separation for Real-World Scenarios." [PDF], Accepted by APSIPA ASC 2023.

[2023] Yan Wang, Jun Du, Jiefeng Ma, Pengfei Hu, Zhenrong Zhang, Jianshu Zhang, "USTC-iFLYTEK at DocILE: a multi-modal approach using domain-specific GraphDoc." [PDF], Accepted by CLEF 2023.

[2023] Jiefeng Ma, Jun Du, Pengfei Hu, Zhenrong Zhang, Jianshu Zhang, Huihui Zhu, Cong Liu, "HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of Document Structures." [PDF], Accepted by AAAI 2023.

[2023] Xinzhe Jiang, Jun Du, Pengfei Hu, Mobai Xue, Jiefeng Ma, Jiajia Wu, Jianshu Zhang, "Group, Contrast and Recognize: A Self-supervised Method for Chinese Character Recognition." [PDF], Accepted by ICDAR 2023.

[2023] Jinshui Hu, Chenyu Liu, Qiandong Yan, Xuyang Zhu, Jiajia Wu, Jun Du, Lirong Dai, "Vision-language adaptive mutual decoder for OOV-STR." [PDF], Accepted by ICIG 2023.

[2023] Jinshui Hu, Hao Wu, Mingjun Chen, Chenyu Liu, Jiajia Wu, Shi Yin, Baocai Yin, Bing Yin, Cong Liu, Jun Du, Lirong Dai, "Handwritten Chemical Structure Image to Structure-Specific Markup Using Random Conditional Guided Decoder." [PDF], Accepted by ACM-MM 2023.

[2023] Junyi Xie, Jiefeng Ma, Xinnan Zhang, Jianshu Zhang, Jun Du, "Enhancing Math Word Problem Solving Through Salient Clue Prioritization: A Joint Token-Phrase-Level Feature Integration Approach." [PDF], Accepted by IALP 2023.

[2023] Ya Jiang, Hang Chen, Jun Du, Qing Wang, Chin-Hui Lee, "Incorporating Lip Features into Audio-Visual Multi-Speaker DOA Estimation by Gated Fusion." [PDF], Accepted by ICASSP 2023.

[2023] Zhe Wang, Shilong Wu, Hang Chen, Mao-Kui He, Jun Du, Chin-Hui Lee, Jingdong Chen, Shinji Watanabe, Sabato Siniscalchi, et al., "The multimodal information based speech processing (misp) 2022 challenge: Audio-visual diarization and recognition." [PDF], Accepted by ICASSP 2023.

[2023] Ruoyu Wang, Jun Du, Tian Gao, "Quantum transfer learning using the large-scale unsupervised pre-trained model wavlm-large for synthetic speech detection." [PDF], Accepted by ICASSP 2023.

[2023] Shutong Niu, Jun Du, Qing Wang, Li Chai, Huaxin Wu, Zhaoxu Nian, Lei Sun, Yi Fang, Jia Pan, Chin-Hui Lee, "An experimental study on sound event localization and detection under realistic testing conditions." [PDF], Accepted by ICASSP 2023.

[2023] Chen-Yue Zhang, Hang Chen, Jun Du, Jia Pan, Chin-Hui Lee, "Incorporating Visual Information Reconstruction into Progressive Learning for Optimizing Audio-Visual Speech Enhancement." [PDF], Accepted by ICASSP 2023.

[2023] Shilong Wu, Jun Du, Mao-kui He, Shutong Niu, Hang Chen, Haitao Tang, Chin-Hui Lee, "Semi-Supervised Multi-Channel Speaker Diarization With Cross-Channel Attention." [PDF], Accepted by ASRU 2023.

[2023] Haotian Wang, Jun Du, Hengshun Zhou, Chin-Hui Lee, Yuling Ren, Jiangjiang Zhao, "A Multiple-Teacher Pruning Based Self-Distillation (MT-PSD) Approach to Model Compression for Audio-Visual Wake Word Spotting." [PDF], Accepted by INTERSPEECH 2023.

[2023] Zilu Guo, Jun Du, Chin-Hui Lee, Yu Gao, Wenbin Zhang, "Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement." [PDF], Accepted by Interspeech 2023.

[2023] Shutong Niu, Jun Du, Maokui He, Chin-Hui Lee, Baoxiang Li, Jiakui Li, "Unsupervised Adaptation with Quality-Aware Masking to Improve Target-Speaker Voice Activity Detection for Speaker Diarization." [PDF], Accepted by Interspeech 2023.

[2023] Gaobin Yang, Jun Du, Maokui He, Shutong Niu, Baoxiang Li, Jiakui Li, Chin-Hui Lee, "AD-TUNING: An Adaptive CHILD-TUNING Approach to Efficient Hyperparameter Optimization of Child Networks for Speech Processing Tasks in the SUPERB Benchmark." [PDF], Accepted by INTERSPEECH 2023.

[2023] Haotian Wang, Gongzhen Zou, Jun Du, Hengshun Zhou, Shifu Xiong, "An Improved Structured Pruning Approach to Channel-level Pruning for Designing Compact Audio-Visual Wake Word Spotting System." [PDF], Accepted by NCMMSC 2023.

[2023] Chenxi Wang, Hang Chen, Jun Du, Chenyue Zhang, Yuling Ren, Qinglong Li, Ruibo Liu, Chin-Hui Lee, "A Study on Domain Adaptation for Audio-visual Speech Enhancement." [PDF], Accepted by NCMMSC 2023.

[2023] Gongzhen Zou, Jun Du, Shutong Niu, Hang Chen, Yuling Ren, Qinglong Li, Ruibo Liu, Chin-Hui Lee, "Joint Time-Domain and Frequency-Domain Progressive Learning for Single-Channel Speech Enhancement and Recognition." [PDF], Accepted by NCMMSC 2023.

[2023] Yusheng Dai, Hang Chen, Jun Du, Xiaofei Ding, Ning Ding, Feijun Jiang, Chin-Hui Lee, "Improving audio-visual speech recognition by lip-subword correlation based visual pre-training and cross-modal fusion encoder." [PDF], Accepted by ICME 2023.

[2023] Xueyang Zhang, Shuxian Wang, Jun Du, Genwei Yan, Jigang Tang, Tian Gao, Xin Fang, Jia Pan, Jianqing Gao, "Frame-Level Embedding Learning for Few-shot Bioacoustic Event Detection." [PDF], Accepted by ICME 2023.

[2023] Haotian Wang, Yuxuan Xi, Hang Chen, Jun Du, Yan Song, Qing Wang, Hengshun Zhou, Chenxi Wang, Jiefeng Ma, Pengfei Hu, et al., "Hierarchical Audio-Visual Information Fusion with Multi-label Joint Decoding for MER 2023." [PDF], Presented at the 31st ACM International Conference on Multimedia.

[2022] Qing Wang, Jun Du, Siyuan Zheng, Yunqing Li, Yajian Wang, Yuzhong Wu, Hu Hu, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Yannan Wang, Chin-Hui Lee, "A Study on Joint Modeling and Data Augmentation of Multi-Modalities for Audio-Visual Scene Classification." [PDF], Accepted by ISCSLP 2022.

[2022] Nimol Thuon, Jun Du, Jianshu Zhang, "Improving isolated glyph classification task for palm leaf manuscripts." [PDF], Accepted by International Conference on Frontiers in Handwriting Recognition.

[2022] Changjie Wu, Jun Du, Yunqing Li, Jianshu Zhang, Chen Yang, Bo Ren, Yiqing Hu, "TDv2: A Novel Tree-Structured Decoder for Offline Mathematical Expression Recognition." [PDF], Accepted by AAAI 2022.

[2022] Haotian Wang, Jun Du, Hengshun Zhou, Heng Lu, Yuhang Cao, "A Novel Approach to Structured Pruning of Neural Network for Designing Compact Audio-Visual Wake Word Spotting System." [PDF], Accepted by APSIPA ASC 2022.

[2022] Shuxian Wang, Jun Du, Yajian Wang, "Machine Anomalous Sound Detection Based on Self-Supervised Classification." [PDF], Accepted by APSIPA ASC 2022.

[2022] Nimol Thuon, Jun Du, Jianshu Zhang, "Syllable Analysis Data Augmentation for Khmer Ancient Palm Leaf Recognition." [PDF], Accepted by APSIPA ASC 2022.

[2022] Shu-Tong Niu, Jun Du, Lei Sun, Chin-Hui Lee, "Improving separation-based speaker diarization via iterative model refinement and speaker embedding based post-processing." [PDF], Accepted by ICASSP 2022.

[2022] Maokui He, Xiang Lv, Weilin Zhou, JingJing Yin, Xiaoqi Zhang, Yuxuan Wang, Shutong Niu, Yuhang Cao, Heng Lu, Jun Du, et al., "The ustc-ximalaya system for the icassp 2022 multi-channel multi-party meeting transcription (m2met) challenge." [PDF], Accepted by ICASSP 2022.

[2022] Hengshun Zhou, Jun Du, Chao-Han Huck Yang, Shifu Xiong, Chin-Hui Lee, "A study of designing compact audio-visual wake word spotting system based on iterative fine-tuning in neural network pruning." [PDF], Accepted by ICASSP 2022.

[2022] Pengfei Hu, Zhenrong Zhang, Jianshu Zhang, Jun Du, Jiajia Wu, "Multimodal Tree Decoder for Table of Contents Extraction in Document Images." [PDF], Accepted by ICPR 2022.

[2022] Qing Wang, Hang Chen, Ya Jiang, Zhe Wang, Yuyang Wang, Jun Du, Chin-Hui Lee, "Deep Learning Based Audio-Visual Multi-Speaker DOA Estimation Using Permutation-Free Loss Function." [PDF], Accepted by ISCSLP 2022.

[2022] Chenxi Wang, Hang Chen, Jun Du, Baocai Yin, Jia Pan, "Multi-Task Joint Learning for Embedding Aware Audio-Visual Speech Enhancement." [PDF], Accepted by ISCSLP 2022.

[2022] Shuxian Wang, Jun Du, Yajian Wang, "Baby Cry Recognition Based on Acoustic Segment Model." [PDF], Accepted by NCMMSC 2022.

[2022] Guolong Zhong, Hongyu Song, Ruoyu Wang, Lei Sun, Diyuan Liu, Jia Pan, Xin Fang, Jun Du, Jie Zhang, Lirong Dai, "External Text Based Data Augmentation for Low-Resource Speech Recognition in the Constrained Condition of OpenASR21 Challenge." [PDF], Accepted by Interspeech 2022.

[2022] Hengshun Zhou, Jun Du, Gongzhen Zou, Zhaoxu Nian, Chin-Hui Lee, Sabato Marco Siniscalchi, Shinji Watanabe, Odette Scharenborg, Jingdong Chen, Shifu Xiong, et al., "Audio-Visual Wake Word Spotting in MISP2021 Challenge: Dataset Release and Deep Analysis." [PDF], Accepted by Interspeech 2022.

[2022] Xinzhe Jiang, Jianshu Zhang, Jun Du, Zhenrong Zhang, Jiajia Wu, "Scene Text Recognition with Self-supervised Contrastive Predictive Coding."[PDF], Accepted by ICPR2022.

[2021] Xin Fang, Zhen-hua Ling, Lei Sun, Shu-Tong Niu, Jun Du, Cong Liu, Zhi-Chao Sheng, "A Deep Analysis of Speech Separation Guided Diarization Under Realistic Conditions."[PDF], Accepted by APSIPA2021.

[2021] Qifeng Zeng, Jun Du, Zirui Wang, "HMM-based Lip Reading with Stingy Residual 3D Convolution."[PDF], Accepted by APSIPA2021.

[2021] Yihui Fu, Luyao Cheng, Shubo Lv, Yukai Jv, Yuxiang Kong, Zhuo Chen, Yanxin Hu, Lei Xie, Jian Wu, Hui Bu, Xin Xu, Jun Du, Jingdong Chen, "AISHELL-4: An Open Source Dataset for Speech Enhancement, Separation, Recognition and Speaker Diarization in Conference Scenario."[PDF], Accepted by Interspeech2021.

[2021] Neville Ryant, Prachi Singh, Venkat Krishnamohan, Rajat Varma, Kenneth Church, Christopher Cieri, Jun Du, Sriram Ganapathy, Mark Liberman, "The Third DIHARD Diarization Challenge."[PDF], Accepted by Interspeech2021.

[2021] Hang Chen, Jun Du, Yu Hu, Li-Rong Dai, Bao-Cai Yin, Chin-Hui Lee, "Automatic Lip-Reading with Hierarchical Pyramidal Convolution and Self-Attention for Image Sequences with No Word Boundaries."[PDF], Accepted by Interspeech2021.

[2021] Koen Oostermeijer, Qing Wang, Jun Du, "Lightweight Causal Transformer with Local Self-Attention for Real-Time Speech Enhancement."[PDF], Accepted by Interspeech2021.

[2021] Xiao-Qi Zhang, Jun Du, Li Chai, Chin-Hui Lee, "A Maximum Likelihood Approach to SNR-Progressive Learning Using Generalized Gaussian Distribution for LSTM-Based Speech Enhancement."[PDF], Accepted by Interspeech2021.

[2021] Hengshun Zhou, Jun Du, Hang Chen, Zijun Jing, Shifu Xiong, Chin-Hui Lee, "Audio-Visual Information Fusion Using Cross-Modal Teacher-Student Learning for Voice Activity Detection in Realistic Environments."[PDF], Accepted by Interspeech2021.

[2021] Yu-Xuan Wang, Jun Du, Mao-Kui He, Shu-Tong Niu, Lei Sun, Chin-Hui Lee, "Scenario-Dependent Speaker Diarization for DIHARD-III Challenge."[PDF], Accepted by Interspeech2021.

[2021] Maokui He, Desh Raj, Zili Huang, Jun Du, Zhuo Chen, Shinji Watanabe, "Target-speaker Voice Activity Detection with Improved I-Vector Estimation for Unknown Number of Speaker."[PDF], Accepted by Interspeech2021.

[2021] Jiefeng Ma, Zirui Wang, Jun Du, "An Open-Source Library of 2D-GMM-HMM Based on Kaldi Toolkit and Its Application to Handwritten Chinese Character Recognition."[PDF], Accepted by ICIG2021.

[2021] ZhenRong Zhang, Jun Du, "Accurate Oriented Instance Segmentation in Aerial Images."[PDF], Accepted by ICIG2021.

[2021] Jiaming Wang, Qing Wang, Jun Du, Jianshu Zhang, Bin Wang, Bo Ren, "MRD: A Memory Relation Decoder for Online Handwritten Mathematical Expression Recognition."[PDF], Accepted by ICDAR2021.

[2021] Mobai Xue, Jun Du, Jianshu Zhang, Zi-Rui Wang, Bin Wang, Bo Ren, "Radical Composition Network for Chinese Character Generation."[PDF], Accepted by ICDAR2021.

[2021] Shu-Tong Niu, Jun Du, Lei Sun, Chin-Hui Lee, "Separation Guided Speaker Diarization in Realistic Mismatched Conditions."[PDF], Accepted by NCMMSC2021 (Best paper candidate).

[2021] Ahmed M. A. Shaalan, Jun Du, Yan-Hui Tu, "TCLA Array: A New Sparse Array Design with Less Mutual Coupling."[PDF], Accepted by ICASSP2021.

[2021] Koen Oostermeijer, Jun Du, Qing Wang, Chin-Hui Lee, "Speech Enhancement Autoencoder with Hierarchical Latent Structure."[PDF], Accepted by ICASSP2021.

[2021] Zhaoxu Nian, Yan-Hui Tu, Jun Du, and Chin Hui Lee, "A Progressive Learning Approach to Adaptive Noise and Speech Estimation for Speech Enhancement and Noisy Speech Recognition."[PDF], Accepted by ICASSP2021.

[2021] Hu Hu, Chao-Han Huck Yang, Xianjun Xia, Xue Bai, Xin Tang, Yajian Wang, Shutong Niu, Li Chai, Juanjuan Li, Hongning Zhu, Feng Bao, Yuanjun Zhao, Sabato Marco Siniscalchi, Yannan Wang, Jun Du, Chin-Hui Lee, "A two-stage approach to device-robust acoustic scene classification."[PDF], Accepted by ICASSP2021.

[2021] Zhenrong Zhang, Jun Du, "Accurate Oriented Instance Segmentation In Aerial Images."[PDF], International Conference on Image and Graphics, 2021.

[2021] Qing Wang, Huaxin Wu, Zijun Jing, Feng Ma, Yi Fang, Yuxuan Wang, Tairan Chen, Jia Pan, Jun Du, and Chin-Hui Lee, "A Model Ensemble Approach for Sound Event Localization and Detection."[PDF], Accepted by ISCSLP2021.

[2021] Siyuan Zheng, Jun Du, Hengshun Zhou, Xue Bai, Chin-Hui Lee, Shipeng Li, "Speech Emotion Recognition Based on Acoustic Segment Model."[PDF], Accepted by ISCSLP2021.

[2021] Li Chai, Jun Du, Di-Yuan Liu, Yan-Hui Tu, Chin-Hui Lee, "Acoustic modeling for multi-array conversational speech recognition in the chime-6 challenge."[PDF], Accepted by 2021 IEEE Spoken Language Technology Workshop (SLT).

[2021] Desh Raj, Pavel Denisov, Zhuo Chen, Hakan Erdogan, Zili Huang, Maokui He, Shinji Watanabe, Jun Du, Takuya Yoshioka, Yi Luo, Naoyuki Kanda, Jinyu Li, Scott Wisdom, John R Hershey, "Integration of speech separation, diarization, and recognition for multi-speaker meetings: System description, comparison, and analysis."[PDF], Accepted by 2021 IEEE Spoken Language Technology Workshop (SLT).

[2020] Hu Hu, Sabato Marco Siniscalchi, Yannan Wang, Xue Bai, Jun Du, Chin-Hui Lee, "An acoustic segment model based segment unit selection approach to acoustic scene classification with partial utterances."[PDF], Accepted by InterSpeech2020.

[2020] Jianshu Zhang, Jun Du , Yongxin Yang, Yi-Zhe Song, Lirong Dai, "A tree-structured decoder for image-to-markup generation."[PDF], International Conference on Machine Learning, 2020.

[2020] Jun Qi, Xiaoli Ma, Chin-Hui Lee, Jun Du, Sabato Marco Siniscalchi, "Performance analysis for tensor-train decomposition to deep neural network based vector-to-vector regression."[PDF], Accepted by CISS2020.

[2020] Changjie Wu, Qing Wang, Jianshu Zhang, Jun Du, Jiaming Wang , Jiajia Wu, Jinshui Hu, "Stroke Based Posterior Attention for Online Handwritten Mathematical Expression Recognition."[PDF], Accepted by ICPR2020.

[2020] Yunqing Li, Yixing Zhu, Jun Du, Changjie Wu, Jianshu Zhang, "Radical Counter Network for Robust Chinese Character Recognition."[PDF], Accepted by ICPR2020.

[2020] Chen Yang, Qing Wang, Jun Du*, Jianshu Zhang, Changjie Wu and Jiaming Wang, "A Transformer-based Radical Analysis Network for Chinese Character Recognition."[PDF], Accepted by ICPR2020.

[2020] Xin Tang, Jun Du, Li Chai, Yannan Wang, and Chin Hui Lee, "Geometry constrained progressive learning for lstm-based speech enhancement."[PDF], Accepted by ICASSP2020.

[2020] Yan-Hui Tu, Jun Du, Chin-Hui Lee, "2d-to-2d mask estimation for speech enhancement based on fully convolutional neural network."[PDF], Accepted by ICASSP2020.

[2020] Xue Bai, Jun Du, Jia Pan, Heng-shun Zhou, Yan-Hui Tu, Chin-Hui Lee, "High-resolution attention network with acoustic segment model for acoustic scene classification."[PDF], Accepted by ICASSP2020.

[2020] Xin Wang, Jun Du, Alejandrina Cristia, Lei Sun, Chin-Hui Lee, "A study of child speech extraction using joint speech enhancement and separation in realistic conditions."[PDF], Accepted by ICASSP2020.

[2020] Lei Sun, Jun Du, Xueyang Zhang, Tian Gao, Xin Fang, Chin-Hui Lee, "Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization."[PDF], Accepted by ICASSP2020.

[2020] Shu-Tong Niu, Jun Du, Li Chai and Chin Hui Lee, "A Maximum Likelihood Approach to Multi-Objective Learning Using Generalized Gaussian Distributions for Dnn-Based Speech Enhancement."[PDF], Accepted by ICASSP2020.

[2020] Yu-Xuan Wang, Jun Du, Li Chai, Chin Hui Lee and Jia Pan, "A Noise-Aware Memory-Attention Network Architecture for Regression-Based Speech Enhancement."[PDF], Accepted by InterSpeech2020.

[2020] Yanhui Tu, Jun Du, Lei Sun, Feng Ma, Jia Pan, Chin-Hui Lee, "A Space-and-Speaker-Aware Iterative Mask Estimation Approach to Multi-Channel Speech Recognition in the CHiME-6 Challenge."[PDF], Accepted by InterSpeech2020.

[2020] Hengshun Zhou, Jun Du, Yan-Hui Tu, Chin-Hui Lee, "Using Speech Enhancement Preprocessing for Speech Emotion Recognition in Realistic Noisy Conditions."[PDF], Accepted by InterSpeech2020.

[2020] Koen Oostermeijer, Qing Wang, Jun Du, "Frequency gating: Improved convolutional neural networks for speech enhancement in the time-frequency domain."[PDF], Accepted by APSIPA ASC 2020.

[2019] Xin Tang, Jun Du, Li Chai, Yannan Wang, and Chin Hui Lee, "A lstm-based joint progressive learning framework for simultaneous speech dereverberation and denoising."[PDF], Accepted by APSIPA ASC 2019.

[2019] Nan Zhou, Jun Du, Yan-Hui Tu, Tian Gao, Chin-Hui Lee, "A Speech Enhancement Neural Network Architecture with SNR-Progressive Multi-Target Learning for Robust Speech Recognition."[PDF], Accepted by APSIPA ASC 2019.

[2019] Hengshun Zhou, Debin Meng, Yuanyuan Zhang, Xiaojiang Peng, Jun Du, Kai Wang, Yu Qiao, "Exploring Emotion Features and Fusion Strategies for Audio-Video Emotion Recognition."[PDF], International Conference on Multimodal Interaction. 2019: 562-566.

[2019] Yuanyuan Zhang, Zi-Rui Wang and Jun Du, “Deep Fusion: An Attention Guided Factorized Bilinear Pooling for Audio-video Emotion Recognition,”[PDF], Accepted by IJCNN 2019.

[2019] Jiaming Wang, Jianshu Zhang, Zi-Rui Wang, Jun Du, “Multi-modal Attention Network for Handwritten Mathematical Expression Recognition,”[PDF], Accepted by Proc. ICDAR 2019.

[2019] Changjie Wu, Zi-Rui Wang, Jun Du, Jianshu Zhang and Jiaming Wang, “Joint Spatial and Radical Analysis Network For Distorted Chinese Character Recognition,”[PDF], accepted in ICDAR Workshop 2019.

[2019] Li Chai, Jun Du and Chin-Hui Lee, “KL-divergence Regularized Deep Neural Network Adaptation for Low-resource Speaker-dependent Speech Enhancement,” [PDF], accepted in INTERSPEECH 2019.

[2019] Li Chai, Jun Du and Chin-Hui Lee, A Cross-entropy-guided (CEG) Measure for Speech Enhancement Front-end Assessing Performances of Back-end Automatic Speech Recognition,” [PDF], accepted in INTERSPEECH 2019.

[2019] Feng Ma, Li Chai, Jun Du, Diyuan Liu, Zhongfu Ye and Chin-Hui Lee, “Acoustic Model Ensembling Using Effective Data Augmentation for CHiME-5 Challenge,” [PDF], accepted in INTERSPEECH 2019.

[2019] Xue Bai, Jun Du, Zi-Rui Wang, Chin-Hui Lee, “A Hybrid Approach to Acoustic Scene Classification Based on Universal Acoustic Models,” [PDF], accepted in INTERSPEECH 2019.

[2019] Yan-Hui Tu, Jun Du, Chin-Hui Lee, “DNN Training Based on Classic Gain Function for Single-channel Speech Enhancement and Recognition” [PDF], accepted in ICASSP 2019.

[2019] Lei Sun, Jun Du, Tian Gao, Yi Fang, Feng Ma, Jia Pan, Chin-Hui Lee, “A Two-stage Single-channel Speaker-dependent Speech Separation Approach for Chime-5 Challenge” [PDF], accepted in ICASSP 2019.

[2018] Jia Pan, Diyuan Liu, Genshun Wan, Jun Du, Qingfeng Liu, Zhongfu Ye, “Online Speaker Adaptation for LVCSR Based on Attention Mechanism” [PDF], Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), accepted in APSIPA 2018.

[2018] Mao-Kui He, Jun Du, Zi-Rui Wang, Lei Sun, “A Novel Training Strategy Using Dynamic Data Generation for Deep Neural Network Based Speech Enhancement” [PDF], Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), accepted in APSIPA 2018.

[2018] Yan-Hui Tu, Jun Du, Nan Zhou, Chin-Hui Lee, “Online LSTM-based Iterative Mask Estimation for Multi-Channel Speech Enhancement and ASR” [PDF], Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), accepted in APSIPA 2018.

[2018] Bing Yin, Jun Du, Lei Sun, Xueyang Zhang, Shan He, Zhenhua Ling, Guoping Hu, Wu Guo, “An Analysis of Speaker Diarization Fusion Methods For The First DIHARD Challenge” [PDF], Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), accepted in APSIPA 2018.

[2018] Hengshun Zhou, Xue Bai and Jun Du, "An Investigation of Transfer Learning Mechanism for Acoustic Scene Classfication," [PDF], International Symposium on Chinese Spoken Language Processing (ISCSLP), accepted in ISCSLP 2018.

[2018] Qing Wang, Jun Du, Li Chai, Li-Rong Dai, Chin-Hui Lee, "A maximum likelihood approach to masking-based speech enhancement using deep neural network," [PDF], International Symposium on Chinese Spoken Language Processing (ISCSLP), accepted in ISCSLP 2018.

[2018] Xin Wang, Jun Du, Lei Sun, Qing Wang and Chin-Hui Lee, "A Progressive Deep Learning Approach to Child Speech Separation," [PDF], International Symposium on Chinese Spoken Language Processing (ISCSLP), accepted in ISCSLP 2018.

[2018] Yuanyuan Zhang, Jun Du, Zirui Wang and Jianshu Zhang, "Attention Based Fully Convolutional Network for Speech Emotion Recognition," [PDF], Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), accepted in APSIPA 2018.

[2018] Yixing Zhu, Jun Du, "Sliding line point regression for shape robust scene text detection" [PDF], 2018 24th International Conference on Pattern Recognition (ICPR), 3735-3740.

[2018] Zi-Rui Wang, Bao-Cai Yin, Jun Du, Cong Liu, Xiaodong Tao and Guoping Hu, "Fast and Robust Detection of Anatomical Landmarks Using Cascaded 3D Convolutional Networks Guided by Linear Square Regression" [PDF], in Book: Biometric Recognition, Springer Nature, in press.

[2018] Wenchao Wang, Jun Du and Zi-Rui Wang, "Parsimonious HMMs for Offline Handwritten Chinese Text Recognition," [PDF], International Conference on Frontiers in Handwriting Recognition (ICFHR), accepted in ICFHR 2018.

[2018] Wenchao Wang, Jianshu Zhang, Jun Du, Zi-Rui Wang and Yixing Zhu, "DenseRAN for Offline Handwritten Chinese Character Recognition," [PDF], International Conference on Frontiers in Handwriting Recognition (ICFHR), accepted in ICFHR 2018.

[2018] Li Chai, Jun Du and Chin-Hui Lee, “Error Modeling via Asymmetric Laplace Distribution for Deep Neural Network Based Single-Channel Speech Enhancement,” [PDF], accepted in INTERSPEECH 2018.

[2018] Lei Sun, Jun Du, Chao Jiang, Xueyang Zhang, Shan He, Bing Yin and Chin-Hui Lee, “Speaker Diarization with Enhancing Speech for the First DIHARD Challenge,” [PDF], accepted in INTERSPEECH 2018.

[2018] Tian Gao, Jun Du, Li-Rong Dai and Chin-Hui Lee, “Densely Connected Progressive Learning For LSTM-based Speech Enhancement,” [PDF], accepted in ICASSP 2018.

[2018] Neville Ryant, Elika Bergelson, Kenneth Church, Alejandrina Cristia, Jun Du, et al. “ENHANCEMENT AND ANALYSIS OF CONVERSATIONAL SPEECH: JSALT 2017,” [PDF], accepted in ICASSP 2018.

[2018] Lei Sun, Jun Du, Tian Gao, Yu-Ding Lu, Yu Tsao, Chin-Hui Lee and Neville Nyant, “A Novel LSTM-based Speech Preprocessor For Speaker Diarization In Realistic Mismatch Conditions,” [PDF], accepted in ICASSP 2018.

[2018] Yanhui Tu, Ivan Tashev, Shuayb Zarar and Chin-Hui Lee, “A Hybrid Approach To Combining Conventional And Deep Learning Techniques For Single-Channel Speech Enhancement And Recognition,” [PDF], accepted in ICASSP 2018.

[2018] Jianshu Zhang, Yixing Zhu, Jun Du, and Lirong Dai, “Radical analysis network for zero-shot learning in printed Chinese character recognition,” [PDF], accepted in ICME 2018.

[2018] Jianshu Zhang, Yixing Zhu, Jun Du, and Lirong Dai, “Trajectory-based Radical Analysis Network for Online Handwritten Chinese Character Recognition,”[PDF], accepted in ICPR 2018.

[2018] Jianshu Zhang, Jun Du^*, and Lirong Dai, “Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition,”[PDF], accepted in ICPR 2018.

[2017] Yixing Zhu, Jun Du and Jianshu Zhang, "Dual Learning of the Generator and Recognizer for Chinese Characters,"[PDF] in ACPR 2017.

[2017] Zi-Rui Wang, Jun Du, Jin-Shui Hu and Yu-Long Hu, "Deep convoluional neural network based Hidden Markov Model for Offline Handwritten Chinese Text Recognition,"[PDF] in ACPR 2017.

[2017] Jianshu Zhang, Jun Du, Lirong Dai, "A gru-based encoder-decoder approach with attention for online handwritten mathematical expression recognition,"[PDF] in ICDAR 2017.

[2017] Xiao Bao, Tian Gao, Jun Du and Li-Rong Dai, "An investigation of high-resolution modeling units of deep neural networks for acoustic scene classification."[PDF], Neural Networks (IJCNN), 2017 International Joint Conference on. IEEE, 2017.

[2017] Qing Wang, Jun Du, Li-Rong Dai and Chin-Hui Lee, "Joint noise and mask aware training for DNN-based speech enhancement with SUB-band features."[PDF], Hands-free Speech Communications and Microphone Arrays (HSCMA), 2017. IEEE, 2017.

[2017] Lei Sun, Jun Du, Li-Rong Dai and Chin-Hui Lee, "Multiple-target deep learning for LSTM-RNN based speech enhancement."[PDF], Hands-free Speech Communications and Microphone Arrays (HSCMA), 2017. IEEE, 2017.

[2017] Yan-Hui Tu, Jun Du, Lei Sun, Feng Ma and Chin-Hui Lee, "On Design of Robust Deep Models for CHiME-4 Multi-Channel Speech Recognition with Multiple Configurations of Array Microphones."[PDF], Proc. Interspeech 2017 (2017): 394-398.

[2017] Yannan Wang, Jun Du, Li-Rong Dai and Chin-Hui Lee, "A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation."[PDF], Proc. Interspeech 2017 (2017): 1178-1182.

[2017] Wang X, Du J, Wang Y. "A maximum likelihood approach to deep neural network based speech dereverberation." [PDF], Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). IEEE, 2017: 155-158.

[2017] Tu Y H, Du J, Sun L, et al. "LSTM-based iterative mask estimation and post-processing for multi-channel speech enhancement" [PDF], Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). IEEE, 2017: 488-491.

[2017] Wen S X, Du J, Lee C H. "On generating mixing noise signals with basis functions for simulating noisy speech and learning dnn-based speech enhancement models" [PDF], IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2017: 1-6.

[2017] Chai L, Du J, Wang Y. "Gaussian density guided deep neural network for single-channel speech enhancement"[PDF], IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2017: 1-6.

[2016] Tian Gao, Jun Du, Li-Rong Dai, and Chin-Hui Lee, “SNR-Based Progressive Learning of Deep Neural Network for Speech Enhancement,” [PDF][POSTER], Proc. INTERSPEECH, 2016, pp.3713-3717.

[2016] Yannan Wang, Jun Du, Li-Rong Dai and Chin-Hui Lee, "Unsupervised single-channel speech separation via deep neural network for different gender mixtures."[PDF] Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2016 Asia-Pacific. IEEE, 2016.

[2016] Qing Wang, Jun Du and Li-Rong Dai, "Boosting DNN-based speech enhancement via explicit transformations."[PDF], Signal and Information Processing Association Annual Summit and Conference (APSIPA), 2016 Asia-Pacific. IEEE, 2016.

[2016] Jun Du, Zi-Rui Wang, Jian-Fang Zhai and Jin-Shui Hu, "Deep neural network based hidden markov model for offline handwritten Chinese text recognition."[PDF], Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016.

[2016] Nan Zhou and Jun Du, "Recognition of Social Touch Gestures Using 3D Convolutional Neural Networks." [PDF], Chinese Conference on Pattern Recognition. Springer, Singapore, 2016.

[2016] Zi-Rui Wang and Jun Du, "Writer Code Based Adaptation of Deep Neural Network for Offline Handwritten Chinese Text Recognition."[PDF], Frontiers in Handwriting Recognition (ICFHR), 2016 15th International Conference on. IEEE, 2016.

[2016] Yan-Hui Tu, Jun Du, Li-Rong Dai and Chin-Hui Lee, "A speaker-dependent deep learning approach to joint speech separation and acoustic modeling for multi-talker automatic speech recognition."[PDF], Chinese Spoken Language Processing (ISCSLP), 2016 10th International Symposium on. IEEE, 2016.

[2016] Nana Fan, Jun Du and Li-Rong Dai, "A regression approach to binaural speech segregation via deep neural network."[PDF], Chinese Spoken Language Processing (ISCSLP), 2016 10th International Symposium on. IEEE, 2016.

[2016] Zhipeng Xie, Jun Du, Ian McLoughlin, Yong Xu, Feng Ma and Haikun Wang, "Deep neural network for robust speech recognition with auxiliary features from laser-Doppler vibrometer sensor."[PDF], Chinese Spoken Language Processing (ISCSLP), 2016 10th International Symposium on. IEEE, 2016.

[2016] Jianqing Gao, Jun Du, Changqing Kong, Huaifang Lu, Enhong Chen and Chin-Hui Lee, "An experimental study on joint modeling of mixed-bandwidth data via deep neural networks for robust speech recognition."[PDF], Neural Networks (IJCNN), 2016 International Joint Conference on. IEEE, 2016.

[2016] Jun Du, Yan-Hui Tu, Lei Sun, Feng Ma, Hai-Kun Wang, Jia Pan, Cong Liu, Jing-Dong Chen and Chin-Hui Lee, "The USTC-iFlytek system for CHiME-4 challenge."[PDF], Proc. CHiME (2016): 36-38.

[2016] Bao X, Gao T, Du J. "TECHNICAL REPORT OF USTC SYSTEM FOR ACOUSTIC SCENE CLASSIFICATION." [PDF].

[2015] Yong Xu, Jun Du, Zhen Huang, Li-Rong Dai, and Chin-Hui Lee, “Multi-objective learning and mask-based post-processing for deep neural network based speech enhancement,” [PDF], Proc. INTERSPEECH, 2015, pp.1508-1512.

[2015] Tian Gao, Jun Du, Yong Xu, Cong Liu, Li-Rong Dai, and Chin-Hui Lee, “Improving deep neural network based speech enhancement in low SNR environments,” [PDF], Proc. LVA/ICA, 2015, 75-82.

[2015] Tian Gao, Jun Du, Li Xu, Cong Liu, Li-Rong Dai, and Chin-Hui Lee, “A unified speaker-dependent speech separation and enhancement system based on deep neural networks,” [PDF], Proc. ChinaSIP, 2015, pp.687-691.

[2015] Yan-Hui Tu, Jun Du, Li-Rong Dai, and Chin-Hui Lee, “Speech separation based on signal-noise-dependent deep neural networks for robust speech recognition,” [PDF], Proc. ICASSP, 2015, pp.61-65.

[2015] Jun Du, Jian-Fang Zhai, Jin-Shui Hu, Bo Zhu, Si Wei, and Li-Rong Dai, “Writer adaptive feature extraction based on convolutional neural networks for online handwritten Chinese character recognition,”[PDF], Accepted by Proc. ICDAR 2015.

[2015] Jun Du, Qing Wang, Yan-Hui Tu, Xiao Bao, Li-Rong Dai and Chin-Hui Lee, "An information fusion approach to recognizing microphone array speech in the CHiME-3 challenge based on a deep learning framework."[PDF], Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015.

[2015] Tian Gao, Jun Du, Li-Rong Dai and Chin-Hui Lee, "Joint training of front-end and back-end deep neural networks for robust speech recognition."[PDF], Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2015.

[2015] Yannan Wang, Jun Du, Li-Rong Dai and Chin-Hui Lee, "High-resolution acoustic modeling and compact language modeling of language-universal speech attributes for spoken language identification."[PDF], Sixteenth Annual Conference of the International Speech Communication Association. 2015.

[2015] Qing Wang, Jun Du, Xiao Bao, Zi-Rui Wang, Li-Rong Dai and Chin-Hui Lee, "A universal VAD based on jointly trained deep neural networks."[PDF], Sixteenth Annual Conference of the International Speech Communication Association. 2015 (Best student paper candidate).

[2014] Jun Du, Yan-Hui Tu, Yong Xu, Li-Rong Dai, and Chin-Hui Lee, “Speech separation of a target speaker based on deep neural networks,” [PDF], Proc. ICSP, 2014, pp.473-477.

[2014] Yan-Hui Tu, Jun Du, Yong Xu, Li-Rong Dai, and Chin-Hui Lee, “Speech separation based on improved deep neural networks with dual outputs of speech features for both target and interfering speakers,” [PDF], Proc. ISCSLP, 2014, pp.250-254.

[2014] Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee, “Cross-language transfer learning for deep neural network based speech enhancement,” [PDF], Proc. ISCSLP, 2014, pp.336-340.

[2014] Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee, “Global variance equalization for improving deep neural network based speech enhancement,” [PDF], Proc. ChinaSIP, 2014, pp.71-75.

[2014] Yong Xu, Jun Du, Li-Rong Dai, and Chin-Hui Lee, “Dynamic noise aware training for speech enhancement based on deep neural networks,” [PDF], Proc. INTERSPEECH, 2014, pp.2670-2674.

[2014] Yanhui Tu, Jun Du, Yong Xu, Lirong Dai and Chin-Hui Lee, "Deep neural network based speech separation for robust speech recognition."[PDF], Signal Processing (ICSP), 2014 12th International Conference on. IEEE, 2014.

[2014] Yanhui Tu, Jun Du, Yong Xu, Lirong Dai and Chin-Hui Lee, "Speech separation based on improved deep neural networks with dual outputs of speech features for both target and interfering speakers."[PDF] Chinese Spoken Language Processing (ISCSLP), 2014 9th International Symposium on. IEEE, 2014.

[2014] Jun Du, “Irrelevant variability normalization via hierarchical deep neural networks for online handwritten Chinese character recognition,”[PDF], Proc. ICFHR, 2014, pp.303-308.

[2014] Jun Du, Jin-Shui Hu, Bo Zhu, Si Wei, and Li-Rong Dai, “Writer adaptation using bottleneck features and discriminative linear regression for online handwritten Chinese character recognition,”[PDF], Proc. ICFHR, 2014, pp.311-316.

[2014] Jun Du, Jin-Shui Hu, Bo Zhu, Si Wei, and Li-Rong Dai, “A study of designing compact classifiers using deep neural networks for online handwritten Chinese character recognition,”[PDF], Proc. ICPR, 2014, pp.2950-2955.

[2014] Yannan Wang, Jun Du, Lirong Dai and Chin-Hui Lee, "A fusion approach to spoken language identification based on combining multiple phone recognizers and speech attribute detectors."[PDF] Chinese Spoken Language Processing (ISCSLP), 2014 9th International Symposium on. IEEE, 2014.

[2014] Jun Du, Li-Rong Dai and Qiang Huo, "Synthesized stereo mapping via deep neural networks for noisy speech recognition."[PDF], Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.

[2014] Jun Du, Qing Wang, Tian Gao, Yong Xu Li-Rong Dai and Chin-Hui Lee, "Robust speech recognition with speech enhanced deep neural networks."[PDF], Fifteenth Annual Conference of the International Speech Communication Association. 2014.

[2013] Jun Du and Qiang Huo, “An irrelevant variability normalization based discriminative training approach for online handwritten Chinese character recognition,”[PDF], Proc. ICDAR, 2013, pp.69-73.

[2013] Jun Du and Qiang Huo, "A VTS-based feature compensation approach to noisy speech recognition using mixture models of distortion."[PDF], Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013.

[2012] Jun Du and Qiang Huo, Kai Chen, “Designing compact classifiers for rotation-free recognition of large vocabulary online handwritten Chinese characters,”[PDF], Proc. ICASSP, 2012, pp.1721-1724.

[2012] Jun Du and Qiang Huo, “A discriminative linear regression approach to OCR adaptation,”[PDF], Proc. ICPR, 2012, pp.629-632.

[2012] Jun Du and Qiang Huo, "Synthesized stereo-based stochastic mapping with data selection for robust speech recognition."[PDF], Chinese Spoken Language Processing (ISCSLP), 2012 8th International Symposium on. IEEE, 2012.

[2012] Jun Du and Qiang Huo, "IVN-based joint training of GMM and HMMs using an improved VTS-based feature compensation for noisy speech recognition."[PDF], Thirteenth Annual Conference of the International Speech Communication Association. 2012.

[2011] Jun Du, Qiang Huo, Lei Sun and Jian Sun, "Snap and translate using windows phone."[PDF], Document Analysis and Recognition (ICDAR), 2011 International Conference on. IEEE, 2011.

[2010] Du J, Hu Y, Jiang H. "Boosted mixture learning of Gaussian mixture HMMs for speech recognition."[PDF], Eleventh Annual Conference of the International Speech Communication Association. 2010.

[2010] Du J, Hu Y, Jiang H. "Du J, Hu Y, Dai L R, et al. HMM-based pseudo-clean speech synthesis for splice algorithm."[PDF], IEEE International Conference on Acoustics, Speech and Signal Processing. IEEE, 2010: 4570-4573.

[2008] Jun Du and Qiang Huo, “A speech enhancement approach using piecewise linear approximation of an explicit model of environmental distortions,” [PDF], Proc. INTERSPEECH, 2008, pp.569-572.

[2008] Jun Du and Ren-Hua Wang, “Cepstral shape normalization (CSN) for robust speech recognition,”[PDF], Proc. ICASSP, 2008, pp.4389-4392.

[2008] Jun Du and Qiang Huo, “A feature compensation approach using piecewise linear approximation of an explicit distortion model for noisy speech recognition,”[PDF], Proc. ICASSP, 2008, pp.4721-4724.

[2008] Jun Du and Qiang Huo, “A feature compensation approach using high-order vector Taylor series approximation of an explicit distortion model for noisy speech recognition,”[PDF], Proc. INTERSPEECH, 2008, pp.1257-1260.

[2008] Jun Du, Qiang Huo, and Yu Hu, “Evaluation of a feature compensation approach using high-order vector Taylor series approximation of an explicit distortion model on Aurora2, Aurora3, and Aurora4 tasks,”[PDF], Proc. ISCSLP, 2008, pp.81-84 (Best student paper candidate).

[2007] Jun Du, Peng Liu, Hui Jiang, Frank Soong, and Ren-Hua Wang, “A new minimum divergence approach to discriminative training,”[PDF], Proc. ICASSP, 2007, pp.677-680.

[2006] Zhi-Jie Yan, Peng Liu, Jun Du, Frank Soong, and Ren-Hua Wang, “Training discriminative HMM by optimal allocation of Gaussian kernels,”[PDF], Proc. ISCSLP, 2006, pp.289-298.

[2006] Jun Du, Peng Liu, Frank Soong, Jian-Lai Zhou, and Ren-Hua Wang, “Minimum divergence based discriminative training,”[PDF], Proc. INTERSPEECH, 2006, pp.2410-2413 (Best student paper candidate).

[2006] Jun Du, Peng Liu, Frank Soong, Jian-Lai Zhou, and Ren-Hua Wang, “Noisy speech recognition performance of discriminative HMMs,”[PDF], Proc. ISCSLP, 2006, pp.358-369 (Best student paper candidate).

Patent (Issued)

[2016] Jun Du, Lei Sun, Jian Sun and Qiang Huo, "Translating language characters in media content." U.S. Patent No. 9,251,144. 2 Feb. 2016.

[2016] Peng Bai, Qiang Huo, Jun Du and Lei Sun, "Actionable content displayed on a touch screen." U.S. Patent No. 9,329,692. 3 May 2016.

[2015] Qiang Huo and Jun Du, "Rotation-free recognition of handwritten characters." U.S. Patent No. 8,977,042. 10 Mar. 2015.