研究業績

論文

Xuan Luo, Shinnosuke Takamichi, Yuki Saito, Tomoki Koriyama, Hiroshi Saruwatari,
``Emotion-controllable Speech Synthesis Using Emotion Soft Label, Utterance-level Prosodic Factors, and Word-level Prominence,''
APSIPA Transactions on Signal and Information Processing, vol.13, no.1.(2024) [official]
Kentaro Mitsui, Tomoki Koriyama, Hiroshi Saruwatari,
``Deep Gaussian process based multi-speaker speech synthesis with latent speaker representation,''
Speech Communication, vol.132, pp.132-145.(2021) [official] [code]
Shinnosuke Takamichi, Ryosuke Sonobe, Kentaro Mitsui, Yuki Saito, Tomoki Koriyama, Naoko Tanji, Hiroshi Saruwatari,
``JSUT and JVS: free Japanese voice corpora for accelerating speech synthesis research,''
Acoustical Science and Technology, vol.41, no.5, pp.761-768.(2020) [official]
Hiroki Tamaru, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, Hiroshi Saruwatari,
``Generative moment matching network-based neural double-tracking for synthesized and natural singing voices,''
IEICE Transactions on Information and Systems, vol.E103.D, pp.639-647.(2020) [official]
Tomoki Koriyama, Takao Kobayashi,
``Statistical Parametric Speech Synthesis Using Deep Gaussian Processes,''
IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol.27, no.5, pp.948-959. (May 2019) [official] [demo]
Decha Moungsri, Tomoki Koriyama, Takao Kobayashi,
``GPR-based Thai speech synthesis using multi-level duration prediction,''
Speech Communication, vol.99, pp.114-123. (May 2018) [official]
長濱大樹, 能勢隆, 郡山知樹, 小林隆夫,
``クロスリンガル音声合成のための共有決定木コンテクストクラスタリングを用いた話者適応,''
電子情報通信学会論文誌D, vol.J100-D, no.3, pp.385-393. (Mar. 2017) [official]
Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi,
``HMM-based expressive singing voice synthesis with singing style control and robust pitch modeling,''
Computer Speech & Language, vol.34, no.1, pp.308-322. (Nov. 2015) [official]
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Statistical Parametric Speech Synthesis Based on Gaussian Process Regression,''
IEEE Journal of Selected Topics in Signal Processing, vol.8, no.2, pp.173-183. (Apr. 2014) [PDF] [official] [demo]
Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka,
``Prosodic Variation Enhancement Using Unsupervised Context Labeling for HMM-based Expressive Speech Synthesis,''
Speech Communication, vol.57, no.3, pp.144–154. (Feb. 2014) [official]
郡山知樹, 能勢隆, 小林隆夫,
``HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張,''
電子情報通信学会論文誌D, vol.J95-D, no.3, pp.597-607. (Mar. 2012) [PDF] [official]

国際会議論文

Tomoki Koriyama,
``Prosody Labeling with Phoneme-BERT and Speech Foundation Models,''
Proc. 13th edition of the Speech Synthesis Workshop, pp.40-47. (Aug. 2025) [official] [arXiv]
Masato Murata, Koichi Miyazaki, Tomoki Koriyama, Tomoki Toda,
``Eigenvoice Synthesis based on Model Editing for Speaker Generation,''
Proc. Interspeech 2025, pp.5523-5527. (Aug. 2025) [official] [arXiv]
Masato Murata, Koichi Miyazaki, Tomoki Koriyama,
``Speaker-agnostic Emotion Vector for Cross-speaker Emotion Intensity Control,''
Proc. Interspeech 2025, pp.4383-4387. (Aug. 2025) [official] [arXiv]
Masato Murata, Koichi Miyazaki, Tomoki Koriyama,
``An Attribute Interpolation Method in Speech Synthesis by Model Merging,''
Proc. Interspeech 2024, pp.3380-3384. (Sept. 2024) [official] [arXiv]
Tomoki Koriyama,
``VAE-based Phoneme Alignment Using Gradient Annealing and SSL Acoustic Features,''
Proc. Interspeech 2024, pp.3814-3818. (Sept. 2024) [official] [arXiv]
Dong Yang, Tomoki Koriyama, Yuki Saito,
``Frame-Wise Breath Detection with Self-Training: An Exploration of Enhancing Breath Naturalness in Text-to-Speech,''
Proc. Interspeech 2024, pp.4928-4932. (Sept. 2024) [official] [arXiv]
Koichi Miyazaki, Masato Murata, Tomoki Koriyama,
``Structured State Space Decoder for Speech Recognition and Synthesis,''
Proc. ICASSP 2023. (May 2023) [official] [arXiv]
Dong Yang, Tomoki Koriyama, Yuki Saito, Takaaki Saeki, Detai Xin, Hiroshi Saruwatari,
``Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech,''
Proc. ICASSP 2023. (May 2023) [official] [arXiv]
Takaaki Saeki, Detai Xin, Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Hiroshi Saruwatari,
``UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022,''
Proc. Interspeech 2022, pp.4521-4525. (Sept. 2022) [official]
Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Yuki Saito, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari,
``Predicting VQVAE-based Character Acting Style from Quotation-Annotated Text for Audiobook Speech Synthesis,''
Proc. Interspeech 2022, pp.4551-4555. (Sept. 2022) [official]
Xuan Luo, Shinnosuke Takamichi, Tomoki Koriyama, Yuki Saito, Hiroshi Saruwatari,
``Emotion-Controllable Speech Synthesis Using Emotion Soft Labels and Fine-Grained Prosody Factors,''
Proc. APSIPA ASC. (Dec. 2021) [official]
Taiki Nakamura, Tomoki Koriyama, Hiroshi Saruwatari,
``Sequence-to-Sequence Learning for Deep Gaussian Process Based Speech Synthesis Using Self-Attention GP Layer,''
Proc. Interspeech 2021, pp.121-125. (Aug. 2021) [official]
Detai Xin, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, Hiroshi Saruwatari,
``Cross-Lingual Speaker Adaptation Using Domain Adaptation and Speaker Consistency Loss for Text-To-Speech Synthesis,''
Proc. Interspeech 2021, pp.1614-1618. (Aug. 2021) [official]
Kazuki Mizuta, Tomoki Koriyama, Hiroshi Saruwatari,
``Harmonic WaveGAN: GAN-Based Speech Waveform Generation Model with Harmonic Structure Discriminator,''
Proc. Interspeech 2021, pp.2192-2196. (Aug. 2021) [official]
Kazuya Yufune, Tomoki Koriyama, Shinnosuke Takamichi, Hiroshi Saruwatari,
``Accent Modeling of Low-Resourced Dialect in Pitch Accent Language Using Variational Autoencoder,''
Proc. 11th ISCA Speech Synthesis Workshop (SSW 11), pp.189-194. (Aug. 2021) [official]
Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Naoko Tanji, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari,
``Audiobook Speech Synthesis Conditioned by Cross-Sentence Context-Aware Word Embeddings,''
Proc. 11th ISCA Speech Synthesis Workshop (SSW 11), pp.211-215. (Aug. 2021) [official]
Kentaro Mitsui, Tomoki Koriyama, Hiroshi Saruwatari,
``Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes,''
Proc. Interspeech 2020, pp.2032-2036. (Ocd. 2020) [official]
Yuki Yamashita, Tomoki Koriyama, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari,
``Investigating Effective Additional Contextual Factors in DNN-based Spontaneous Speech Synthesis,''
Proc. Interspeech 2020, pp.3201-3205. (Oct. 2020) [official]
Detai Xin, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, Hiroshi Saruwatari,
``Cross-lingual Text-To-Speech Synthesis via Domain Adaptation and Perceptual Similarity Regression in Speaker Space,''
Proc. Interspeech 2020, pp.2947-2951. (Ocd. 2020) [official]
Yuki Yamashita, Tomoki Koriyama, Yuki Saito, Shinnosuke Takamichi, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari,
``DNN-based Speech Synthesis Using Abundant Tags of Spontaneous Speech Corpus,''
Proc. 12th edition of the Language Resources and Evaluation Conference (LREC 2020), pp.6438-6443. (May 2020) [official]
Tomoki Koriyama, Hiroshi Saruwatari,
``Utterance-level Sequential Modeling For Deep Gaussian Process Based Speech Synthesis Using Simple Recurrent Unit,''
Proc. 45th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2020), pp.7249-7253. (May 2020) (In press) [official] [arXiv] [demo] [slide]
Tomoki Koriyama, Shinnosuke Takamichi, Takao Kobayashi,
``Sparse Approximation of Gram Matrices for GMMN-based Speech Synthesis,''
Proc. The 10th ISCA Speech Synthesis Workshop (SSW10), pp.149-154. (Sept. 2019) [official] [slide]
Tomoki Koriyama, Takao Kobayashi,
``Semi-Supervised Prosody Modeling Using Deep Gaussian Process Latent Variable Model,''
Proc. Interspeech 2019, pp.4450-4454. (Sept. 2019) [official] [slide]
Tomoki Koriyama, Takao Kobayashi,
``A Training Method Using DNN-guided Layerwise Pretraining For Deep Gaussian Processes,''
Proc. 44th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019), pp.4785-4789. (May 2019) [official] [demo] [slide] [PDF (preprint, copyright©2019 IEEE)]
Hiroki Tamaru, Yuki Saito, Shinnosuke Takamichi, Tomoki Koriyama, Hiroshi Saruwatari,
``Generative Moment Matching Network-based Random Modulation Post-filter For Dnn-based Singing Voice Synthesis And Neural Double-tracking,''
Proc. 44th IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019), pp.1975-1979. (May 2019) [official]
Decha Moungsri, Tomoki Koriyama, Takao Kobayashi,
``Enhanced F0 generation for GPR-based speech synthesis considering syllable-based prosodic features,''
Proc. 2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, PID:47 (4 pages). (Dec. 2017)
Nattapong Kurpukdee, Tomoki Koriyama, Takao Kobayashi, Sawit Kasuriya, Chai Wutiwiwatchai, Poonlap Lamsrichan,
``Speech emotion recognition using convolutional long short-term memory neural network and support vector machines,''
Proc. 2017 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, PID:223 (6 pages). (Dec. 2017)
Shinnosuke Takamichi, Tomoki Koriyama, Hiroshi Saruwatari,
``Sampling-Based Speech Parameter Generation Using Moment-Matching Networks,''
Proc. 18th Annual Conference of the International Speech Communication (INTERSPEECH 2017), pp.3961-3965. (Aug. 2017) [official]
Decha Moungsri, Tomoki Koriyama, Takao Kobayashi,
``Duration Prediction Using Multiple Gaussian Process Experts For GPR-based Speech Synthesis,''
Proc. 42nd IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2017), pp.5495-5498. (Mar. 2017) [official]
Decha Moungsri, Tomoki Koriyama, Takao Kobayashi,
``Unsupervised Stress Information Labeling Using Gaussian Process Latent Variable Model for Statistical Speech Synthesis,''
Proc. 17th Annual Conference of the International Speech Communication (INTERSPEECH 2016), pp.1517-1521. (Sept. 2016) [official]
Decha Moungsri, Tomoki Koriyama, Takao Kobayashi,
``Tone modeling using Gaussian process latent variable model for statistical speech synthesis,''
Proc. Speech Prosody 2016, pp.1014-1018. (May 2016) [official]
Tomoki Koriyama, Syohei Oshio, Takao Kobayashi,
``A Speaker Adaptation Technique For Gaussian Process Regression Based Speech Synthesis Using Feature Space Transform,''
Proc. 41st IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2016), pp.5610-5614. (Mar. 2016) [PDF] [official] [demo]
Decha Moungsri, Tomoki Koriyama, Takao Kobayashi,
``Duration prediction using multi-level model for GPR-based speech synthesis,''
Proc. 16th Annual Conference of the International Speech Communication (INTERSPEECH 2015), pp.1591-1595. (Sept. 2015) [official]
Tomoki Koriyama, Takao Kobayashi,
``A comparison of speech synthesis systems based on GPR, HMM, and DNN with a small amount of training data,''
Proc. 16th Annual Conference of the International Speech Communication (INTERSPEECH 2015), pp.3496-3500. (Sept. 2015) [official]
Tomoki Koriyama, Takao Kobayashi,
``Prosody Generation Using Frame-based Gaussian Process Regression and Classification for Statistical Parametric Speech Synthesis,''
Proc. ICASSP 2015, pp.4929-4933. (Apr. 2015) [PDF] [official]
Decha Moungsri, Tomoki Koriyama, Takao Kobayashi,
``HMM-based Thai speech synthesis using unsupervised stress context labeling,''
Proc. 2014 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, PID:1138. (Dec. 2014)
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Parametric Speech Synthesis Using Local and Global Sparse Gaussian Processes,''
Proc. The 24th IEEE International Workshop on Machine Learning for Signal Processing. (Sept. 2014) [PDF] [official]
Tomoki Koriyama, Hiroshi Suzuki, Takashi Nose, Takahiro Shinozaki, Takao Kobayashi,
``Accent Type and Phrase Boundary Estimation Using Acoustic and Language Models for Automatic Prosodic Labeling,''
Proc. INTERSPEECH 2014, pp.2337-2341. (Sept. 2014) [PDF] [official]
Daiki Nagahama, Takashi Nose, Tomoki Koriyama, Takao Kobayashi,
``Transform mapping using shared decision tree context clustering for HMM-based cross-lingual speech synthesis,''
Proc. INTERSPEECH 2014, pp.770-774. (Sept. 2014) [official]
Decha Moungsri, Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Tone Modeling Using Stress Information for HMM-Based Thai Speech Synthesis,''
Proc. Speech Prosody 2014, pp.1057-1061. (May 2014)
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Parametric Speech Synthesis Based on Gaussian Process Regression Using Global Variance and Hyperparameter Optimization,''
Proc. ICASSP 2014, pp.3862-3866. (May 2014) [PDF]
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Statistical nonparametric speech synthesis using sparse Gaussian processes,''
Proc. INTERSPEECH 2013, pp.1072-1076. (Aug. 2013) [PDF]
Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi,
``A Style Control Technique for Singing Voice Synthesis Based on Multiple-regression HSMM,''
Proc. INTERSPEECH 2013, pp.378-382. (Aug. 2013)
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Frame-level Acoustic Modeling Based on Gaussian Process Regression for Statistical Nonparametric Speech Synthesis,''
Proc. ICASSP 2013, pp.8007-8010. (May 2013) [PDF]
Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka,
``HMM-based Expressive Speech Synthesis Based on Phrase-level F0 Context Labeling,''
Proc. ICASSP 2013, pp.7859-7863. (May 2013)
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Discontinuous Observation HMM for Prosodic-event-based F0 Generation,''
Proc. INTERSPEECH 2012, pp.462-465. (Sept. 2012) [PDF]
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``An F0 Modeling Technique Based on Prosodic Events for Spontaneous Speech Synthesis,''
Proc. ICASSP 2012, pp.4589-4593. (May 2012) [PDF]
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``On the Use of Extended Context for HMM-based Spontaneous Conversational Speech Synthesis,''
Proc. INTERSPEECH 2011, pp.2657-2660. (Aug. 2011) [PDF]
Tomoki Koriyama, Takashi Nose, Takao Kobayashi,
``Conversational Spontaneous Speech Synthesis Using Average Voice Model,''
Proc. INTERSPEECH 2010, pp.853-856. (Sept. 2010)

招待論文・解説

Tomoki Koriyama,
``An introduction of Gaussian processes and deep Gaussian processes and their applications to speech processing,''
Acoustical Science and Technology, vol.41, no.2, pp.457-464.(2020) [official]
郡山知樹,
``ガウス過程・深層ガウス過程とそれらの音声情報処理への応用,''
日本音響学会誌, vol.76, no.2, pp.109-116.(2020)

国内大会

郡山知樹,
``音素BERTと音声基盤モデルを用いた自動韻律アノテーションの検討,''
日本音響学会2025年秋季研究発表会講演論文集, 1-1-4, pp.1127-1130. (Sept. 2025)
小口純矢, 郡山知樹,
``Voting に基づく基本周波数推定法の誤差評価,''
日本音響学会2025年秋季研究発表会講演論文集, 3-Q-31, pp.1397-1400. (Sept. 2025)
山本克彦, 郡山知樹,
``振幅包絡情報と音声基盤モデルを用いた難聴者のための音声了解度予測,''
日本音響学会2025年春季研究発表会講演論文集, 3-4-11, pp.709-712. (Mar. 2025)
郡山知樹,
``変分オートエンコーダに基づく音声-テキストアライメントの汎用性評価,''
日本音響学会2025年春季研究発表会講演論文集, 3-P-27, pp.1159-1162. (Mar. 2025)
郡山知樹,
``ニューラルネットに基づく音素アライメントのためのモデル構造・学習法および特徴量の比較評価,''
日本音響学会2024年春季研究発表会講演論文集, 1-Q-26, pp.895-898. (Mar. 2024)
楊棟, 郡山知樹, 齋藤佑樹, 佐伯高明, 辛德泰, 猿渡洋,
``More differentiated pause insertion for phoneme-based multi-speaker TTS models,''
日本音響学会2023年春季研究発表会講演論文集, 2-3P-9, pp.867-868. (Mar. 2023)
中田亘, 辛德泰, 佐伯高明, 郡山知樹, 高道慎之介, 猿渡洋,
``UTMOS：VoiceMOS Challenge2022に向けたUTokyo-Sarulabチームの自然性MOS予測モデル,''
日本音響学会2022年秋季研究発表会講演論文集, 1-8-14, pp.1575-1578. (Sept. 2022)
楊棟, 郡山知樹, 猿渡洋,
``Pause Prediction Using BERT-based Features for Long-form Text-to-speech Synthesis,''
日本音響学会2022年秋季研究発表会講演論文集, 3-Q-21, pp.1365-1366. (Sept. 2022)
中村泰貴, 郡山知樹, 猿渡洋,
``深層ガウス過程音声合成における畳み込み・self-attention・リカレント構造の評価,''
日本音響学会2022年秋季研究発表会講演論文集, 3-Q-28, pp.1381-1382. (Sept. 2022)
中田亘, 郡山知樹, 高道慎之介, 齋藤佑樹, 井島勇祐, 増村亮, 猿渡洋,
``キャラクタ分散表現を用いた演じ分けを実現するオーディオブック音声合成,''
日本音響学会2022年春季研究発表会講演論文集, 3-3-1, pp.965-968. (Mar. 2022)
中田亘, 郡山知樹, 高道慎之介, 井島勇祐, 増村亮, 猿渡洋,
``文横断コンテキストを用いた日本語オーディオブック音声合成の評価,''
日本音響学会2021年秋季研究発表会講演論文集, 1-3-8, pp.867-870. (Sept. 2021)
辛徳泰, 齋藤佑樹, 高道慎之介, 郡山知樹, 猿渡洋,
`` ドメイン適応と話者一致損失を用いた話者適応によるクロスリンガル音声合成,''
日本音響学会2021年秋季研究発表会講演論文集, 1-3Q-8, pp.1049-1052. (Sept. 2021)
中村泰貴, 郡山知樹, 猿渡洋,
``Self-Attention構造を有する深層ガウス過程を用いたSequence-to-Sequence音声合成,''
日本音響学会2021年秋季研究発表会講演論文集, 3-3-2, pp.947-950. (Sept. 2021)
湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋,
``VQ-VAEに基づくアクセントの潜在変数表現を用いた方言音声合成,''
日本音響学会2021年秋季研究発表会講演論文集, 3-3-18, pp.975-978. (Sept. 2021)
羅旋, 高道慎之介, 郡山知樹, 齋藤佑樹, 猿渡洋,
``Controllable text-to-speech synthesis using prosodic feature and emotion soft-label,''
日本音響学会2021年秋季研究発表会講演論文集, 3-3-21, pp.985-988. (Sept. 2021)
中田亘, 郡山知樹, 高道慎之介, 井島勇祐, 増村亮, 猿渡洋,
``言語モデルによる文横断情報を用いたオーディオブック音声合成の検討,''
日本音響学会2021年春季研究発表会講演論文集, 3-2-26, pp.953-956. (Mar. 2021)
水田和輝, 郡山知樹, 猿渡洋,
``音声の周波数特性を考慮した畳み込み層を持つ波形生成モデルの検討,''
日本音響学会2021年春季研究発表会講演論文集, 2-2-7, pp.851-852. (Mar. 2021)
中村泰貴, 郡山知樹, 猿渡洋,
``深層ガウス過程を用いたsequence-to-sequence音声合成のモデル構造の評価,''
日本音響学会2021年春季研究発表会講演論文集, 1-2Q-11, pp.1035-1036. (Mar. 2021)
郡山知樹, 猿渡洋,
``活性化関数とカーネル関数の関係性を用いたガウス過程音声合成の評価,''
日本音響学会2021年春季研究発表会講演論文集, 1-2-13, pp.815-818. (Mar. 2021)
中村泰貴, 郡山知樹, 猿渡洋,
``深層ガウス過程音声合成におけるsequence-to-sequence学習の初期検討,''
日本音響学会2020年秋季研究発表会講演論文集, 1-2-25, pp.735-754. (Sept. 2020)
湯舟航耶, 郡山知樹, 猿渡洋,
``変分オートエンコーダを用いたアクセントの潜在変数表現の検討,''
日本音響学会2020年秋季研究発表会講演論文集, 1-2-15, pp.727-730. (Sept. 2020)
三井健太郎, 郡山知樹, 猿渡洋,
``多話者音声合成における深層ガウス過程潜在変数モデルを用いた音響モデル・話者表現の同時学習,''
日本音響学会2020年秋季研究発表会講演論文集, 1-2-2, pp.691-695. (Sept. 2020)
郡山知樹, 猿渡洋,
``深層ガウス過程音声合成における関数の確率微分方程式表現の利用の検討,''
日本音響学会2020年春季研究発表会講演論文集, 2-Q-44, pp.1127-1128. (Mar. 2020) [PDF]
高道慎之介, 小沼海, 金田卓, 金田隆志, 齋藤佑樹, 郡山知樹, 猿渡洋,
``周波数伸縮に基づく話者匿名化のためのクラウドソーシングに基づくパラメータ最適化,''
日本音響学会2020年春季研究発表会講演論文集, 3-P-31, pp.1159-1162. (Mar. 2020)
蛭田宜樹, 郡山知樹, 太刀岡勇気, 小林隆夫,
``スタイル適応したDNN音声合成における話者性の検討,''
日本音響学会2020年春季研究発表会講演論文集, 2-Q-34, pp.1103-1104. (Mar. 2020)
芹川武尊, 郡山知樹, 猿渡洋,
``Attentionに基づく音声変換のためのアラインメント予測モデルの検討,''
日本音響学会2020年春季研究発表会講演論文集, 2-2-2, pp.1077-1078. (Mar. 2020)
高道慎之介, 齋藤佑樹, 中村友彦, 郡山知樹, 猿渡洋,
``manga2voice:マンガ画像からの音声合成に向けた音声分析,''
日本音響学会2020年春季研究発表会講演論文集, 1-2-15, pp.1065-1068. (Mar. 2020)
三井健太郎, 郡山知樹, 猿渡洋,
``深層ガウス過程に基づく多話者音声合成,''
日本音響学会2020年春季研究発表会講演論文集, 1-2-2, pp.1043-1044. (Mar. 2020)
郡山知樹, 猿渡洋,
``深層ガウス過程に基づく音声合成におけるリカレント構造を用いた系列モデリングの検討,''
日本音響学会2019年秋季研究発表会講演論文集, 1-P-25, pp.1025-1026. (Sept. 2019) [PDF] [slide]
田丸浩気, 齋藤佑樹, 高道慎之介, 郡山知樹, 猿渡洋,
``ユーザ歌唱のための generative moment matching network に基づく neural double-tracking,''
日本音響学会2019年秋季研究発表会講演論文集, 1-4-5, pp.935-938. (Sept. 2019)
郡山知樹, 高道慎之介, 小林隆夫,
``グラム行列のスパース近似を用いた生成的モーメントマッチングネットに基づく音声合成の検討,''
日本音響学会2019年春季研究発表会講演論文集, 3-10-6, pp.1065-1066. (Mar. 2019) [PDF] [slide]
成田昂世, 郡山知樹, 小林隆夫, 井島勇祐,
``対話情報を考慮した韻律生成の検討,''
日本音響学会2019年春季研究発表会講演論文集, 1-P-37, pp.1131-1132. (Mar. 2019)
蛭田宜樹, 郡山知樹, 太刀岡勇気, 小林隆夫,
``DNN音声合成における少量の学習データを用いたスタイル付与の検討,''
日本音響学会2019年春季研究発表会講演論文集, 1-P-33, pp.1119-1120. (Mar. 2019)
田丸浩気, 齋藤佑樹, 高道慎之介, 郡山知樹, 猿渡洋,
``Generative moment matching netに基づく歌声のランダム変調ポストフィルタとdouble-trackingへの応用,''
日本音響学会2019年春季研究発表会講演論文集, 2-10-5, pp.1035-1038. (Mar. 2019)
郡山知樹, 小林隆夫,
``深層ガウス過程に基づく音声合成のための事前学習の検討,''
日本音響学会2018年秋季研究発表会講演論文集, 1-4-4, pp.1089-1090. (Mar. 2018) [PDF] [slide]
郡山知樹, 小林隆夫,
``GPR音声合成のための深層構造の利用の検討,''
日本音響学会2018年春季研究発表会講演論文集, 3-8-6, pp.1507-1508. (Mar. 2018) [PDF]
前野雄也, 郡山知樹, 小林隆夫,
``GPR音声合成における区分線形変換を用いたスタイル適応のためのデータ分割法の検討,''
日本音響学会2018年春季研究発表会講演論文集, 1-Q-36, pp.295-296. (Mar. 2018)
郡山知樹, 小林隆夫,
``GPR音声合成のためのフレームコンテキストカーネルに基づく決定木構築の検討,''
日本音響学会2017年秋季研究発表会講演論文集, 1-8-3, pp.177-178. (Sept. 2017) [PDF] [slide]
郡山知樹, 岡野祐紀, 小林隆夫,
``ガウス過程回帰に基づく歌声合成の検討,''
日本音響学会2017年秋季研究発表会講演論文集, 2-Q-24, pp.295-296. (Sept. 2017) [PDF]
高道慎之介, 郡山知樹, 猿渡洋,
``Moment-matching networkに基づく一期一会音声合成における発話間ゆらぎの評価,''
日本音響学会2017年秋季研究発表会講演論文集, 1-8-9, pp.195-196. (Sept. 2017)
高橋亮, 郡山知樹, 小林隆夫,
``コンテキストを考慮した音素マッチングに基づく非パラレルデータGMM声質変換,''
日本音響学会2017年春季研究発表会講演論文集, 2-P-37, pp.367-378. (Mar. 2017)
高道慎之介, 郡山知樹, 猿渡洋,
``Moment matching networkを用いた音声パラメータのランダム生成の検討,''
日本音響学会2017年春季研究発表会講演論文集, 2-6-9, pp.265-266. (Mar. 2017)
津野駿幸, 郡山知樹, 小林隆夫,
``GPR音声合成に基づいたオーディオブック音声の合成,''
日本音響学会2017年春季研究発表会講演論文集, 1-Q-29, pp.295-296. (Mar. 2017)
増子理菜, 郡山知樹, 小林隆夫,
``アクセント情報自動ラベリングの音声合成品質への影響に関する検討,''
日本音響学会2017年春季研究発表会講演論文集, 1-Q-25, pp.283-284. (Mar. 2017)
高橋亮, 郡山知樹, 小林隆夫,
``非パラレルデータを用いるGMM声質変換の検討,''
日本音響学会2016年秋季研究発表会講演論文集, 3-Q-31, pp.267-268. (Sept. 2016)
前野雄也, 押尾翔平, 郡山知樹, 小林隆夫,
``GPR音声合成における区分線形特徴量変換を用いたスタイル適応の検討,''
日本音響学会2016年秋季研究発表会講演論文集, 2-Q-35, pp.213-214. (Sept. 2016)
岡元伶洋, 郡山知樹, 小林隆夫,
``多様なスタイルによるGPR音声合成の検討,''
日本音響学会2016年春季研究発表会講演論文集, 1-R-49, pp.358-359. (Mar. 2016)
前野雄也, 郡山知樹, 小林隆夫,
``GPR音声合成におけるスタイル適応の検討,''
日本音響学会2016年春季研究発表会講演論文集, 2-2-2, pp.233-234. (Mar. 2016)
郡山知樹, 小林隆夫,
``ガウス過程回帰に基づく音声合成システムの評価,''
日本音響学会2015年秋季研究発表会講演論文集, 3-1-3, pp.235-236. (Sept. 2015) [PDF]
押尾翔平, 郡山知樹, 小林隆夫,
``GPR音声合成における話者適応手法の検討,''
日本音響学会2015年秋季研究発表会講演論文集, 2-1-2, pp.219-220. (Sept. 2015)
郡山知樹, 小林隆夫,
``ガウス過程回帰に基づく音声合成システムの検討,''
日本音響学会2015年春季研究発表会講演論文集, 2-2-9, pp.269-270. (Mar. 2015) [PDF]
増子理菜, 郡山知樹, 篠崎隆宏, 小林隆夫,
``言語モデルと音響モデルを用いた自動韻律ラベリングの評価,''
日本音響学会2015年春季研究発表会講演論文集, 1-R-37, pp.361-362. (Mar. 2015)
岡元伶洋, 郡山知樹, 小林隆夫,
``ガウス過程回帰に基づく音声合成のためのコンテキストの検討,''
日本音響学会2015年春季研究発表会講演論文集, 2-Q-31, pp.371-372. (Mar. 2015)
郡山知樹, 能勢隆, 小林隆夫,
``ガウス過程回帰に基づくF0パタン生成の検討,''
日本音響学会2014年秋期研究発表会講演論文集, 2-7-8, pp.247-248. (Sept. 2014) [PDF]
郡山知樹, 能勢隆, 小林隆夫,
``系列内変動を考慮したガウス過程回帰に基づく音声パラメータ生成,''
日本音響学会2014年春季研究発表会講演論文集, 3-6-15, pp.355-356. (Mar. 2014) [PDF]
荒生侑介, 能勢隆, 郡山知樹, 篠崎隆宏, 小林隆夫,
``音声合成のための音韻・韻律コンテキストを考慮した文選択アルゴリズムの評価,''
日本音響学会2014年春季研究発表会講演論文集, 1-R5-13, pp.405-406. (Mar. 2014)
舘野英樹, 能勢隆, 郡山知樹, 篠崎隆宏, 小林隆夫,
``HMM音声合成のための音節出現頻度にロバストな音素セットの検討,''
日本音響学会2014年春季研究発表会講演論文集, 1-R5-15, pp.409-410. (Mar. 2014)
大西浩之, 能勢隆, 郡山知樹, 小林隆夫,
``HMM音声合成における正規化学習を用いたアクセント誤り削減の検討,''
日本音響学会2014年春季研究発表会講演論文集, 1-R5-16, pp.411-412. (Mar. 2014)
長濱大樹, 能勢隆, 郡山知樹, 小林隆夫,
``共有決定木を利用した話者適応に基づくクロスリンガル音声合成の評価,''
日本音響学会2014年春季研究発表会講演論文集, 1-R5-17, pp.413-414. (Mar. 2014)
鈴木啓史, 郡山知樹, 能勢隆, 篠崎隆宏, 小林隆夫,
``音響モデルと言語モデルを利用したアクセント型・アクセント句境界の同時推定,''
日本音響学会2014年春季研究発表会講演論文集, 1-R5-27, pp.441-442. (Mar. 2014)
郡山知樹, 能勢隆, 小林隆夫,
``スパース近似と畳み込みカーネルを用いたガウス過程回帰に基づく音声合成,''
日本音響学会2013年秋期研究発表会講演論文集, 2-7-12, pp.311-312. (Sept. 2013) [PDF]
郡山知樹, 能勢隆, 小林隆夫,
``音声合成のためのガウス過程回帰を用いたフレームレベル音響モデリングの検討,''
日本音響学会2013年春季研究発表会講演論文集, 1-7-5, pp.271-272. (Mar. 2013) [PDF]
郡山知樹, 能勢隆, 小林隆夫,
``観測値の不連続性を考慮したHMMに基づくF0モデル化の検討,''
日本音響学会2012年春季研究発表会講演論文集, 1-11-6, pp.305-306. (Mar. 2012)
郡山知樹, 能勢隆, 小林隆夫,
``対話音声合成のためのイントネーションラベルのタイミング予測,''
日本音響学会2011年秋季研究発表会講演論文集, 3-8-2, pp.333-334. (Sept. 2011)
郡山知樹, 能勢隆, 小林隆夫,
``二段階モデル適応に基づく対話音声合成の検討,''
日本音響学会2010年秋季研究発表会講演論文集, 2-Q-3, pp.303-304. (Sept. 2010)
郡山知樹, 能勢隆, 小林隆夫,
``HMMに基づく対話音声合成のための発話単位の検討,''
日本音響学会2010年春季研究発表会講演論文集, 3-6-19, pp.143-144. (Mar. 2010)
郡山知樹, 能勢隆, 小林隆夫,
``HMMに基づく対話音声合成の検討,''
日本音響学会2009年秋季研究発表会講演論文集, 1-2-10, pp.255-256. (Sept. 2009)
郡山知樹, 村上百合, 山口雅浩, 小尾高史, 大山永昭,
``可視・不可視成分分離とサブサンプリングを用いたマルチスペクトル動画の圧縮符号化方法,''
電子情報通信学会2009年総合大会講演予稿集, D-11-88. (Mar. 2009)

国内研究会

湯舟航耶, 郡山知樹, 高道慎之介, 猿渡洋,
``アクセント潜在変数を用いた方言音声合成における文単位生成の評価,''
電子情報通信学会技術研究報告, vol.121, no.385, SP2021-64, pp.96-101. (Mar. 2022) [official]
中田亘, 郡山知樹, 高道慎之介, 斎藤佑樹, 井島勇祐, 増村亮, 猿渡洋,
``VQVAEによって獲得されたキャラクター演技スタイルに基づく多話者オーディオブック音声合成,''
電子情報通信学会技術研究報告, vol.121, no.282, SP2021-47, pp.42-47. (Nov. 2021) [official] [demo]
高道慎之介, 中田亘, 郡山知樹, 丹治尚子, 井島勇祐, 増村亮, 猿渡洋,
``J-KAC：日本語オーディオブック・紙芝居朗読音声コーパス,''
音学シンポジウム2021. (June 2021)
山下優樹, 郡山知樹, 齋藤佑樹, 高道慎之介, 井島勇祐, 増村亮, 猿渡洋,
``DNNに基づく話し言葉音声合成における追加コンテキストの効果,''
電子情報通信学会技術研究報告, vol.119, no.441, SP2019-61, pp.65-70. (Mar. 2020) [official]
三井健太郎, 郡山知樹, 猿渡洋,
``深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討,''
電子情報通信学会技術研究報告, vol.119, no.398, SP2019-49, pp.31-36. (Jan. 2020) [official]
高道慎之介, 三井健太郎, 齋藤佑樹, 郡山知樹, 丹治尚子, 猿渡洋,
``JVS：フリーの日本語多数話者音声コーパス,''
研究報告音声言語情報処理（SLP）, vol.2019-SLP-129, no.7, pp.1-4. (Ocd. 2019) [official]
秋田祐哉, 大町基, 岡本拓磨, 落合翼, 小川厚徳, 神田直之, 郡山知樹, 鈴木雅之, 太刀岡勇気, 俵直弘, 増村亮, 渡部晋治,
``国際会議ICASSP2019報告,''
研究報告音声言語情報処理（SLP）, vol.2019-SLP-128, no.8, pp.1-6. (July 2019) [official]
郡山知樹, 小林隆夫,
``深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討,''
電子情報通信学会技術研究報告, vol.118, no.497, SP2018-91, pp.179-184. (Mar. 2019) [official][slide]
郡山知樹, 高道慎之介, 小林隆夫,
``GMMNに基づく音声合成におけるグラム行列のスパース近似の検討,''
研究報告音声言語情報処理（SLP）, vol.2019-SLP-126, no.1, pp.1-6. (Feb. 2019) [official][slide]
郡山知樹, 小林隆夫,
``深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討,''
電子情報通信学会技術研究報告, vol.118, no.497, SP2018-91, pp.179-184. (Mar. 2019) [official] [PDF] [slide]
郡山知樹, 高道慎之介, 小林隆夫,
``GMMNに基づく音声合成におけるグラム行列のスパース近似の検討,''
研究報告音声言語情報処理（SLP）, vol.2019-SLP-126, no.1, pp.1-6. (Feb. 2019) [official] [PDF] [slide]
田丸浩気, 齋藤佑樹, 高道慎之介, 郡山知樹, 猿渡洋,
``モーメントマッチングに基づくDNN合成歌声のランダム変調ポストフィルタとニューラルダブルトラッキングへの応用,''
研究報告音声言語情報処理（SLP）, vol.2018-SLP-125, no.20, pp.1-6. (Dec. 2018) [official]
秋田祐哉, 安藤厚志, 岡本拓磨, 小川厚徳, 神田直之, 倉田岳人, 郡山知樹, 篠崎隆宏, 高島遼一, 太刀岡勇気, 藤本雅清, 増村亮,
``国際会議ICASSP2018参加報告,''
研究報告音声言語情報処理（SLP）, vol.2018-SLP-123, no.2, pp.1-7. (July 2018) [official]
郡山知樹, 小林隆夫,
``GPR音声合成における深層ガウス過程の利用の検討,''
電子情報通信学会技術研究報告, vol.117, no.517, SP2017-89, pp.27-32. (Mar. 2018) [PDF] [official] [slide]
高木信二, 倉田岳人, 郡山知樹, 塩田さやか, 鈴木雅之, 玉森聡, 俵直弘, 中鹿亘, 福田隆, 増村亮, 森勢将雅, 山岸順一, 山本克彦,
``国際会議Interspeech2017報告,''
研究報告音声言語情報処理（SLP）, vol.2018-SLP-120, no.14, pp.1-9. (Feb. 2018) [official]
郡山知樹, 小林隆夫,
``GP-DNNハイブリッドモデルに基づく統計的音声合成の検討,''
電子情報通信学会技術研究報告, vol.117, no.393, SP2017-67, pp.5-10. (Jan. 2018) [PDF] [official] [demo] [slide]
峯松信明, 秋田祐哉, 浅見太一, 伊藤信貴, 落合翼, 郡山知樹, 齋藤大輔, 塩田さやか, 篠崎隆宏, 鈴木雅之, 高木信二, 俵直弘, 橋本佳, 樋口卓哉, 福田隆,
``国際会議ICASSP2016参加報告,''
研究報告音声言語情報処理（SLP）, vol.2016-SLP-112, no.5, pp.1-6. (July 2016) [official]
博多屋涼, 篠崎隆宏, 郡山知樹,
``粒子フィルタとガウス過程回帰によるシングルチャネル音源分離,''
研究報告音声言語情報処理（SLP）, vol.2016-SLP-110, no.6, pp.1-6. (Jan. 2016) [official]
増子理菜, 郡山知樹, 小林隆夫,
``音声合成のためのCRF/HMMに基づく自動アクセント推定の評価,''
電子情報通信学会技術研究報告, vol.115, no.392, SP2015-85, pp.1-6. (Jan. 2016) [official]
岡本拓磨, 小川哲司, 落合翼, 柏木陽佑, 亀岡弘和, 木下慶介, 郡山知樹, 齋藤大輔, 篠崎隆宏, 高木信二, 滝口哲也, 太刀岡勇気, 俵直弘, 橋本佳, 藤本雅清, 松田繁樹, 三村正人, 吉岡拓也, 渡部晋治,
``国際会議ICASSP2015参加報告,''
研究報告音声言語情報処理（SLP）, vol.2015-SLP-107, no.3, pp.1-7. (July 2015) [official]
郡山知樹, 能勢隆, 小林隆夫,
``ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討,''
電子情報通信学会技術研究報告, vol.113, no.404, SP2013-99, pp.19-24. (Jan. 2014)
鈴木啓史, 郡山知樹, 能勢隆, 篠崎隆宏, 小林隆夫,
``言語モデルと音響モデルを利用したアクセント境界の自動推定,''
電子情報通信学会技術研究報告, vol.113, no.366, SP2013-89, pp.97-102. (Dec. 2013)
能勢隆, 金本美沙, 郡山知樹, 小林隆夫,
``多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討,''
電子情報通信学会技術研究報告, vol.112, no.422, SP2012-111, pp.79-84. (Jan. 2013)
前野悠, 能勢隆, 小林隆夫, 郡山知樹, 井島勇祐, 中嶋秀治, 水野秀之, 吉岡理,
``多様な韻律生成のための多クラス局所韻律コンテキストの検討,''
電子情報通信学会技術研究報告, vol.112, no.422, SP2012-112, pp.85-90. (Jan. 2013)
郡山知樹, 能勢隆, 小林隆夫,
``韻律イベントHMMを用いた対話音声F0生成,''
電子情報通信学会技術研究報告, vol.111, no.365, SP2011-98, pp.185-190. (Dec. 2011)
郡山知樹, 能勢隆, 小林隆夫,
``日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価,''
電子情報通信学会技術研究報告, vol.111, no.28, SP2011-27, pp.155-160. (May 2011)
郡山知樹, 能勢隆, 小林隆夫,
``平均声に基づく対話音声合成に関する検討,''
電子情報通信学会技術研究報告, vol.109, no.375, SP2009-101, pp.33-38. (Jan. 2010)

著書

日本音響学会編（分担）,
音響学入門ペディア
コロナ社, ISBN978-4-339-00895-1. (Mar. 2017) [official]

Tomoki Koriyama's website

研究業績

論文

国際会議論文

招待論文・解説

国内大会

国内研究会

著書

コンテンツ

連絡先

リンク