工学的な音声分析の基礎:声は「一本の線」ではない
VoiceMindが声をどのように工学的に分解し、36指標として可視化しているかを解説します。基本周波数、倍音、フォルマントなど、声の物理的構造を理解するための基礎知識をまとめています。
はじめに
VoiceMindは、声をデジタル信号として計測し、その物理的な特徴をもとに「12の心理的傾向 × 3つのレイヤー = 36指標」というかたちで、今の状態の傾向を見える化するチェックツールです。
ここでは、その前提になる工学的な視点――声をどのように分解しているか、「高さ」や「声質」の違いをどのように説明できるか、VoiceMindがどのような方針で特徴量を扱っているか――を整理します。
声を信号として扱う:時間と周波数
マイクで取り込んだ声は、時間とともに変化する電気信号です。サーバー上では、これをサンプリングして数列として扱い、時間軸上の変化(波形)と周波数軸上の分布(スペクトル)という二つの視点で解析します。
一定の高さで何かを発声したとき、耳には一本の音として聞こえますが、周波数解析をすると、そこにはある基準となる周波数、その倍数付近の成分、その他の細かな成分やノイズがまとまった「周波数のかたまり」として現れます。
VoiceMindの内部でも、まずは音声を短い時間ごとに区切り、それぞれの区間に対してフーリエ変換を行い、時間と周波数の両面からデータを取得しています。
基本周波数と倍音:高さの「芯」になる成分
声帯は周期的に開閉を繰り返します。この周期に対応する周波数が、声の基本的な高さを決める「基本周波数」 f₀ です。
ただし、声帯の振動は単純な正弦波ではありません。波形に角や非対称性があるため、フーリエ変換を行うと、基本周波数 f₀ に加えて 2f₀、3f₀、4f₀… といった整数倍の周波数成分(倍音)が並んで現れます。
このとき、いちばん低い周波数成分が「基音」、それ以外の整数倍成分が「上音」あるいは「倍音」として扱われます。
「高さ」の感覚に直接対応するのはこの基本周波数ですが、実際の聞こえ方は、倍音を含めたスペクトル全体の構造によって大きく変わります。
声質と「高く/低く聞こえる感覚」とフォルマント
声帯から出た音は、そのまま外に出るのではなく、咽頭・口腔・鼻腔といった空間を通る中で、特定の周波数帯域が強調されたり、逆に弱められたりします。このとき、特にエネルギーが集まっている周波数帯域をフォルマントと呼びます。
母音を持続して発声した音を周波数解析すると、基本周波数と倍音列に加えて、いくつかの帯域で山になっている部分が観測されます。周波数の低い方から、第一フォルマント F₁、第二フォルマント F₂、第三フォルマント F₃… として扱います。
フォルマントの位置と強さは、舌の位置、口の開き具合、声道全体の長さや形状などによって変化し、「どの母音か」と「その人の声がどのような響きに感じられるか」を決める要素になります。
帯域構造がユーザー体験とつながるポイント
声の高さそのものを決めるのは基本周波数 f₀ ですが、「高く聞こえるか」「低く聞こえるか」「明るいか」「落ち着いているか」といった印象は、フォルマントを含む帯域構造との組み合わせで決まります。
声帯の振動としては低めでも、高めの帯域に十分なエネルギーがあれば軽く明るい声に感じられますし、逆に基本周波数はそこまで低くなくても、エネルギーが低域〜中域に偏っていれば、落ち着いた、ややこもった印象の声として知覚されます。
この「帯域構造の差」は、VoiceMindの画面上では、36指標のうちどの軸がどの程度立ち上がるか、タイミングや状況ごとに同じ人の傾向がどう変化して見えるか、という形で現れてきます。
VoiceMindが実際に見ているもの
VoiceMindの内部処理は、大まかに次のような流れです。
- 音声を短い時間ごとのフレームに分割する
- 各フレームに対してフーリエ変換を行い、周波数分布(スペクトル)を求める
- 周波数帯域ごとのエネルギーバランスや、その時間的な変化、安定度などを数値化する
- それらを統計的にまとめ、「傾向」として36指標に再配置する
まとめ:物理的な声の構造と、状態を見るためのフレーム
声は、一見一本の音に聞こえても、実際には多くの周波数成分からなる信号として観測できます。声の高さは主に基本周波数が決めますが、印象としての「高い/低い」「明るい/落ち着いた」は、フォルマントや倍音を含む帯域構造との組み合わせで決まります。
「通りやすさ」や「こもり感」も、音量だけでなく、周波数帯ごとのエネルギーバランスとして説明できます。
VoiceMindは、こうした工学的特徴量をラベル付けに使うのではなく、36指標として再構成し、「今の傾向」を眺めるためのチェックツールとして提供しています。