태그 보관물: 빈도분석

[Text Analysis] 사라져 가는 디자인 어휘?

1997~2020년 디자인 학술 말뭉치에서 첫 출현, 마지막 출현 어휘 수 변화 (한 해 출현 어휘 제외)

작년에 박사학위 논문을 쓰면서, 인과관계를 정확히 따지자면 말뭉치(corpus)를 어느 정도 만든 뒤에 학위 논문을 쓰기로 결정한 것이지만, 디자인 분야의 한국연구재단 등재지 중 종합 학술지 3종(디자인학연구, 한국디자인문화학회지, 한국디자인포럼)에 2018년까지 게재된 한글 논문을 말뭉치로 만들었다. 얼마 전에 2020년 게재분까지 업데이트했고, 현 말뭉치를 만드는 데 사용된 논문 수는 총 7,209편이다.
내가 궁금한 건 디자인 분야의 언어 전반이 아닌 한글 용어의 사용 양상이고 용어는 일반적으로 명사형이기 때문에 사전 만드시는 분들처럼 형태소 분석을 정교하게 해 놓은 상태는 아니다. 형태소 분석에는 Mecab-kr을 사용했고, 사용자사전을 만들어서 추가했다. 사실 형태소 분석 할 때 핵심은 이 사용자사전이 아닌가 싶다. 분절어1를 해결하기 위해 두 어절의 연관성을 측정하는 PMI(Pointwise Mutual Information) 방식도 활용하기는 했지만, 애초에 분절어가 적게 나오는 게 가장 좋으니까. 지금 이 사용자사전에 포함된 단어는 약 4,900개이다. (이 사전은 형태소 분석 과정에서 분절어가 나오지 않게 하는 데 주 목적이 있기 때문에 이 자체를 용어집과 같은 용도로 쓸 수는 없다.)
1 이 글에서 ‘분절어’는 한 어절이 임의로 분절되어 생긴 의미 없는 단어를 말한다. 예를 들어 ‘아이디어’가 ‘아+이+디어’로 분절되거나 ‘서비스가’가 ‘서비+스가’로 분절되는 식이다.

개인적으로 이 말뭉치로 기본적인 빈도 분석이나 토픽 분석을 한 뒤 대시보드 형태로 만들어서 살펴 보고 있는데, 가끔 보면 재밌는 현상들이 있다. 이런 걸 ‘재밌다’고 표현하는 게 이상한가 싶지만.ㅎ 이미 학위논문에 실었던 내용이기는 하지만, 디자인 학술 말뭉치에서 출현 어휘 수 동향이 특히 그렇다.
세 종 학술지가 모두 발행되기 시작한 1997년 이후로 그래프를 편집했지만, 첫 출현 어휘는 이미 그 전부터 그 수가 급격히 줄어들고 있었다. 위 그래프에는 한 해만 출현한 어휘는 포함되어 있지 않다. 다시 말해 연속적이지 않더라도 두 해 이상 사용되는 단어들이 출현하는 경우가 디자인 분야 논문에서는 줄어들고 있는 것이다. 반면 특정 해를 마지막으로 출현하지 않는 어휘는 급격하게 증가하고 있다. 그렇다고 전체적으로 어휘 규모가 줄어들었느냐? 그렇지 않다.

디자인 학술 말뭉치의 연도별 어휘 규모

어휘 규모와 어휘 출현 양상 간에 딱히 상관관계는 보이지 않는다. 2009년을 기점으로 마지막 출현 어휘 수는 첫 출현 어휘 수를 넘어섰다. 이 시기는 아이폰이 처음 출시되고 태블릿PC 시장이 급성장하던 시기와 맞물린다. 최근까지 급격히 사라지고 있는 어휘는 디자인 분야에서 지나간 기술에 대한 혹은 시의성이 큰 단어들일 가능성이 높다. 그러나 기술의 발전, 시대적 변화가 그 이전과는 비교할 수 없을 만큼 빠르기에 첫 출현 단어는 계속해서 감소하고 있는 것으로 보인다. 위 그래프에는 표시하지 않았지만 2017년 이후에는 한 해에만 사용되고 사라지는 어휘가 크게 증가했는데 이 역시 이런 추론에 힘을 실어준다.
그렇다면 모든 해에 꾸준히 등장한 어휘는 디자인 분야의 핵심 어휘로 볼 수 있지 않을까 하는 생각이 들 수도 있지만, 단순히 사용 빈도가 높다고 해서 어휘의 중요도가 높아지는 건 아니어서 여러모로 살펴 봐야 한다. 언젠가는 디자인 분야의 기본 어휘를 찾을 수 있을까? ㅎ