심볼릭 자료 중 하나인 구간형 자료는 모든 관측값에서 단일 값이 아닌 구간을 값으로 취하며, 관측값 내에 변동이 존재한다는 특징을 갖는다. 주성분 분석은 자료의 분산을 최대로 설명하여 자료의 차원을 축소하는 방법이므로 구간형 자료의 주성분 분석은 관측값 간의 분산 뿐만 아니라 관측값 내의 분산 역시 설명하여야 한다. 본 논문에서는 구간형 자료의 세 가지 주성분 분석법을 소개하고자 한다. 또한 기존의 분위수 방법에서 균일분포를 사용하는 것이 아니라 구간의 중심점 부근이 좀 더 많은 정보를 가지고 있는 것으로 보고 절단정규분포를 사용하는 방법을 제안하였다. 모의실험과 OECD 관련 실제 통계 자료를 통하여 각 방법의 결과를 비교해 보았다. 마지막으로 분위수 방법의 경우 화살표 표현법을 통해 주성분 산점도를 그리고 분위수들의 위치와 분포를 확인하였다.
호텔 리뷰 데이터에는 소비를 이끈 구매 요인, 호텔에 대한 장점 및 단점 등 다양한 정보를 추출할 수 있다. 특히, 리뷰 데이터의 감성 키워드는 소비자들이 호텔에 관해 이야기하고 있는 평가 및 반응 등의 주요 내용을 파악하는 데 도움을 준다. 하지만 많은 양의 리뷰 데이터를 소비자가 직접 살펴보기에는 효율성이 떨어진다. 이를 위해 리뷰 데이터를 요약하는 기술이 요구된다. 본 연구에서는 기존의 감성 키워드 관계망을 구축하는 연구에 더 나아가, 이와 관련된 호텔에 대한 정보까지 동시에 제공하고자 한다. 이를 위해 호텔 도메인에 적합한 감성 키워드 사전을 구축하고, 이를 바탕으로 위상학적 데이터 분석 기반의 맵퍼(topological data analysis based mapper)를 통해서 감성 키워드 기반의 호텔 관계망을 구축한다. 구축된 관계망을 ...
장대흥 ( Dae-heung Jang )한국통계학회, 응용통계연구[2020] 제33권 제1호, 87~105페이지(총19페이지)
통계공학은 실험계획법, 품질관리/품질경영, 신뢰성공학으로 구성된다. R은 무료로 개방되어 있는 통계패키지로서 통계모형, 통계 계산 및 통계 그래픽 관련 패키지가 방대하다. 우리는 이러한 R 패키지를 통계공학을 위한 기본 통계패키지로 유용하게 사용할 수 있다. 본 논문에서는 통계공학을 위한 R 패키지 응용을 살펴보고 통계공학 관련 CRAN Task Views가 필요함을 제안하였다.
고낙경 ( Nak Gyeong Ko ) , 하일도 ( Il Do Ha ) , 장대흥 ( Dae Heung Jang )한국통계학회, 응용통계연구[2020] 제33권 제1호, 107~114페이지(총8페이지)
자연 재해로부터 관측되는 자료를 대상으로 재현 수준 예측 등과 같은 자료 분석을 위해 일반화 극단값 분포(generalized extreme value)가 자주 사용되어 왔다. 표본 수가 충분히 큰 경우 연속적인 블록 최댓값들은 점근적으로 일반화 극단값 분포를 따른다. 하지만 소표본인 경우 이러한 사실은 성립되지 않을 수도 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 모형 적합도 검정 및 모형 선택을 통해 로그-로지스틱(log-logistic) 분포의 사용을 제안한다. 하나의 예증으로서 중국 지진 자료를 대상으로 하여 로그-로지스틱 분포를 이용하여 재현 기간별 재현 수준 예측 및 신뢰구간을 제시한다.
조성훈 ( Seonghun Cho ) , 장원철 ( Woncheol Jang )한국통계학회, 응용통계연구[2019] 제32권 제6호, 783~794페이지(총12페이지)
현재 한국기원의 기사랭킹제도는 체스 계에서 널리 사용되는 Elo rating system에 기반을 두고 있다. 또한 대국에서 6집반의 덤에도 불구하고 여전히 많은 기사들이 흑을 선호하며 실제로 흑을 든 기사가 높은 승률을 보이고 있다. 이 연구에서는 Bradley-Terry model을 통하여 실제 흑의 효과를 고려한 랭킹을 산출하여 현재 사용되고 있는 Elo rating system과 비교 분석한다.
최근 다양한 분야에서 ‘빅데이터’가 생성되었다. 많은 기업들은 인공지능(AI)을 기반으로 빅데이터 분석이 가능한 시스템을 구축하여 이익 창출을 시도하고 있다. 인공지능 기술을 접목함으로써 방대한 양의 데이터를 효율적으로 분석하고 효과적으로 활용하는 것은 점점 더 중요해지고 있다. 특히 재무, 조달, 생산 및 마케팅과 같은 다양한 분야에서 국가 및 기업 경영 관리에있어 최소의 오차와 최대의 정확도를 갖춘 수요예측은 절대적으로 중요한 요소이다. 이때 각 분야의 수요패턴을 고려한 적절한 모델을 적용하는 것이 중요하다. 전통적으로 쓰이는 시계열모델이나 회귀모델로도 비대해진 실제 데이터의 복잡한 비선형적인 패턴을 분석할 수 있다. 그러나 다양한 비선형 모델들 중에서 적절한 모델을 선택하는 것은 사전 지식 없이는 어려운 일이다. 최근에는 인공지능 기반의 기법들인...
신현수 ( Hyun Soo Shin ) , 서병태 ( Byungtae Seo )한국통계학회, 응용통계연구[2019] 제32권 제6호, 837~849페이지(총13페이지)
일종의 혼합다항분포 모형이라고 볼 수 있는 잠재범주모형은 범주형 자료에서 직접 관측되지 않은 중요한 정보를 얻어낼 수 있는 유용한 도구이다. 하지만 자료에 범주형 변수 뿐 아니라 연속형 변수 혹은 빈도형 변수가 함께 포함되어 있을 경우 이 모형을 직접적으로 사용할 수 없다. 본 논문에서는 특히 범주형 변수와 빈도형 변수가 함께 포함되어 있는 경우에 잠재범주모형인 혼합모드 잠재범주모형을 사용하여 텍스트 후기와 범주형 응답문항이 모두 포함된 의약품 사용 후기자료를 분석하였다. 이 분석을 통해 범주형 응답만을 사용한 보통의 잠재범주 모형에 비해 텍스트 자료를 함께 사용한 혼합모드 잠재범주모형을 사용했을때 잠재범주에 대한 보다 자세한 정보를 얻을 수 있는 것을 확인하였다.
하나의 시계열 자료에서 다양한 특징을 발견하는 일은 간단한 문제가 아니다. 본 논문에서는 하나의 시계열 자료에서 복수의 패턴을 찾아내어 예측 정확도를 높이는 방식인 다중 결합 예측 알고리즘을 소개한다. 이 알고리즘은 시간적 결합과 예측값 조합의 개념을 사용한다. 시간적 결합 방식을 통해, 하나의 시계열 자료에서 여러 개의 시계열 자료를 생성할 수 있으며, 각각의 자료는 별도의 특성을 가지게 된다. 여러 개의 시계열 자료에서 다양한 특성을 추출하기 위하여 지수평활법을 사용하고 시계열 요소들 및 이들의 예측값을 계산한다. 마지막 단계에서 시계열 요소 별로 예측값을 혼합 한 후, 각 시계열 요소들의 조합값을 더하여 최종 예측값을 만든다. 실증 분석으로 국내 교통사고 발생 건수를 예측한다. 분석 결과, 기존의 다른 예측 방식보다 예측 성능이 우수함을 확인할 수...
김혁주 ( Hyuk Joo Kim )한국통계학회, 응용통계연구[2019] 제32권 제6호, 867~878페이지(총12페이지)
본 논문에서는 Victorbabu (2005)가 소개한 수정기울기회전성을 제2종의 중심합성설계에 적용하여, 관련된 내용을 연구하였다. 이 성질을 갖는 제2종 중심합성설계를 구하는 방법을 제시하였다. 특히 Box-Hunter의 회전성을 갖는 제2종 중심합성설계에 축값의 변동 없이 실험점을 추가함으로써 수정기울기회전성을 갖는 설계를 만들 수 있으므로 축차적 실험에 이용할 수 있다는 장점이 있다. 두 가지의 예를 통해서 수정기울기회전성을 갖는 제2종 중심합성설계를 설명하였다.
본 연구에서는 이표본 구간 자료의 확률적 순서 검정 절차를 제안한다. 제안하는 검정 통계량은 U-통계량에 해당하며 본 연구에서는 이에 대한 점근적 분포를 귀무 가설 하에서 유도하였다. 실제 자료와 모의 실험을 통해 새로 제안한 방법의 성능을 단측 이변량 Kolmogorov-Smirnov 검정법과 비교한다.