ImageLab News 

이미지랩소식

ImageLab News

이미지랩소식

농생명사이언스 논문초분광영상 분석을 위한 머신러닝 프레임워크

2021년 3월 24일부터 26일까지 진행되었던 

WHISPERS 학회에서 발표되었던 논문을 소개해보고자 합니다.

WHISPERS는 초분광영상 분야에서 권위 있는 학회로, 

코로나 여파로 인해 올해는 온라인으로 진행되었습니다.


오늘은 다양한 주제 중 Qian Cao 외 5인이 발표한

 'HSKL : A Machine Learning Framework For Hyperspectral Image Analysis'를 소개하겠습니다!


일반적으로 통계 기반 알고리듬은

노이즈 제거, 차수 감소, 클러스터링, 분류를 수행하지만

분광 영역의 미묘한 차이를 구별하는데 어려움을 가지고 있습니다.


딥러닝으로 접근하려는 다양한 시도가 존재하지만,

효율적으로 훈련할 수 있는 규모, 즉 매우 방대한 양의 데이터에는 접근하기 쉽지 않죠.


이 논문에서는 개체를 비교적 빠르고 편리하게 식별하고,

제한된 데이터와 최소한의 라벨링으로 분류와 회귀를 수행하며

일관된 인터페이스 및 분류, 회귀, 클러스터링 모델을 확립하고 검증할 수 있는

HSKL 알고리듬(파이썬 패키지 scikit-learn)을 소개하였습니다.


이 알고리즘은 데이터 분석에 대해 유연하면서도 표준화된 워크플로우를 구축하며,

몇 줄의 코드를 추가함으로써 사용할 수 있습니다.

또한 초분광영상을 입력값(input)으로 사용하여 고품질의 픽셀과 영상 레벨의 라벨을 얻고, 

영상 분석을 해낼 수 있습니다.


이 알고리듬에 대한 워크플로우는 Figure1과 같습니다.

Figure1. Overview of features in HSKL and relation to 

hyperspectral image analysis workflow.

① Hyperspectral Acquisition

초분광영상 데이터를 취득합니다.


② Preprocessing, Dimensional Reduction, etc

필수 과정은 아니지만 더 좋은 결과물을 얻기 위해 실시합니다.

예를 들어, 주성분 분석 등 차수 감소를 실시함으로써,

노이즈를 제거하고 데이터의 양을 줄일 수 있습니다.


③ Load Images and Labels

대부분의 알고리듬은 훈련 데이터에 라벨링을 필요로 합니다.

HSKL는 픽셀 수준의 라벨링 및 마스킹을 편리하게 입력할 수 있어 

모델 개발의 속도를 증가시킬 수 있습니다.


④ Estimator Fit 

초분광영상과 레이블을 사용하여 추정을 위한 모델을 훈련시킵니다.

여기에는 분류, 회귀, 클러스터링 알고리듬 등이 포함됩니다.


⑤ Estimator Predict

Fit 단계에서 훈련된 모델은 데이터에 대한 레이블을 예측하게 됩니다.


HSI-learn은 Numpy 어레이와 함께 작동하도록 설계되어 있고,

scikit-learn와 완전히 호환되는 구문을 가지고 있습니다.

분류 모델을 훈련시키는 코드와 코드의 구조는 Figure2와 같습니다.

Figure2. Basic usage for HSKL and visualization of the HSKL codebase


단파장 적외선으로 수집된 데이터를 이용하여 알고리듬을 직접 적용해보았습니다.

 2D InGaAs 열냉각 CCD 카메라(Ninox, Raptor)와  Imspector N17E(Specim) 초분광카메라로 촬영하였고,  

선형 PC 제어 이동식 스테이지(Middle, PC 제어 이동 스테이지), 할로겐 램프 2개를 활용하였습니다.

IDCube(HSPEQ LLC)를 이용하여 초분광 영상을 처리하였으며, 

endmembers의 수는 noise-whitened Harsanyi–Farrand–Chang(NWHFC)으로 수행하여

 endmembers에 대한 맵을 시각적으로 평가하고, 두 endmembers의 최상의 조합을 사용하였습니다.


실제로 물건을 분류해보기 위하여

Figure3과 같이 원형접시, 원심분리관튜브, 동전, 플라스틱렌치를 스캔해보았습니다.

Figure3. Objects in a dataset with the visible camera


그 결과는 바로 Figure4에 나타나있습니다.

원심분리관튜브와 렌치를 분류하기가 쉽지 않아보이는데,

그 이유는 원심분리관튜브와 렌치의 색상은 다르지만 유사한 재질로 이루어졌기 때문입니다.

가시광선 영역에서는 색상을 Blue(B)와 Green(G)으로 구분할 수 있지만,

SWIR 영역에서는 색소가 광학적으로 활성화되지 않아 구분할 수 없습니다.

Figure4. Example image set

Figure4A : 가상의 RGB 영상(1094, 1301, 1475nm)

Figure4B : ROI 영역의 렌치와 튜브의 표준화된 스펙트럼

Figure4C : PCA를 이용한 가상 RGB

Figure4D: Endmembers를 이용한 가상 RGB


HSKL을 적용하기 위해 모델 훈련 및 테스트용 HSI 데이터 세트 획득하고, 

MATLAB의 Image Labeler를 이용하여 수동으로 분할하였습니다.

그리고 아래의 식을 이용하여 스펙트럼 영역의 power 정규화를 적용하였습니다.

정규화 후 PCA를 적용한 결과,

스펙트럼 차수가 510채널에서 19채널로 감소하였고(80% 감소),

고유벡터 이용를 이용하여 테스트영상을 동일한 공간으로 변환한 후에

모델 훈련과 테스트 HSKL를 사용하여 수행하였습니다.


비교를 위해 적용한 모델은 

LDA, Ridge, AdaBoost, Linear SVC, SGD, Bagging, Logistic Regression, 

SVC, Bernouli 및 Gaussian Naveve Bayes (NB), MLP,  결정 트리, QDA, 

Gradient Boosting, Extra Tree, 랜덤 포레스트, kNN 으로 총 17가지 이며, 

동일한 변수값으로 훈련하였습니다.


모델을 예측한 결과, Figure5에서 보는 바와 같이

원심분리관튜브의 오분류가 가장 심각하게 나타났습니다.

  위에서 말했듯이 대부분 분류 모델은 분광 특성에 기초하여  두 물체를 분류하게 됩니다.

그러나 렌치와 원심분리관튜브의 재질과 성분은 유사하기 때문에 

원심분리관이 렌치로 분류되는 경우가 존재합니다. 

다양한 방법 중 Extra Trees, Gradient Boosting,   Random Forest, SVC 및 kNN에서 

최상의 시각적 분리를 수행해냈습니다.

Figure5. Ground truth label and model-predicted labels based on pixel spectra


이 모델 테스트의 성능을 알아보기 위해

랜치와 비랜치, 동전과 비동전처럼 한 객체와 다른 객체를 비교하는

이진 1-vs-rest fashion 방법을 이용하였습니다.


Figure6에서 정밀도, Recall, F-score를 확인할 수 있으며,

모든 개체에 대해 높은 점수를 갖는 알고리듬이 화살표로 표시되어있습니다.

여기서는 Extra Trees, Gradient Boosting, 

Random Forest, SVC 및 kNN 알고리즘에서 좋은 결과가 나왔습니다.


렌치와 원심분리관튜브의 상관계수는 0.93, 렌치와 원형접시의 상관계수는는 0.86으로 도출되었는데, 

렌치와 원형접시의 상관 계수가 높은 이유는 두 제품 모두 반투명하여 비슷한 특성을 보이기 때문입니다.

Figure6. Precision, recall and F-score for all methods and objects, using default classifier parameters.


HSKL은 초분광영상에 범용 머신러닝 알고리듬을 적용하기 위한 소프트웨어 패키지로, 

매개 변수의 조정이 없어도 대부분의 알고리듬의 기준 성능은 테스트영상에서 분류를 수행합니다.

Github에서 사용할 수 있으며 Pypi를 통해 설치가 가능하고,

클러스터링 및 변수 조정 등과 같이 더 많은 기능이 필요한 영상분류와 회귀알고리듬도 지원된다고 합니다.

적은 양의 데이터로 학습을 진행할 때 참고할 만한 논문이라고 생각됩니다.

기회가 된다면 이 알고리듬을 실제로 적용해보고, 그 결과도 공유해보도록 하겠습니다.

많은 관심과 응원 부탁드립니다!


※ 참고문헌 출처

· Qian cao et al, 2021, HSKL: A MACHINE LEARNING FRAMEWORK FOR HYPERSPECTRAL IMAGE ANALYSIS, whispers2021


Image Lab 이미지랩

본사 경기도 과천시 과천대로7길 33, A동 7층 710호

(갈현동, 디테크타워 과천)

연구소 경기도 성남시 수정구 창업로 43,

판교글로벌비즈센터 B1013호

Tel. 031-757-9472 Fax. 031-759-1489

Image Lab 이미지랩

본사 경기도 과천시 과천대로7길 33, A동 7층 710호(갈현동, 디테크타워 과천)

연구소 경기도 성남시 수정구 창업로 43, 판교글로벌비즈센터 B1013호

Tel. 031-757-9472 Fax. 031-759-1489  E-mail. imagelabinc@gmail.com