A Method of the Breast Cancer Image Diagnosis Using Artificial Intelligence Medical Images Recognition Technology Network

Daewon Kwak♦ , Jiwoo Choi* and Sungjin** Lee

Abstract

Abstract: The recent advance of image recognition technology comes from the accumulation of numerous data and deepening of neural network. However, training these various data on a deep neural network causes various problems. Overfitting caused by a small amount of data, class imbalance resulting from the difference in the amount of data between classes, and multi-class training problems. This paper found and analyzed these problems occurring in such small data sets, and suggested solutions and analyzed the performance through experiments. For these goals, we compared open small data sets and the differences between them and selected the training techniques that perform well for each dataset.

Keywords: Breast cancer , Image recognition , segmentation , Classification

Ⅰ. 서 론

최근 인공지능 기술은 크게 발달하여[1-5] 다양한 분야에 적용되고 있다. 특히 이미지 인식 분야에서 인공지능의 성능 발전이 두드러지고 있으며 이미 이런 기술들은 자율주행, 로봇, 메타버스, 산업 자동화, 스마트 시티, 의료 및 헬스케어 등 다양한 분야에 적용되고 있다. 특히 의료 영상 진단 분야는 기존에 진단 보조도구로 사용되고 있는 다양한 의료 영상 기기들 초음파(Ultrasound), 자기공명영상 (Magnatic Resonance Imaging), 컴퓨터단층촬영 (Computed Tomography), 맘모그래피 (Mammography), 내시경 카메라 등 여러 기기에서 촬영되는 영상 정보를 통해 이미지 분류 기술 및 이미지 탐지기술, 이미지 분할 기술들에 기반한 당뇨망막병증 (Diabetic Retinopathy) 진단[6,7], 위장 질환 감지 (Gastrointestinal (GI) Diseases Detection)[8-10], 심장 질환 진단 (Heart Disease Diagnosis)[10-13], 종양 감지 (Tumor Detection)[14-16], 알츠하이머 및 파킨슨 질환 탐지 (Alzheimer’s and Parkinsons Diseases Detection)[19,18] 등에 적용되고 있으며, 해당 환부의 위치까지 도출할 수 있도록 활용되고 있다. 이런 의료 분야의 인공지능 적용은 신약개발 분야에도 적용되고 있어[19,20] 향후 의료, 헬스케어 분야는 인공지능으로 인한 기술 르네상스을 맞이할 것으로 예상한다.

하지만, 이런 의료 인공지능 기술 발전에 필수 구성 요소인, 대규모 데이터셋 구축은 많은 비용을 요구하고 개인 민간 정보를 담고 있어 지금까지 해당 데이터셋은 인공지능 기술 발전을 일으키기에 부족하였다. 그럼에도 불구하고, 최근 이런 의료 인공지능 기술을 활용한 연구가 학계, 산업계 뿐 아니라 정부에서도 활발히 진행됨에 따라 대규모 투자를 통한 데이터 셋 구축이 이루어지고 있으며, 관련 법규 또한 개정되고 있다.

본 논문은 인공지능 의료영상인식 기술을 활용하여 유방암 진단을 하는 기법에 대해 연구하였다. 이를 위해 맘모그래피, 초음파, 조직병리 (Histopathology) 이미지를 사용하여, 이미지 분류 기법과 이미지 분할 기법을 통해 유방암 분류와 해당 환부 위치를 추론하는 과정의 정확도 향상을 위한 기법들을 연구하였다. 즉, 성능 최적화를 위해 여러 이미지 분류 기술 및 이미지 분할 기법들과 관련 손실함수들 중에 각 의료영상 데이터 별 최적의 기술을 선별하였고, 해당 성능 최적화를 위한 데이터 증강 기법을 제시하였다.

Ⅱ. 관련 연구

연구 [21]에서는 맘모그래피 영상의 이미지 분류 작업에서의 데이터 증강 기술에 대해 전반적으로 연구하였다. 특히 사용 가능 데이터 셋의 종류와 특징에 대해 정리하였다. 연구 [22]에서는 맘모그래피 영상의 이미지 분류 정확도 향상을 위한 데이터 셋 분석을 다루었으며, 특히 특성상 규모가 작은 의료 데이터 셋에서의 데이터 증강 방식에 대해 조사하였다. 연구 [28]에서는 맘모그래피를 이용한 CWP (Coal Workers’ Pneumoconiosis) 분야의 데이터 증식을 다루었다. 연구 [29]에서도 맘모그래피영상에서 영상분류를 위한 데이터 증식 방안에 관한 다양한 연구를 수행하였다. 하지만, 이런 타 의료분야의 맘모그래피 영상 분석 연구들 [23,24]은 유방암 진단과 같은 다른 부분 영상인식에 적용에 있어서 성능 제약이 발생할 수 있게 되어, 도메인 변화에 따른 추가 검증이 필요하다.

연구 [25]에서는 의료 유방암 진단영상의 다양한 분할 기법들을 전통적 방식 (region, threshold, edge 방식), 머신러닝 방식 (지도, 비지도, 딥러닝 방식들)으로 분류하였고 맘모그래피 이미지를 위해서는 딥러닝 기반의 방식들이 전통적인 방식들에 비해 전처리, 후처리 과정이 필요없기 때문에 더 유리하다는 것을 입증하였다. 연구 [26,27]에서는 맘모그래피 유방영상에서 종양 부위를 분할하기 위한 방법론에 대해 제시하였다. 특히 연구 [26]에서는 다양한 모델과 손실함수를 바꿔가면서 최적의 조합을 찾고자 하였다.

본 논문에선 유방암 진단을 위해 사용되는 전체 의료기기 영상들, 즉, 맘모그래피, 초음파, 병리 이미지, 자기공명영상 들이 진단 과정에서 어떻게 활용되는지 각 절차에 대해 알아보았다. 특히 일반병원에서 주로 사용하는 맘모그래피, 초음파, 병리이미지를 대상으로 각 의료 절차적 특징들에 기반하여 적합한 영상인식 기술들을 도출하였고 오픈 데이터 셋을 통해 다양한 모델 및 데이터 증식 방법들에 기반하여 성능을 검증하였다. 최종적으로는 이들 중 성능 최적화를 위한 최적 조합 적용 방안에 대해 제시하였다.

Ⅲ. 유방암 진단 과정 및 관련 영상 인식 기술

3.1 유방암 진단 과정

딥러닝 기반 유방암 진단 기술을 제안하기에 앞서 기본적으로 의사들이 의료 영상 기기들을 통해 유방암을 진단하는 과정을 소개하고 그 과정 속에서 기술적으로 발전될 수 있을 부분에 대해 논의하고자 한다.

그림(Fig.) 1.
유방암 진단 과정 (Process of breast cancer diagnosis)

그림 1은 이런 유방암 진단과정을 나타내었다. 우선 유방암은 진단 가능 영상 기기 종류에 따라 두 가지 타입으로 구분된다. 첫번째는 석회동반 유방암 발병 타입이며 두 번째는 덩어리 짐으로 발생되는 유방암 발병 타입이다. 이들은 각각 고유의 물리적 특성으로 인해, 각기 다른 영상진단 방법들, 즉, 맘모그래피 및 초음파 검사를 수행해야 발견될 수 있다. 하지만, 이들 영상진단 방법은 모두 정확한 진단 방법이 될 수 없고 단지 예측을 수행하는 단계이기 때문에, 정확한 진단을 위해서는 위 단계에서 대략적인 유방질환 부위를 예측하여 해당 부위를 생검하는 조직병리검사 단계, 및 수술을 통한 최종 병기진단 및 제거 단계가 뒤 따라야 한다. 이를 정리하면 다음과 같다.

(1) 맘모그래피 검사를 통해 석회동반 유방암 발병진단 (유방암 발병 가능성) 및 의심부위 위치 진단

맘모그래피 검사는 그 물리적 특성상 석회성분이 동반된 유방암을 검출하기에 용이하다. 이는 초음파 영상 검사에서는 검출되기 힘든 질환이므로 석회동반 유방암 발병진단을 위해서 맘모그래피검사를 거쳐 예측한다. 해당 검사는 환부에 대한 종방향, 횡방향 맘모그래피 검사를 통해 좀 더 다양한 데이터를 통해 환부에 대한 상태 진단, 의심 부위 위치 진단 예측을 수행한다. 이 역시 의심부위의 크기 및 상태에 따라 부정확할 수 있기 때문에 유방암 및 종양의 발병 가능성 만을 판단할 수 있다.

이에 대한 발병진단 예측 결과로 증상 경중에 따라 BI-RADS Category 0-6[28]에 기반한 결과를 얻을 수 있으며 이 결과에 따라 추후 절차가 달라진다. 이들 중 BI-RADS Cat0-3에 해당하는 결과를 보일 시, 즉, 음성 (Negative), 양성 (Benign), 아마도 양성 (Probably Benign)의 결과에서는 3-6개월 정도 뒤의 추후 재검을 진행한다. 만약 BI-RADS Cat4-6에 해당하는 결과 인악성 (Malignant)을 의심할 만하면 이에 대한 결과를 확인하기 위한 초음파 검사를 진행하고 (3)단계인 Core Biopsy 혹은 Needle Localized Biopsy를 진행하여 최종 진단, 즉 악성 유무를 판단한다.

(2) 초음파 검사를 통해 덩어리 타입 유방암 발병진단 (유방암 발생 가능성), 의심 부위 위치 진단

석회동반 유방암 이외에 덩어리 타입 유방암 진단에는 초음파 검사가 물리적 특성상 검출에 용이하다. 초음파 이미지는 그 형태가 가변적이고 부정확해서 육안으로 식별하기가 쉽지 않다. 그러므로 의사들조차 해당 환부의 초음파 촬영 영상을 녹화하여 다시 보기도 한다.

이 초음파 검사는 이전 (1) 단계에서 진행된 맘모그래피 검사 확인용 초음파와는 다른 검사로서 맘모그래피 검사결과와는 무관하게 환부를 전체적으로 확인하여 BI-RADS Cat0-6 에 기반한 결과를 확인한다. 만약 BI-RADS Cat0-3 의 결과를 확인하면 (1) 맘모그래피 검사단계와 동일하게 3-6개월 정도의 추후 재검을 진행한다. 만약 BI-RADS Cat4-6에 해당하는 결과 인 악성 (Malignant)을 의심할 만하면 이에 대한 결과를 확인하기 위한 (3) 단계 Core Biopsy를 통한 조직병리 검사를 진행하여 최종 진단, 즉 악성 유무를 판단한다.

(3) 의심 부위에 대한 조직병리 검사 진단

앞의 단계에서 유방암 발병 가능성에 대한 확률이 높다면 의심 부위를 생검 하여 조직병리 검사를 한다. 이는 의심부위의 일부 세포를 채취하고 슬라이싱 하여 병리 검사를 수행하는 단계이다. 이 단계에서 의심 부위를 제대로 채취하기만 하면, 유방암 진단 오류 확률이 가장 낮은 검사이기 때문에 이를 통해 꽤 정확한 악성 유무를 판단할 수 있다. 하지만, 의심 부위에 대한 세포 채취를 못하였다면 유방암 발병 진단을 놓칠 수 있으므로 앞 (1)-(2) 단계에서의 진단 예측, 위치 예측들이 정확하게 이루어져야 한다. 해당 단계에서 암에 대한 진단이 바르게 이루어졌다면 수술을 포한한 적절한 처방이 이루어질 수 있다.

(4) 부가적인 검진 및 수술

수술에 앞서서는 자기공명영상 검진을 추가적으로 진행하여 하여 종양의 크기를 정밀하게 체크한다.

사실 앞 단계에서 유방암의 의심부위에 대한 판단이 이루어졌다 할지라도, 발견되지 못한 군소 악성 세포들이 병변 주변에 존재할 가능성은 존재한다. 그러므로, 실제로는 확인된 병변영역 주변부 (3~5cm) 까지 절제하여 시술된다.

앞의 유방암 진단과정을 통해 확인할 수 있듯이, 가장 최종적이고 정확한 진단은 (3) 단계를 통한 조직병리 검사를 통해야 한다. 하지만 앞 (1)(2)에서 정확하게 위치가 예측되지 않으면 (3) 단계에서 잘못된 조직을 생검하게 되어 잘못된 검진 결과를 얻게 된다. 즉, (1)(2) 단계에서 의심이 되는 조직을 발견하였음에도 (3) 단계에서 발견되지 않는다면 (1)-(3) 단계를 반복하게 되는데, 이는 환자의 불필요한 스트레스 및 비용 증가를 일으킬 수 있으므로 딥러닝 영상인식기술의 발전은 위 (1)-(3) 단계에서의 진단 정확도를 높이는 중요한 수단이 될 수 있으며, 불필요한 검사들을 반복함으로서 발생하는 환자들의 고통 및 비용을 감소시킬 수도 있게 된다.

3.2 유방암 영상진단 관련 영상인식 기술

위 단계에서 보듯이 (1) 맘모그래피 검사, (2) 초음파 검사 단계에서는 암 진단 뿐 아니라 해당 환부의 위치 파악이 중요한 이슈가 된다. 반면 (3) 병리 조직 단계에서는 이미 의심 부위가 파악되어 해당 부위에 대한 생검이 진행되어 채취된 세포이므로 병 진단이 더 중요하게 된다. 그러므로 본 연구에서는 표 1과 같이 각 의료 영상 데이터 별로 영상인식 기술을 적용하여 그 성능 검증 및 최적화 전략을 수립하였다.

표(Table.) 1.
의료 영상 별 영상인식 기술 및 데이터셋 (Image Recognition Technique and dataset for each medical images)

이미지 분할 및 이미지 분류 기술에서의 세부 모델은 인용횟수 기준 가장 널리 사용되는 딥러닝 기반 모델들을 기준으로 가장 높은 성능을 갖는 모델들을 선택하였다. 적용되는 데이터 셋은 공개되어 있는 데이터셋 중에 가장 사용이 용이한 데이터 셋들을 기준으로 하였다[29-31].

다음 장에서는 이런 사용 데이터 셋과 이를 진단하기 위한 세부 영상인식 기술들과 적용되는 데이터 증식 방안에 대해 소개한다.

Ⅳ. 유방암 진단 과정 및 관련 영상 인식 기술

4.1 맘모그래피 데이터 셋

맘모그래피 데이터 셋으로 본 논문에서는 CBIS-DDSM 데이터 셋[29]을 사용하였다. 본 데이터셋은 맘모그래피 이미지에 유방암 양성 종양, 악성 종양, 정상이 포함된 데이터 셋으로 1566명의 환자의 종양 정보를 포함하고 있다. 양성 (benign) 이미지는 약 4090 종, 악성 (malignant) 이미지는 4090종, 일반 (normal) 이미지는 2040으로 총 10,239종의 이미지로 구성되어 있다.

4.2 초음파 데이터 셋

초음파 이미지 데이터 셋으로는 BUI(Breast Ultrasound Images)[30]을 사용하였다. 이 데이터 셋은 유방 초음파 이미지에 유방암의 종양, 석회화 초기 징후가 포함되어 있는지를 판별하는 데이터 셋이다. 양성 (benign) 이미지는 891 종, 악성 (malignant) 이미지는 421 종, 일반(normal) 이미지는 266으로 총 1,578 종의 이미지로 구성되어 있다.

4.3 병리 이미지 데이터 셋

병리 이미지 데이터 셋으로는 BHI(Breast Histopathology Images)[31]을 사용하였다. 이 데이터셋은 유방 병리 이미지에 침습성 관암종 (IDC : Invasive Ductal Carcinoma) 이 포함되어 있는지를 판별하는 데이터 셋이다. 양성 (benign) 이미지는 198,738 종, 악성 (malignant) 이미지는 78,786 종으로 총 277,524 종의 이미지로 구성되어 있다.

그림 2에서도 알 수 있듯이, 이미지 분할 기술 적용 시, 전경, 즉 종양 부분과 배경 부분 간 크기 차이, 즉, 클래스 불균형아 매우 심함을 알 수 있다. 맘모그래피 이미지와 마찬가지로 이는 분할 성능에도 영향을 미치며, 본 논문에서는 이를 해소하기 위한 다양한 Loss 함수가 고려되었다.

그림(Fig.) 2.
유방암 진단에 사용되는 의료영상데이터의 예시 (Example of Medical Image Data used for Breast Cancer Diagnosis)

Ⅴ. 유방암 진단을 위한 의료 영상인식 기술 모델

ILSVRC 의 ImageNet 데이터 셋은 1000개의 클래스, 120여만개의 훈련 이미지를 포함하는 대단위 데이터셋이다. 이런 대단위 데이터 셋에 최적화 되어 설계되는 이미지분류 네트워크 들은 더 높은 정확도를 갖추기 위해 시간이 지날수록 더 심층으로 설계되었다. 하지만, 이들 네트워크로 실제 상황의 작은 개수의 클래스 수를 갖는 데이터 셋에서 동작시키면 심각한 과적합 (Over-Fitting) 현상이 발생한다[32]. 그러므로, 본 연구에서 대상으로 하는 유방암 진단을 위한 이미지 분류 문제에서는 클래스의 총 개수가 2개 (양성, 악성) 이고, 총 이미지 수가 수백~수만장에 불과하므로 지나친 심층 네트워크는 오히려 과적합 (Over Fitting)을 일으키기 때문에 성능이 오히려 떨어질 수 있다. 이에, 본 연구에서는 우수한 정확도 성능을 지니면서도 비교적 그 층수가 낮은 VGGNet19[2], ResNet50[3], DenseNet121[4], EfficientNet v2[5]을 중심으로 성능 검증을 수행하였다.

맘모그래피 이미지와 초음파 이미지 진단을 위해 이미지 세분화 네트워크로 가장 널리 알려진 U-Net[33], ResU-Net++[34], DeepLabV3[35] 3종류의 이미지 세분화 네트워크를 활용하여 성능 검증 및 최적화를 진행하였다.

Ⅵ. 유방암 영산 진단을 위한 데이터 증강 기법

6.1 데이터 증식 기법

본 논문에서는 원본 데이터와 데이터 증강을 통한 2가지 대조군을 설정하여 데이터 증강 기법에 따른 성능 평가를 진행하였다. 고려하는 데이터 증식 기법들은 기하학적 변환 방식과 필터 방식으로 나누어 표 2에 나타내었다.

표(Table.) 2.
대조군에 적용된 데이터 증식 기법 (Applied data argumentation techniques)

표 3은 위에서 언급된 3가지 의료 영상 데이터들에 대한 적용된 이미지 증식 기법들의 적용 예시를 보였다.

표(Table.) 3.
의료영상 데이터셋의 데이터 증식 적용 (The Examples of Data Argumentation Techniques)
6.2 이미지 분할을 위한 손실 함수

위에서 제시된 맘모그래피 및 초음파 이미지 분할 기술 적용을 위해 본 논문에서는 3가지 이미지 분할 기술의 대표적 손실함수들, Binary Cross-Entropy, Dice, Tversky 를 사용하여 각각 이미지 분할 성능 평가를 하였다.

맘모그래피 및 초음파 이미지에서는 배경을 제외하고 클래스가 총 2개 (양성, 악성)가 있으나, 해당 데이터 셋들에서는 그 두 클래스가 동시에 존재하는 경우는 없으므로 해당 수식 전개를 위해서는 배경 제외 총 1개의 클래스 (양성 혹은 악성) 로 가정하여 전개하였다. 이들의 수학적 함수 유도를 위해 다음의 두 가지 파라미터를 정의하였다.

[TeX:] $$y$$ : 전경 클래스 영역의 정답

[TeX:] $$\widehat{y}$$ : 정답 [TeX:] $$y$$의 예측값 (확률)

6.2.1 Binary Cross-Entropy

[TeX:] $$L_{B C E}(y, \hat{y})=-(y \log (\hat{y})+(1-y) \log (1-\hat{y})$$

Binary Cross-Entropy는 두 랜덤 변수의 확률 분포 차이를 측정하는 함수로, 이미지 분류에 많이 사용되며 이미지 분할 기술에서도 픽셀 단위 분류로 확장하여 사용된다. 본 논문의 의료 이미지 분할 영역에서는 양성 또는 악성 2개의 class를 분류할 때 예측 값이 0과 1 사이의 확률 값으로 나오게 되어 신경망을 학습시키게 된다.

6.2.2 Dice

[TeX:] $$L_D(y, \hat{y})=1-\frac{2 y \hat{y}+1}{y+\hat{y}+1}$$

이미지 분할에서 일반적으로 사용되는 손실 함수로 두 이미지 간 유사도를 계산하는 Dice 계수에서 유래되었다. 다이스 계수는 클래스 간 불균형 상태에서 강점을 가지도록 설계되어, 전경 클래스에 대해 배경 클래스에 비해 높은 가중치를 두어 신경망을 학습시키게 된다.

6.2.3 Tversky

[TeX:] $$L_T=1-\frac{1+y \hat{y}}{1+y \hat{y}+\beta(1-y) \hat{y}+\alpha y(1-\hat{y})}$$

Tversky loss는 Dice loss에서 더욱 발전시켜 데이터의 클래스간 불균형을 통계적 특성에 기반하여 해결하기 위해 제시 되었다. 클래스간 불균형은 고정밀, 낮은 재현율의 이미지 분할을 발생시킨다. 이를 해결하기 패널티를 주는 가중치 , 를 부여한다. 값이 높을수록 재현율이 높아지며, = = 0.5일 때 Dice Loss와 같아진다.

Ⅶ. 실 험

7.1 맘모그래피 영상을 통한 유방암 진단 예측

Ⅱ-1장 (1) 맘모그래피 검사를 통해 석회동반 유방암 발병진단 (유방암 발병 가능성) 및 의심부위 위치 진단 예측을 수행하기 위해 손실 함수 적합도, 이미지 분할 모델 및 데이터 증식 방식 적합도의 조합을 다음과 같이 알아본다. 우선, 어느 손실 함수가 맘모그래피 영상분할 신경망 훈련에 적합할지에 대해 실험을 하였다. 이를 위한 실험 환경으로 데이터 증식이 적용되지 않은 기본 훈련 데이터 셋에 UNet, ResUnet++, Deeplab v3 에 대해 실험을 수행하였다. 또한, Tversky loss 함수의 가중치는 =0.7, =0.3 로 설정하였다.

표 4의 실험 결과에서 알 수 있듯이, MeanIOU, Dice_Coeff 두 정확도 지표에서 dice-loss와 Tver sky loss가 Binary Cross Entropy loss에 비해 우수한 성능을 보여준다.

표(Table.) 4.
맘모그래피 원본 데이터셋에서 손실함수 별 성능 (the performance according to loss functions in basic Mammography dataset)

이는 작은 크기의 암 종양 조직을 검출하는 본 의료 데이터 셋의 특성 상, 전경과 배경 간 클래스 불균형이 심하기 때문에 Tversky loss와 dice loss 함수가 적합하다. 만약 특정 데이터 셋에 최적으로 가중치 , 를 설정한다면 Tversky loss가 Dice loss 보다 더 우수한 성능을 낼 수 있지만 데이터셋 내에서 암 종양 조직의 크기가 각각 많이 다르기 때문에 (실제로 암 진행 정도, 촬영 방식에 따라 그 종양 크기가 다르다), 이렇게 어느 특정 데이터에 최적으로 설정하여 사용하는 것 보다는 보통의 경우 더 좋은 성능을 나타내는 Dice Loss를 사용하는 것이 실질적으로 더 적합하다고 할 수 있다.

Remark 1: 의료 맘모그래피 이미지 분할에서 최고의 성능을 내기위한 손실함수는 데이터의 클래스 불균형을 고려해서 선택한다.

이제 Dice Loss 및 Tversky Loss 함수에 기반하여 다양한 이미지 분할 기술 및 데이터 증식 방식에 대한 최적 조합에 대해 실험 검증해본다. 본 실험에서 사용하는 데이터 증식 방식의 기하학적 변환 방식(random rotation, vertical flip, horizantal flip, grid distortion)은 이미지의 형태가 직접적으로 변하는 데이터 증식 기법을 사용하였다. 필터 기반 방식은 (Gaussian filter, image histogram equlization, CLAHE, fancy PCA)으로 필터를 사용하여 노이즈를 추가, 제거 하거나 픽셀 RGB 값의 변화를 주어 이미지의 특성이 두드러지는 데이터 증식 기법을 사용하였다. 기본 원본 데이터는 3185장, 해당 기하학적 변환 방식과 필터 방식은 15,921장, 15,921장으로 증식되었다.

표 5 의 결과에서 알 수 있듯 모든 신경망에서 두 데이터증식 방식 사용 시 성능이 크게 증가하며 최대 33.3% (IOU) 증가한다. 이는 한정된 데이터 셋 크기에 다양한 변이를 가함으로서 딥러닝 모델이 부족한 일부 데이터에 과적합 되는 위험을 줄여줌으로서 좀 더 일반화된 성능을 나타내도록 도와주기 때문이다.

표(Table.) 5.
맘모그래피 데이터셋에서 모델과 데이터 증식 기법에 따른 성능 지표 (the performance according to various data augmentation techniques in augmented Mammography datasets)

특히, 필터 기반의 데이터 증식 방식이 기하학적 변환 기반의 데이터 증식 방식보다 더 큰 성능 향상을 보여준다. 심지어 필터 방식에 기하학적 변환 방식을 혼합한 방식 보다 필터 방식 하나만 쓴 데이터 셋에서 성능이 더 좋다. 이는 의료 데이터의 특성 상, 환부 촬영 당시 위치와 포즈 등이 거의 고정되어 있기 때문에 유효성이 낮아지기 때문이다. 반면 필터에 의한 변이는 환부의 크기가 작기 때문에 이렇게 경계선이 블러 처리 되는 데이터들에 좀 더 어려운 데이터로 학습될 수 있기 때문에 더 큰 성능 향상을 나타낸다는 것을 알 수 있다.

반면, 네트워크 선택의 경우 원본 데이터 셋 (Vanilla)에서는 ResUNet++ 가 제일 우수하며, 데이터 증강을 수행한 데이터셋 (Filter) 에서는 U-Net 네트워크가 가장 좋은 성능을 나타내는 것을 볼 수 있다. 이는 UNet에 비해 좀 더 복잡한 구조를 가지는 ResUNet++ 혹은 DeepLab V3 들은 입력 이미지에 대해 다양한 채널을 생성함으로서 자체적인 데이터 증식 기능이 있다고 볼 수 있기 때문에 추가적인 데이터 증강 기법의 효과가 그리 크지 않다고 볼 수 있다.

또한 일반적으로 대용량 데이터 셋에서는 ResUNet++가 UNet보다 더 성능이 좋다. 하지만 대상으로 하는 의료 데이터 셋은 그 클래스 수가 적고 이미지 수도 적기 때문에 일반 대용량 데이터 셋과는 다르게 최적 신경망이 결정된다는 것도 알 수 있다.

7.2 초음파 영상을 통한 유방암 진단 예측

Ⅱ-1장의 (2) 초음파 검사를 통해 덩어리 타입 유방암 발병진단 (유방암 발생 가능성), 의심 부위 위치 진단예측을 수행하기 위해 손실 함수 적합도, 이미지 분할 모델 및 데이터 증식 방식 적합도의 조합을 다음과 같이 알아본다. 우선, 어느 손실 함수에 대해 초음파 영상 훈련에 적합도에 대해 실험을 하였다. 이를 위한 실험 환경도 맘모그래피와 동일하게 기본 훈련 데이터셋에 UNet, ResUnet++, Deeplab v3에 대해 실험을 수행하였다. 또한, Tversky loss 함수의 가중치는 =0.7, =0.3 로 설정하였다.

표 7의 실험 결과에서 알 수 있듯이, MeanIOU, Dice_Coeff 두 정확도 지표에서 Dice-loss 함수와 Tver sky 함수가 맘모그래피 영상의 경우와 마찬가지로 binary cross entropy loss에 비해 우수한 성능을 보여준다. 맘모그래피와 동일한 이유로 작은 크기의 암 종양 조직을 검출하는 본 의료 데이터 셋의 특성으로 클래스 불균형 문제를 고려한 Dice Loss 혹은 Tversky Loss 함수가 Binary Cross-Entropy에 비해 강점을 갖는다. 다만, Tversky Loss가 이론적으로 Dice Loss 에 비해 가중치 조절 자유도가 추가됨으로서 성능적으로 더 좋아야 하지만, 표6의 ResUNet++, DeepLab v3의 경우에서 보듯이 이미지 분할 신경망의 성격에 따라 최적의 가중치가 달라지기 때문에 그 성능 우위는 달라질 수 있음에 유의해야 한다.

표(Table.) 6.
초음파 원본 데이터셋에서 손실함수 별 성능 (the performance according to loss functions in basic Ultrasound dataset)
표(Table.) 7.
초음파 데이터셋에서 모델과 데이터 증식 기법에 따른 성능 지표 (the performance according to various data augmentation techniques in augmented Ultrasound datasets)

Remark 2: 의료 이미지 분할 영역에서 최고의 성능을 내기 위한 손실함수 선택은 신경망을 고려해서 결정해야 한다.

이제 초음파 의료이미지에서 Dice Loss 및 Tversky Loss 함수에 기반하여 다양한 이미지 분할 기술 및 데이터 증식 방식에 대한 최적 조합에 대해 실험 검증해본다. 본 실험에서 사용하는 데이터 증식 방식은 이전 맘모그래피 방식의 기하학적 변환 방식, 필터 방식과 동일하다. 기본 Vanilla 방식은 1,568장, 해당 기하학적 변환 방식과 필터 방식은 7,840장, 7,840장으로 증식되었다.

표 7 의 결과에서 알 수 있듯 맘모그래피에서의 결과와 마찬가지로 동일한 이유로 (필터에 의한 변이는 환부의 크기가 작기 때문에 이렇게 경계선이 블러 처리 되는 데이터들에 좀 더 어려운 데이터로 학습될 수 있기 때문) 필터기반의 데이터 증식 방식이 기하학적 변환 기반의 데이터 증식 방식보다 더 큰 성능 향상을 보이며 최대 29.9% (IOU) 향상을 보인다.

반면, 네트워크 선택의 경우 원본 데이터 셋 (Vanilla)에서는 DeepLab V3 가 제일 우수하며, 데이터 증강을 수행한 데이터셋 (Filter ) 에서는 U-Net 네트워크가 가장 좋은 성능을 나타내는 것을 볼 수 있다. 이 역시 UNet에 비해 좀 더 복잡한 구조를 가지는 DeepLab V3 들은 입력 이미지에 대해 다양한 채널을 생성함으로서 자체적인 데이터 증식 기능이 있어서 추가적인 데이터 증강 기법의 효과가 작기 때문이다.

또한 일반적으로 대용량 데이터 셋에서는 DeepLab V3가 UNet보다 더 성능이 좋지만 그 규모가 작은 초음파 의료 데이터 셋은 일반 대용량 데이터 셋과는 다르게 최적 신경망이 결정된다는 것도 알 수 있다.

Remark 3: 의료 맘모그래피, 초음파 이미지 분할 기술에서는 필터 기반의 데이터 증식 방안을 쓰며 데이터의 규모를 고려하여 신경망을 선택하는 것이 바람직하다.

7.3 병리 영상을 통한 유방암 진단

Ⅱ-1장의 (3) 의심 부위에 대한 조직병리 이미지분류를 통해 최적의 분류 모델과 최적의 이미지 증식 기법들의 조합을 알아본다. 본 실험에서는 cross entropy loss 함수에 기반하여 VGGNet19, DenseNet121, ResNet50, EfficientNet 의 이미지분류 신경망과 기본 제공 이미지 셋 (Vanilla), MixUp, CutMix, 필터, 기하학적 변환 (rotation, flip, transfer, shear, gaussian, equ, shift) 에 대해 이미지 분류 정확도 성능을 알아보았다.

표 8의 결과로부터 ResNet50이 다른 신경망들, VGGNet19, DenseNet121, EfficientNet 보다 모든 기본 데이터셋 뿐 아니라 모든 데이터 증식 환경에서 가장 우수한 성능을 나타냄을 알 수 있다. 이는 병리 이미지 셋의 필요 신경망 용량이 ResNet50에 가장 가깝다는 것을 알 수 있다. 심지어 ImageNet에서는 더 좋은 성능을 나타내는 DenseNet121과 EfficientNet은 ResNet50보다 더 심층에 다채널로 구성되어 있음에도 과적합이 발생하여 더 낮은 성능을 나타내고, VGGNet19는 병리 이미지 데이터 셋을 충분히 표현해낼 수 없기 때문에 과소적합을 나타낸다. 이를 통해 해당 소규모 의료 데이터 셋에는 데이터의 특성 및 용량이 최적 신경망 선택에 중요한 요인으로 작용함을 알 수 있다. 또한 모든 신경망에서 데이터 증식 방식 사용한다면 성능이 증가하며 최대 22.8% 증가한다는 것을 알 수 있다. 이는 한정된 데이터 셋 크기에 다양한 변이를 가함으로서 딥러닝 모델이 부족한 일부 데이터에 과적합 되는 위험을 줄여줌으로서 좀 더 일반화된 성능을 나타내도록 도와주기 때문이다. 특히, 앞서 이미지 분할의 결과에서와 마찬가지로 이미지 분류에서도 필터 기반 방식이 가장 좋은 성능을 나타내는 것을 알 수 있다.

표(Table.) 8.
병리 이미지에서 데이터 증식 기법 별 성능 (Performance of Histopathology according to Data Augmentation Techniques)

Remark 4: 의료 유방병리 이미지 분류에서 필터 기반의 데이터 증식 방안을 쓰며 데이터 셋의 요구 용량을 고려하여 신경망을 선택하는 것이 바람직하다.

Ⅷ. 결 론

본 논문에선 유방암 진단을 위해 사용되는 전체 의료기기 영상들, 즉, 맘모그래피, 초음파, 병리 이미지들이 진단 과정에서 어떻게 활용되는지 각 절차에 대해 알아보고 각 의료 절차적 특징들에 기반하여 적합한 영상인식 기술들을 도출하고 이들 기술들의 성능 최적화를 위한 손실함수, 신경망, 데이터 증식 방식의 최적 조합 적용 방안에 대해 제시하였다.

맘모그래피 이미지 데이터 셋과 초음파 이미지 데이터 셋에서의 이미지 분할 성능 최적화를 위해서는 Dice Loss 혹은 Tversky Loss 함수 사용이 추천되며 필터 기반의 데이터 증식에 UNet을 사용하는 것이 최적의 성능을 낼 수 있었다. 또한 병리 이미지 데이터 셋에서의 이미지 분류 성능 최적화를 위해서는 필터 기반의 데이터 증식에 ResNet50을 사용하는 것이 최적의 성능을 낼 수 있었다.

무엇보다도 의료 이미지 데이터 셋의 특성을 고려하여 이를 보완할 수 있는 데이터 증식 방식을 선택하고, 이에 맞는 신경망을 선택하며 해당 손실함수를 선택하는 것이 최적의 성능을 낼 수 있었다.

Biography

곽 대 원 (Daewon Kwak)

2022년 2월 : 동서울대학교 전자공학과 졸업

<관심분야> 딥러닝, 영상인식

Biography

최 지 우 (Jiwoo Choi)

2013년 2월 : 유방암 갑상선암 전문의

2016년 2월 : 아주대학교 유방외과, 갑상선외과 임상전문의

現 아주대학교 외과 자문교수, 최지우더블유외과 원장

Biography

이 성 진 (Sungjin Lee)

2011년 8월 : 연세대학교 전자공학과 박사 졸업

2012년 9월~2016년 7월:삼성전자 DMC연구소 책임연구원

2016년 7월~현재 : 동서울대학교 전자공학과 조교수

<관심분야> 딥러닝, 영상인식, 3D Reconstruction

References

  • 1 A.Krizhevsky, I.Sutskever, and G.E.Hinton, "ImageNet classification with deep convolution alneural networks," Advances in NIPS, vol. 25, 2012.custom:[[[https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf]]]
  • 2 K.Simonyan and A.Zisserman, "Very deep convolutional networks forlarge-scale image recognition," arXiv preprint arXiv:1409.1556, 2014.custom:[[[https://arxiv.org/abs/1409.1556]]]
  • 3 K.He, X.Zhang, S.Ren, and J.Sun, "Deep residual learning forimage recognition," arXiv preprint arXiv:1512.03385, 2015.custom:[[[https://arxiv.org/abs/1512.03385]]]
  • 4 G.Huang, Z.Liu, L.van der Maaten, and K. Q. Weinberger, "Densely connected convolutional networks," in Proc. IEEE Conf. CVPR , pp.4700-4708, 2017.doi:[[[10.1109/cvpr.2017.243]]]
  • 5 M. Tan and Q. V. Le, "EfficientNetV2: Smaller models and faster training," Int.Conf. Mach. Learn. ,PMLR, pp.10096-10106, 2021.custom:[[[https://arxiv.org/abs/2104.00298]]]
  • 6 V.Gulshan, L.Peng, M. Coram, M. C. Stumpe, D.Wu, etal., "Development and validation ofadeep learning algorithm for detection ofdiabetic retinopathy inretinal fundus photographs," JAMA ,vol. 316, no.22, pp.2402-2410, 2016.doi:[[[10.1001/jama.2016.17216]]]
  • 7 H.Pratt, F.Coenen, D.M.Broadbent, S.P. Harding, and Y.Zheng, "Convolutional neural networks fordiabetic retinopathy," in Procedia Comput. Sci., vol. 90, pp.200-205, 2016.doi:[[[10.1016/j.procs.2016.07.014]]]
  • 8 G.Wimmer, S.Hegenbart, A.Vecsei, and A. Uhl, "Convolutional neural network architectures fortheautomated diagnosis ofceliac disease," in Int.Wkshp. Computer-Assisted and Robotic Endoscopy, pp.104-113, Springer, 2016.doi:[[[10.1007/978-3-319-54057-3_10]]]
  • 9 M.Pei, X.Wu, Y.Guo, andH.Fujita, "Small bowel motility assessment based on fully convolutional networks and long short-term memory," Knowledge-Based Syst.,vol. 121, pp. 163-172, 2017.doi:[[[10.1016/j.knosys.2017.01.023]]]
  • 10 R.Zhu, R.Zhang, and D.Xue, "Lesion detection ofendoscopy images based on convolutional neural network features," in 2015 8th Int.CISP ,pp.372-376, IEEE, 2015.doi:[[[10.1109/CISP.2015.7407907]]]
  • 11 C.Martin-Isla, V.M.Campello, C.Izquierdo, Z.Raisi-Estabragh, B.Baeßler,S.E.Petersen, and K. Lekadir, "Image-Based cardiac diagnosis with machine learning: Areview," Front. Cardiovasc. Med. ,vol. 7,2020.doi:[[[10.3389/fcvm.2020.00001]]]
  • 12 K.K.L.Wong, G.Fortino, and D.Abbott, "Deep learning-based cardiovascular image diagnosis: Apromising challenge," Future Generation Comput. Syst.,vol. 10, pp. 802-811, 2020.doi:[[[10.1016/j.future.2019.09.047]]]
  • 13 J.Wang, J.Li,L.Wang, et al.,"Heart disease diagnosis using deep learning andcardiac color doppler ultrasound," Soft Comput .,vol. 26,pp. 10633-10642, 2022.doi:[[[10.1007/s00500-022-06780-y]]]
  • 14 K.Kamnitsas, C.Ledig, V.F.J.Newcombe, J. P.Simpson, A.D.Kane, D.K.Menon, D. Rueckert, and B. Glocker, "Efficient multi-scale 3d cnn with fully connected crffor accurate brain lesion segmentation," Medical Image Analysis, 36:61-78,2017.doi:[[[10.1016/j.media.2016.10.004]]]
  • 15 J.M.Wolterink, T.Leiner, M.A.Viergever, and I.Išgum, "Automatic coronary calcium scoring incardiac CT angiography using convolutional neural networks," in MICCAI 2015, pp.589-596, Springer, 2015.doi:[[[10.1016/j.media.2016.04.004]]]
  • 16 Y.Yuan and M.Q.-H. Meng, "Deep learning for polyp recognition inwireless capsule endoscopy images," Med. Phys. ,vol. 44, no.4, pp.1379-1389, 2017.doi:[[[10.1002/mp.12147]]]
  • 17 M.B.T.Noor, N.Z.Zenia, M.S.Kaiser, S. A.Mamun, and M.Mahmud, "Application of deep learning in detecting neurological disorders from magnetic resonance images: a survey onthedetection ofAlzheimer's disease, Parkinson's disease and schizophrenia," Brain Inform. ,vol. 7, no.11, Oct. 2020. (https://doi.org/10.1186/s40708-020-00112-2)P MID: 33034769; PMCID: PMC7547060.doi:[[[10.1186/s40708-020-00112-2]]]
  • 18 T.Jo, K.Nho, and A.J.Saykin, "Deep learning inalzheimer's disease: Diagnostic classification and prognostic prediction usingneuroimaging data," Frontiers in Aging Neurosci. ,vol. 11,2019.doi:[[[10.3389/fnagi.2019.00220]]]
  • 19 B.Liu, H.He, H.Luo, T.Zhang, and J.Jiang, "Artificial intelligence and bigdata facilitated targeted drug discovery," Stroke Vasc. Neurol ., vol. 4, no.4, pp.206-213, Nov. 2019. (https://doi.org/10.1136/svn-2019-000290) PMID: 32030204; PMCID: PMC6979871.doi:[[[10.1136/svn-2019-000290]]]
  • 20 J.Kim, S.Park, D.Min, and W. Kim, "Comprehensive survey of recent drug discovery using deep learning," Int. J.Mol. Sci.,vol. 22, no.18, 9983, Sep. 2021. (https://doi.org/10.3390/ijms22189983) PMID: 34576146; PMCID: PMC8470987.doi:[[[10.3390/ijms22189983]]]
  • 21 S.B.Bandaru and G.R.M.Babu, "Areview on advanced methodologies to identify the breast cancer classification using the deep learning techniques," Int. J.Comput. Sci. Netw. Secur. ,vol. 22, no.4, pp.420-426, Apr. 2022.custom:[[[https://koreascience.kr/article/JAKO202213341765836.pdf]]]
  • 22 A.P.ADEDIGBA, S.A.ADESHINAT, and A. M. AIBINU, "Deep learning-based mammogram classification using small dataset," 15th Int. Conf. Electron. ,pp. 1-6, Abuja, Nigeria, Dec. 2019.doi:[[[10.1109/icecco48375.2019.9043186]]]
  • 23 H.Dong, B.Zhu, X.Zhang, and X.Kong, "Use data augmentation foradeep learning classification model with chest X-ray clinical imaging featuring coal workers' pneumoconiosis," BMC Pulmonary Med. ,vol. 22,no.271, pp.1-14, Jul. 2022.doi:[[[10.1186/s12890-022-02068-x]]]
  • 24 P.Oza, P.Sharma, S.Patel, F.Adedoyin, and A.Bruno, "Image augmentation techniques for mammogram analysis," J.Imaging ,vol. 8,no. 5,May 2022.doi:[[[10.3390/jimaging8050141]]]
  • 25 E.Michael, H.Ma, H.Li,F.Kulwa, and J.Li, "Breast cancer segmentation methods: Current status andfuture potentials," BioMed Res. Int., vol. 2021, no.9962109, pp.1-29, Jul. 2021.doi:[[[10.1155/2021/9962109]]]
  • 26 A. Anaya-Isaza, L.Mera-Jim énez, J.M. Cabrera-Chavarro, L. Guachi-Guachi, D. Peluffo-Ord óñez, and J. I.Rios-Patiño, "Comparison ofcurrent deep convolutional neural networks forthesegmentation ofbreast masses inmammograms," in IEEE Access ,vol. The Journal of Korean Institute ofCommunications andInformation Sciences '23-02 Vol.48 No.02 226 9, pp.152206-152225, 2021. Anaya-Isaza , A. , Mera-Jim énez , L. , Cabrera-Chavarro , J.M. , Guachi-Guachi , L. , Peluffo-Ord óñez , D. , & Rios-Patiño , J. I. ( 2021 ). Comparison ofcurrent deep convolutional neural networks forthesegmentation ofbreast masses inmammograms . inIEEE Access , TheJournal ofKorean Institute ofCommunications andInformation Sciences '23-02 Vol.48 No.02 226 9 , 152206 - 152225 , doi:[[[ 10.1109/ACCESS.2021.3127862 ]]].
  • 27 Z. Rezaei, "A review on image-based approaches for breast cancer detection, segmentation, and classification," Expert Syst. with Appl., vol. 182, Nov. 2021. Rezaei , Z. ( 2021 , Nov ). A review on image-based approaches for breast cancer detection, segmentation, and classification . Expert Syst. with Appl. , 182 , doi:[[[10.1016/j.eswa.2021.115204]]].
  • 28 https://www.cancer.org/cancer/breast-cancer/screening-tests-and-early-detection/mammograms/understanding-your-mammogram-report. html https://www.cancer.org/cancer/breast-cancer/screening-tests-and-early-detection/mammograms/understanding-your-mammogram-report.html , custom:[[[, https://www.cancer.org/cancer/breast-cancer/screening-tests-and-early-detection/mammograms/understanding-your-mammogram-report.html , ]]].
  • 29 R.S.Lee, F.Gimenez, A.Hoogi, K.K. Miyake, M.Gorovoy, and D.L.Rubin, "A curated mammography data set for use in computer-aided detection and diagnosis research," Scientific Data ,vol. 4,no.170177, 2017. Lee , R.S. , Gimenez , F. , Hoogi , A. , Miyake , K.K. , Gorovoy , M. , & Rubin , D.L. ( 2017 ). A curated mammography data set for use in computer-aided detection and diagnosis research . Scientific Data , 4 ( 170177 ), doi:[[[10.1038/sdata.2017.177]]].
  • 30 W.Al-Dhabyani, M.Gomaa, H.Khaled, A. Fahmy, "Dataset ofbreast ultrasound images," Data in brief ,vol. 28,Feb. 2020. Al-Dhabyani , W. , Gomaa , M. , Khaled , H. , & Fahmy , A. ( 2020 , Feb ). Dataset ofbreast ultrasound images . Data inbrief , 28 , doi:[[[ 10.1016/j.dib.2019.104863 ]]].
  • 31 A.Janowczyk and A.Madabhushi, "Deep learning fordigital pathology image analysis: Acomprehensive tutorial with selected use cases," J.Pathol. Inform. ,vol. 7,no.1,Jul. 2016. Janowczyk , A. , & Madabhushi , A. ( 2016 ). Deep learning fordigital pathology image analysis: Acomprehensive tutorial with selected use cases . J.Pathol. Inform. Jul , 7 ( 1 ), doi:[[[ 10.4103/2153-3539.186902 ]]].
  • 32 D.M.Hawkins, "The Problem of Overfitting," J.Chem. Inf.and Comput. Sci.,vol. 44, no.1, pp.1-12, Jan. 2004. Hawkins , D.M. ( 2004 , Jan ). The Problem ofOverfitting . J.Chem. Inf.and Comput. Sci. , 44 ( 1 ), 1 - 12 , doi:[[[ 10.1021/ci0342472 ]]].
  • 33 O.Ronneberger, P.Fischer, and T.Brox, "U-Net: Convolutional networks for biomedical image segmentation," arXiv preprint arXiv:1505.04597 ,2015. Ronneberger , O. , Fischer , P. , & Brox , T. ( 2015 ). U-Net: Convolutional networks forbiomedical image segmentation . arXiv preprint arXiv:1505.04597 , doi:[[[ 10.1007/978-3-319-24574-4_28 ]]].
  • 34 D.Jha, P.H.Smedsrud, M.A.Riegler, D. Johansen, T.deLange, P.Halvorsen, and H. D. Johansen, "ResUNet++: An advanced architecture formedical image segmentation," arXiv preprint arXiv:1911.07067 ,2019. Jha , D. , Smedsrud , P.H. , Riegler , M.A. , Johansen , D. , deLange , T. , Halvorsen , P. , & Johansen , H. D. ( 2019 ). ResUNet++: An advanced architecture formedical image segmentation . arXiv preprint arXiv:1911.07067 , doi:[[[ 10.1109/ISM46123.2019.00049 ]]].
  • 35 L.-C. Chen, G.Papandreou, F.Schroff, and H. Adam, "Rethinking atrous convolution for semantic image segmentation," arXiv preprint arXiv:1706.05587 ,2017. Chen , L.-C. , Papandreou , G. , Schroff , F. , & Adam , andH. ( 2017 ). Rethinking atrous convolution for semantic image segmentation . arXiv preprint arXiv:1706.05587 , doi:[[[ 10.48550/arXiv.1706.05587 ]]].
  • 36 E. Bae and S.Lee, "Efficient training methodology in an image classification network," J.KICS ,vol. 46,no.6,pp.10871096, 2021. Bae , E. , & Lee , S. ( 2021 ). Efficient training methodology in an image classification network . J.KICS , 46 ( 6 ), 10871096 , doi:[[[10.7840/kics.2021.46.6.1087]]].

표(Table.) 1.

의료 영상 별 영상인식 기술 및 데이터셋 (Image Recognition Technique and dataset for each medical images)
진단 목표 정확도 기술 데이터셋
맘모그래피 석회동반 유방암 진단, 위치 추정 중간 분할 CBIS-DDSM[29]
초음파 덩어리짐 유방암 진단, 위치 추정 낮음 분할 BUI[30]
병리 유방암 진단 높음 분류 BHI[31]

표(Table.) 2.

대조군에 적용된 데이터 증식 기법 (Applied data argumentation techniques)
Geometric Rotation, Vertical Flip, Horizontal Flip, Grid Distortion
Filter CLAHE, Gaussian, Equalization, Fancy PCA

표(Table.) 3.

의료영상 데이터셋의 데이터 증식 적용 (The Examples of Data Argumentation Techniques)
증식기술 맘모그래피 초음파 병리
Original [21] table1.png table2.png table3.png
CLAHE [21] table4.png table5.png table6.png
Gaussian Blur [21] table7.png table8.png table9.png
Equalization [21] table10.png table11.png table12.png
Fancy PCA [21] table13.png table14.png table15.png
Grid [21] table16.png table17.png table18.png
Rotation [21] table19.png table20.png table21.png
Flip [21] table22.png table23.png table24.png
Cutmix [36] X X table25.png
Mixup [36] X X table26.png

표(Table.) 4.

맘모그래피 원본 데이터셋에서 손실함수 별 성능 (the performance according to loss functions in basic Mammography dataset)
Model UNet ResUNet++ Deeplab V3
Loss BCD DICE Tversky BCD DICE Tversky BCD DICE Tversky
Metric IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice
Vanilla 0.56 0.39 0.62 0.41 0.63 0.43 0.54 0.41 0.63 0.42 0.63 0.44 0.52 0.36 0.62 0.39 0.63 0.42

표(Table.) 5.

맘모그래피 데이터셋에서 모델과 데이터 증식 기법에 따른 성능 지표 (the performance according to various data augmentation techniques in augmented Mammography datasets)
xray UNet ResUNet++ Deeplab V3
Loss DICE Tversky DICE Tversky DICE Tversky
Metric IOU DICE IOU DICE IOU DICE IOU DICE IOU DICE IOU DICE
Vanilla 0.624 0.411 0.634 0.438 0.631 0.421 0.639 0.441 0.619 0.392 0.631 0.417
Filter 0.819 0.786 0.832 0.808 0.777 0.712 0.745 0.658 0.786 0.729 0.809 0.765
Geometric 0.714 0.608 0.711 0.604 0.701 0.506 0.685 0.548 0.691 0.557 0.691 0.557
All 0.771 0.704 0.774 0.708 0.736 0.612 0.724 0.617 0.737 0.639 0.754 0.672

표(Table.) 6.

초음파 원본 데이터셋에서 손실함수 별 성능 (the performance according to loss functions in basic Ultrasound dataset)
Model UNet ResUNet++ Deeplab V3
Loss BCD DICE Tversky BCD DICE Tversky BCD DICE Tversky
Metric IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice IOU Dice
Vanilla 0.75 0.71 0.76 0.72 0.79 0.76 0.67 0.61 0.78 0.74 0.75 0.70 0.75 0.73 0.79 0.77 0.79 0.76

표(Table.) 7.

초음파 데이터셋에서 모델과 데이터 증식 기법에 따른 성능 지표 (the performance according to various data augmentation techniques in augmented Ultrasound datasets)
초음파 UNet ResUNet++ Deeplab V3
Loss DICE Tversky DICE Tversky DICE Tversky
Metric IOU DICE IOU DICE IOU DICE IOU DICE IOU DICE IOU DICE
Vanilla 0.758 0.716 0.789 0.764 0.778 0.742 0.752 0.704 0.793 0.764 0.792 0.764
Filter 0.984 0.988 0.980 0.986 0.962 0.965 0.962 0.964 0.980 0.983 0.978 0.982
Geometric 0.816 0.799 0.836 0.800 0.833 0.808 0.812 0.789 0.820 0.799 0.812 0.789
All 0.906 0.905 0.902 0.902 0.877 0.870 0.875 0.872 0.890 0.885 0.893 0.887

표(Table.) 8.

병리 이미지에서 데이터 증식 기법 별 성능 (Performance of Histopathology according to Data Augmentation Techniques)
병리 VGG Dense ResNet EffNet
기본 0.79 0.83 0.84 0.83
MixUp 0.84 0.85 0.91 0.83
CutMix 0.87 0.90 0.94 0.94
필터 0.92 0.94 0.97 0.94
기하학적 0.82 0.88 0.90 0.85
유방암 진단 과정 (Process of breast cancer diagnosis)
유방암 진단에 사용되는 의료영상데이터의 예시 (Example of Medical Image Data used for Breast Cancer Diagnosis)