breast cancer dataset by Burnasyan Federal Medical Biophysical Center Of Federal Medical Biological Agency (Moscow, Russia) contains link for 40K+ breast tumor tissue images data set and annotations.
- for research and education purposes
- when use, please, quote
Borbat A.M., Lishchuk S.V. The first Russian breast pathology histologic images data set. Information technologies for the Physician. 2020. 3:25-30. DOI: 10.37690/1811-0193-2020-3-25-30 - short description: contains 42904 images of 12 breast pathology entities with clinical data (age, grade, TNM)
- data set preparation procedure
- slides with breast (female) tissue samples were selected: 91 patients, 104 slides
- WSI scanning (Ventana iScan HT, obj 20, pixel size 0,465 μm)
- qualified pathologist cropped each WSI for non overlapping regions of interest
- x4: size 3750х2750 μm (1633х1185 px)
- x10: size 1500х1125 μm (1633х1185 px)
- cut region of interest images into 300х300 and 500х500 px:
- x4: 0,475 sq mm and 1,318 sq mm
- x10: 0,076 sq mm and 0,211 sq mm
- images were reviewed by qualified pathologists to withdraw pictures containing <20% pathologically changed epithelia
- link - https://drive.google.com/file/d/166F4sv-6gc9ArMvTjWPnnkT9aKva1Cra/view?usp=sharing
- annotation file burnasyan_br.csv
- IDX - microscopy slide unique identifier
- Num - clinical case unique identifier
- age - age
- Dia - WHO pathologic classification: CR - non specified invasive carcinoma, Lob_CR - lobular invasive carcinoma, Muc_CR - mucinous carcinoma, Cribr_CR - cribriform carcinoma, DCIS - nin invasive ductal carcinoma, FA - fibroadenoma, FCD - cystic disease, adenosis, Medul_CR - medullary carcinoma, Micpap_CR - micropapillary carcinoma, Pap_CR - solid papillary carcinoma, Papilloma - benign papilloma
- Dia2 - type (Benign, InSitu, Invasive)
- biopsy - surgery OR biopsy sample
- Grade - grade: benign lesions - G0, invasive - Nottingham Histologic Score, DCIS - nuclear grade
- TNM - TNM 8: includes pT and pN; if no surgery data - cT и cN
- obj10_300 - quantity of images x10; size 300х300 px
- obj10_500 - quantity of images x10; size 500х500 px
- obj4_300 - quantity of images x4; size 300х300 px
- obj4_500 - quantity of images x4; size 500х500 px
набор данных патологических процессов молочной желез, подготовленный в ФГБУ ГНЦ ФМБЦ им А.И.Бурназяна ФМБА России содержит ссылку на набор из более 40 тыс изображений и описание
- только для исследовательских и образовательных целей
- при использовании набора данных обязательная ссылка на публикацию
Борбат А. М., Лищук С. В. Первый российский набор данных гистологических изображений патологических процессов молочной железы. Врачи и информационные технологии. 2020. 3:25-30. DOI: 10.37690/1811-0193-2020-3-25-30. - краткое описание: содержит 42904 изображения 12 категорий опухолевых и неопухолевых поражений молочной железы с клиническими характеристиками (возраст, TNM, дифференцировка)
- процедура подготовки набора данных
- отобраны микроскопические препараты с патологически измененными тканями молочной железы: 91 пациент, 104 микропрепарата
- сканирование (Ventana iScan HT, увеличение объектива 20, размер пикселя 0,465 мкм)
- в каждом микропрепарате врач-патологоанатом отбирал непересекающиеся зоны с наличием патологического очага
- при увеличении 4 размером 3750х2750 мкм (1633х1185 пикселей), площадью 10,5 кв мм
- при увеличении 10 размером 1500х1125 мкм (1633х1185 пикселей), площадью 1,7 кв мм
- изображения разделены на квадраты 300х300 и 500х500 пикселей:
- при увеличении 4, соответственно, 0,475 кв мм и 1,318 кв мм
- при увеличении 10, соответственно, 0,076 кв мм и 0,211 кв мм
- изображения повторно просмотрены патологоанатомом: изображения, где железистый компонент патологического очага визуально составлял менее 20% площади изображения, удалялись из набора данных
- ссылка на набор изображений - https://drive.google.com/file/d/166F4sv-6gc9ArMvTjWPnnkT9aKva1Cra/view?usp=sharing
- аннотация - burnasyan_br.csv
- IDX - уникальный идентификатор микропрепарата
- Num - уникальный идентификатор клинического случая
- age - возраст пациента на момент исследования
- Dia - морфологический вариант патологического процесса в соответствии с классификацией ВОЗ: CR - неспецифицированный инвазивный рак, Lob_CR - дольковый инвазивный рак, Muc_CR - муцинозная карцинома, Cribr_CR - крибриформная карцинома, DCIS - неинвазивный внутрипротоковый рак, FA - фиброаденома, FCD - фиброзно-кистозная мастопатия, аденоз, Medul_CR - медуллярная карцинома, Micpap_CR - микропапиллярный рак, Pap_CR - солидный папиллярный рак, Papilloma - доброкачественная папиллома
- Dia2 - характер патологического процесса (Benign, InSitu, Invasive)
- biopsy - операционный (surgery) или биопсийный материал (biopsy)
- Grade - оценка степени злокачественности: для инвазивных опухолей по Ноттингемским критериям, для протоковой карциномы инситу - по критериям ядерного полиморфизма, G0 соответствует доброкачественным поражениям
- TNM - классификация случая по системе TNM 8 пересмотра, включены только категории pT и pN, в ряде случаев используется cT и cN, если оперативное вмешательство не проводилось
- obj10_300 - количество изображений при увеличении 10 и размере 300х300 пикселей
- obj10_500 - количество изображений при увеличении 10 и размере 500х500 пикселей
- obj4_300 - количество изображений при увеличении 4 и размере 300х300 пикселей
- obj4_500 - количество изображений при увеличении 4 и размере 500х500 пикселей