빅데이터 분석 참고 사이트:
KDI 경제 교육 등 - https://eiec.kdi.re.kr/bigdata/main.do
누구나 가능한 텍스트 빅데이터 분석 기초
과정설명
디지털신기술 중심 분야인 빅데이터 분석 중 텍스트 데이터 분석 방법의 이론을 학습하고 현장에서 바로 활용할 수 있는 빅데이터 분석 실습역량을 습득한다.
학습목표
• 텍스트 데이터 처리 이론 및 실습을 학습 • 네트워크 분석 방법의 이론 및 실습을 학습 • 빅데이터 분석 실습역량을 습득
------------------Gephi-https://gephi.org/users/download/
Gephi사용법- https://data-science-note.tistory.com/90
https://choboit.tistory.com/20#google_vignette
동영상- https://www.youtube.com/watch?v=pqCsFQipV_M
https://www.youtube.com/watch?v=ns-Wp2JTCos
https://choboit.tistory.com/18#google_vignette
============================실습요령==================
#. 데이터 분석 툴(Gephi) 실행-이호 뉴스네트워크 검색
새 프로젝트 생성
Data Laboratory 클릭
Import Spreadsheet 클릭
Spreadsheet 열기 /// Time Intervals : 노드 간에 순차가 존재 할 때 설정함
우리가 하려는 키워드 분석은 방향성이 없으므로 디폴트 설정값인
mixed
에서Undirected
로 바꿔준다.시각화(overview)
Spreadsheet가 잘 열렸다면 Overview 탭으로 넘어간다.
숯검댕이는 모든 노드와 엣지가 겹쳐져서 만들어진 것이다....
통계 툴(statics)로 넘어가서, network overview에서 ( Average Degree + Modularity + Eigenvector Centrality ) RUN 한다.
우리가 간단하게 해볼 것은 3가지가 있다.
(1) Average Degree : 한 노드가 평균적으로 갖는 엣지 수
(2)Modularity : 노드가 특정 군집과는 가깝고 그 밖의 군집과는 거리가 있는 정도
(3)Eigenvector Centrality : 해당 노드와 연결된 다른 노드들의 개수 뿐만 아니라 다른 노드들의 중요도 또한 반영하여 가중치를 둔 것
10. 필터
TOPOLOGY-->쿼리에 드래그인 드롭---> Degree Range : 1500 ~ 6308--->디그리 레인지를 셋팅한다.(예: Degree Range : 1500 ~ 6308)
수치를 입력하고
Enter
키를 꼭 쳐야한다. 그리고Filter
클릭!
!! 주의점 : 모든 통계 툴은 필터를 거치지 않은 100% 데이터를 가지고 통계를 해야한다!!
다음 참고 영상 : https://choboit.tistory.com/20#google_vignette
# 데이터 시각화 방법 정리
1. 빅카인즈에서 다운 받은 Raw 데이터를 어느 정도 필터링 하여 단어 분할한 후에 Gephi로 Import 한다.(EX. 2025년 대선후보자 등단 기사에서 발췌.)
2. Statistics를 수행한다.(셋팅: Network overview-average degree,
- Average Degree
- Modularity
- Eigenvector Centrality
3. Filters 를 설정한다.
- Degree Range
- Partition ( 이후 과정에서 설정 )
4. Filter 를 클릭하면 아래와 같이 그래프가 출력된다.
- 위 그래프는 각 노드의 Degree(엣지 개수)가 400개 이상인 노드들만 모아진 것이다.
- Arial Bold, 32 를 클릭하여 폰트를 한글 폰트로 설정한다. ( 한글 폰트로 바꾸지 않으면 한글 텍스트가 깨진다. )
5. Appearance 를 설정한다.
- EigenVector Centrality의 크기 에 따라 노드의 크기 를 크게 해준다.
Apply
를 클릭했을 때의 결과
- Modularity 에 따라 색상을 다르게 해준다.
Apply
를 클릭했을 때의 결과
6. Layout 을 설정한다.
- Force Atlas 2
- Scaling : 1000
Run
클릭 했을 때의 결과- 여기에서 빨간 박스 를 클릭하면 각 노드의 이름이 나타난다.
- 어느 정도 형태가 변하지 않는다면
Stop
을 클릭한다.
7. 결과- Modularity로 나뉜 영역의 의미와 각 노드들의 의미를 분석한다.
★. 겹쳐져있는 노드 떼어내기
- 이렇게 겹쳐져 있는 노드들은 하나하나 드래그 하여 떼어내는 것도 방법이지만
- Label Adjust 기능을 통해 각 노드들을 떼어내준다.
★. 각 Modularity 만 관찰하기
Filter 구성
- Main Filter : Partition ( Modularity Class )
- Sub Filter : Degree Range
- 각 Partition을 클릭하면 해당 Partition 만의 그래프를 출력한다.
이제 분석을 시행하면서 데이터 수정을 반복한다.
빅카인즈-https://www.bigkinds.or.kr/ // 검색어 키워드 유의 -복합어,and,or , 검색도움말,
- 3개월 단위-
뉴스 검색 결과 3,195 건입니다.
https://www.bigkinds.or.kr/v2/news/search.do //
뉴스 검색 결과 12,823 건입니다.
=>검색한 뉴스의 메타데이터(언론사, 기고자, 제목 등)와 개체명(인물, 기관, 장소 등) 분석 데이터를 엑셀파일로 제공하는 서비스입니다.
데이터 다운로드는 최대 20,000건의 데이터가 다운로드 됩니다. 미리보기는 최대 20개까지 보여집니다.
‘키워드’ 항목은 본문 내에서 추출된 키워드 중 단순 숫자(1, 2, 2018, 2019 등), 이메일 주소, 시간을 뜻하는 단어(밤, 낮, 새벽 등)를 제외한 결과가 표시됩니다.
=>
# 빅데이터 분석 ? NO코딩 분석도구 활용한 기초 분석 (엑셀 VS 통그라미 VS KAMP) ? AI 분석(퍼플랙시티) 결과 해석 ? AI 분석(클로드 VS CUE) 리포트 작성
데이터 리터러시 이해 ? 데이터와 정보의 이해 ? 빅데이터의 특징과 가치 ? 데이터 분석의 기본 프로세스 ? 데이터 유형과 구조 이해
0. 성균관대- NetMiner-https://www.netminer.com/kr/etc/free.php
사용법수강 _ https://onlineedu.cyram.com/course/course_view.jsp?id=27350&cid=7405#course-view-27350
1.통그라미(통계인재개발원) - https://tong.kostat.go.kr/front/main/main.do
2. CUE, 대화형 AI / https://namu.wiki/w/Cue: // https://cuekorea.com/
CUE는 AI 및 데이터 분석 기술을 활용한 솔루션을 공급하여, 각 산업 분야의 기업이 디지털 전환을 성공적으로 할 수 있도록 돕고 있습니다.
3. KAMP, 중소벤처기업부에서 주관하는. 세계 최초 민관협력 제조특화 AI 플랫폼. 데이터셋, 제조데이터분석지원. 제조AI데이터셋, AI분석도구, 적용 우수 사례(Use-case)
로그인 : https://www.kamp-ai.kr/login / girimtspp / c~@
4.
댓글 없음:
댓글 쓰기