'분류 전체보기' 카테고리의 글 목록 (4 Page) — 뚝딱이

분류 전체보기

Python/이론, 기초

pandas, github에 있는 데이터 파일 가져오기

아래의 github에 있는 tsv(또는 csv) 파일을 가져올 것이다. 위의 파일을 눌러서 들어와서 Raw 버튼을 누른다. "https://raw.githubusercontent.com/google-research/google-research/master/goemotions/data/train.tsv" 위의 주소를 그대로 복사하여 아래 코드에 넣는다. ParserError: Error tokenizing data. C error: Expected 2 fields in line 12, saw 4 ParserError: Error tokenizing data. C error: Expected 2 fields in line 12, saw 4 위와 같은 에러가 떠서 sep='\n'을 추가하여 해결 df=pd.r..

Python/numpy & Pytorch

csv 파일 json으로 바꾸기

csv 파일을 json으로 바꿔야 하는 상황이 생겨서 변경하고자 한다. import csv import json import pandas as pd csv_file_path = '파일 경로' data = df_tweet = pd.read_csv(csv_file_path) data with open(csv_file_path, 'r', encoding='utf-8') as f: reader = csv.reader(f) next(reader) # 첫 줄 skip # 각 라인마다 딕셔너리 생성 후 리스트에 추가 data = [] for line in reader: d = { 'Topic': line[0], 'Sentiment': line[1], 'TweetId': int(line[2]), 'TweetDate':..

기타/etc

github 코드 가져오는 방법 (Clone)

Vscode Vscode에 들어가서 "F1"을 눌려서 git clone을 검색한다. 그 후에 git 주소를 넣어주면 된다. git 주소는 아래와 같이 copy 할 수 있음 그 후 다운할 위치를 지정하고 select as Repository Destination을 누르면 끝난다. 로컬디스크 다운 할 위치로 가서 open Git Bash here을 누른다. git clone

Machine Learning/기법

Apriori 이란? - 장바구니, 연관성 분석

https://pasongsong.tistory.com/537 Association Rule 연관 규칙 Association Rule 추천 시스템에서 Baseline이 되는 것으로 어떤 사건이 얼마나 자주 함께 발생하는 지를 수치화 하는 방법이다. items 사이의 관계를 수치화 하는 방법으로 items끼리의 상호 연관관계를 pasongsong.tistory.com Association Rule을 적용하기 위해서는 각 item이 item Set에서 어떤 빈도로 출현했는지, 어떤 item과 함께 나왔는지 파악 해야 한다. Dataset의 모든 후보 itemset에 대해 하나하나 검사하는 것은 굉장히 비효율적이며 시간이 오래 걸린다. 이러한 문제를 해결하기 위해 Apriorim, FP-Growth Algor..

Machine Learning/기법

Association Rule 연관 규칙

Association Rule 추천 시스템에서 Baseline이 되는 것으로 어떤 사건이 얼마나 자주 함께 발생하는 지를 수치화 하는 방법이다. items 사이의 관계를 수치화 하는 방법으로 items끼리의 상호 연관관계를 나타냄 \( X \Rightarrow Y \): X를 선택하였을 때 Y가 선택될 확률 "X를 사면 Y를 산다"는 규칙을 찾는 것으로 추천 시스템의 Baseline으로 사용됨 용어 조건절 Antecedent, 결과절 Consequent \( X \Rightarrow Y \): X를 선택하였을 때 Y가 선택될 확률 Antecedent(IF): X Consequent(THEN): Y Item Set 조건절(Antecedent), 결과절(Consequent)을 구성하는 상품의 집합 Assoc..

NLP

프롬프트 엔지니어링 prompt-engineering 기초

Chat GPT의 공개로 대화형 인공지능(Conversation AI)의 시대가 열였다. 시험용 버전의 사용자가 1억명을 넘어섰으며 많은 사람들이 일상생활에서 Chat GPT를 활용하고 있다. 그렇기에 대화형 인공지능을 다루는 방법을 익히는 것이 중요해지며 인공지능과 상호작용을 통해 "답"을 원하는 양식으로 얻을 수 있는 "능력"이 중요해질 것이다. 프롬프트 엔지니어링 사용 사례 주제별 전문 지식 비판적 사고 창의성 프롬프트(Prompt) 프롬프트(prompt)란 거대 언어 모델(Large Language Model; LLM)로 부터 응답을 생성하기 위한 입력값을 의미하며 자연어의 형태를 지님 즉 특정 작업을 수행하도록 생성형 AI에 요청하는 자연어 text이며 모든 유형의 입력에 유용한 출력을 생성하지..

NLP

GNN(Graph Neural Network)의 기초, 이론, 모델 학습

그래프는 기존의 머신러닝, 딥러닝 모델이 잘 처리하지 못하는 non-Euclidean 데이터이며 처리하기 어려운 이유는 기존의 모델들은 상대적으로 단순한 데이터 유형에 특화되어 있기 때문임 이미지, 텍스트, 오디오는 인접한 픽셀, 전후 순서 연결 등이 있으며 상하좌우도 없고 고정된 순서도 없는 복잡한 그래프보다는 단순함 이러한 그래프를 데이터를 처리하기 위해 GNN이 등장 선행지식 Graph https://pasongsong.tistory.com/237 Graph란 Vecties(꼭짓점, 정점)와 edges(간선)으로 이루어진 데이터 구조를 말함 정의는 G=(V, E)로 정의되며 V는 node set, E는 Edge set이다. V는 데이터의 정보를 담고 있으며, E는 데이터 간의 관계 정보가 포함되어 ..

NLP

NER 기초

NER(Named Entity Recognition) Named Entity(이름을 가진 개체)를 Recognition(인식)하는 것을 의미하며 "개체명 인식"이라고 불림 정보 통신 용어에 따르면 아래와 같이 정의 미리 정의해 둔 사람, 회사, 장소, 시간, 단위 등에 해당하는 단어(개체명)를 문서에서 인식하여 추출 분류하는 기법. 추출된 개체명은 인명(person), 지명(location), 기관명(organization), 시간(time) 등으로 분류된다. 개체명 인식(NER)은 정보 추출을 목적으로 시작되어 자연어 처리, 정보 검색 등에 사용됨 인간은 단어를 듣거나 text를 읽을 때마다 그 단어가 어디에 속하는 지 식별(사람, 장소 위치 등)하는 능력을 가지고 있으며 단어를 빠르게 인식하고 분류하..

파송송
'분류 전체보기' 카테고리의 글 목록 (4 Page)